Nuestro colaborador Emilio Arias, de Stratebi nos da unas pautas:
Como lo reconoces?
1) Son datos imprecisos, erróneos e incompletos que provocan problemas para lleva a cabo la estrategia de la empresa
2) Implica una mala toma de decisiones y una mala ejecución de las mismas
3) El coste del 'Bad Data', según estudios de IBM, les puede suponer a las empresas, hasta un 30% de los ingresos
4) En tu compañía no usas herramientas ETL (Integración, Transformación y Carga) o las usas mal, para mejorar los procesos de adquisición, depurado y limpieza de datos. Las hay open source (Pentaho Data Integration y Talend). El coste no será problema
5) Tu información está desestructurada, sin maestros (MDM te suena a chino) e información heterogénea no integrada
6) Querrías incluir datos de redes sociales, APIs, logs, IoT, etc... pero no sabes como distinguir el 'Bad Data' del 'Smart Data'
7) Querrías aplicar 'Machine Learning', pero sabes que con datos erróneos, cualquier algoritmo, por muy ajustado que fuera, te daría resultados sin confianza
8) Cada área, departamento o especialista de tu empresa tiene su propia metodología para aplicar criterios en cuanto a identificar el 'Bad Data'. Data Governance es un sueño idealizado para tí
9) 'Si metes basura, obtendrás basura'. Este aforismo ha funcionado muy bien en Analytics durante años. El problema ahora es que no consigues diferenciar la basura del resto. Se hace urgente poner en marcha una 'Planta de tratamiento de Residuos Analíticos' en tu organización. Funciona igual, separar basura de información útil
10) Querrías convertir el 'Bad Data' en 'Smart Data', pero ni siquiera sabes si esto es factible, cómo para saber lo que te costaría (tiempo y dinero)
11) Conoces los '7 magníficos' que puedes reconocer en el 'Bad Data'?
- Te faltan datos. No hay información, donde debería haberla
- Los datos son incorrectos ('no cuadra', seguro que os suena)
- Los datos no están bien ubicados. A veces, tenemos los datos correctos en origen, pero no los ubicamos correctamente
- Errores de entrada de datos: caracteres erróneos, abreviaturas, traducciones, etc...
- Datos duplicados. No siempre tiene que ser un error, a veces es algo tan trivial como una empresa que cambia de CIF y no actualizas
- Datos no revisados o aprobados. Mucha información requiere de la revisión y aprobación por parte de los responables
- Exceso de Datos. Sí, aunque no lo consideréis, si tenéis exceso de datos, se convierten en 'Bad Data'. Querer analizar cambios de estado de un asiento contable realizados en un día concreto... no suele proporcionar 'decisiones estratégicas'
Solución? En este Portal hablamos mucho de aplicar correctamente ETL, Data Quality, AgileBI, etc... pero lo más importante es 'perseverar' en dichas iniciativas
El Bad Data nunca se va a acabar (que lo sepáis), es como cierta contaminación que siempre aparece, pero hay formas de reducirla, anticiparse y... casi, eliminarla