Dimensiones de calidad de datos: Claves para medir la calidad de los datos
por Iván Amón
por Iván Amón
Comencemos definiendo qué es una dimensión. El término puede tener diferentes acepciones o significados dependiendo del contexto en que se aplique. Según la Real Academia de la Lengua Española puede entenderse como:
1. Una magnitud medible en un espacio,
2. El tamaño o extensión de una cosa,
3. La importancia o relevancia de algo,
4. Un aspecto o faceta de algo.
Un uso común del término dimensión es para hacer una analogía con la medición de objetos físicos (por ejemplo, longitud, ancho, altura).
En el ámbito de calidad de datos es una característica o una propiedad de los datos. Las dimensiones de calidad de datos proporcionan un vocabulario para definir los requisitos de calidad de éstos. Las dimensiones de calidad de datos son criterios usados para evaluar la calidad de la información en un sistema. A partir de ahí, se pueden usar para definir los resultados de la evaluación inicial de la calidad de los datos, así como la medición continua.
Para medir la calidad de los datos, una organización necesita establecer características que sean importantes para los procesos de negocio que sean medibles. Las dimensiones proporcionan una base para reglas medibles, que deberían estar directamente conectadas a riesgos potenciales en procesos críticos.
Conocer y aplicar los conceptos relacionados con las dimensiones de calidad de los datos es clave para desarrollar una estrategia de mejora de la calidad de datos en una organización y para que sean de utilidad las dimensiones de calidad de datos deben ser medidas o cuantificadas. Por ejemplo, si los datos en el campo de dirección de correo electrónico del cliente están vacíos o contienen algo incorrecto, entonces no se podrá enviar información a los clientes por correo electrónico, y se perderán ventas potenciales. Por lo tanto, medir el porcentaje de clientes para los que se tiene direcciones de correo electrónico utilizables y trabajar empresarialmente para lograr que dicho porcentaje aumente mediante el mejoramiento de nuestros procesos, permitirá a la organización hacer una mejor gestión comercial que seguramente se traducirá en mayores niveles de ventas.
Las dimensiones se centran en si hay suficientes datos, si son correctos, qué tan bien encajan, si están actualizados, accesibles, utilizables y seguros.
A lo largo del tiempo, diferentes autores y entidades se han referido a las dimensiones de calidad de datos. A continuación, algunos de ellos:
· ISO/IEC 25012: El estándar internacional de calidad de datos define varias dimensiones de calidad de datos, como exactitud, integridad, y validez.
· DAMA-DMBOK (Data Management Body of Knowledge): Proporciona un marco completo para la gestión de datos y cubre múltiples dimensiones de calidad de datos.
· The Data Warehouse Institute (TDWI): Ofrece guías y modelos para evaluar la calidad de los datos en contextos de almacenamiento y análisis.
· Modelo de Calidad de Datos de Wang y Strong (1996): Introduce varias dimensiones de calidad de datos, como exactitud, completitud y consistencia.
· Framework de Calidad de Datos de Gartner: Proporciona una perspectiva práctica sobre la gestión y evaluación de la calidad de los datos.
· “Data Quality: The Accuracy Dimension” por Jack E. Olson: Este libro aborda en detalle las dimensiones de calidad de datos y proporciona una visión profunda de cada una de ellas.
· “Data Quality: Concepts, Methodologies and Techniques” por Carlo Batini y Mónica Scannapieco: Ofrece un enfoque exhaustivo sobre los conceptos y técnicas relacionadas con la calidad de los datos.
Las dimensiones de calidad de datos existentes en la literatura son muchas — de hecho pueden llegar a ser más de cincuenta- y por tanto puede ser complejo implementar en la práctica una estrategia de calidad de datos haciendo uso de ellas, pero lo que complica aún más el tema es que algunos de sus nombres y sus definiciones son muy similares o sinónimos y adicionalmente no hay acuerdo entre los diferentes autores y organizaciones sobre dichos nombres y definiciones. La tabla siguiente presenta algunas de las dimensiones y las definiciones propuestas por cinco autores y por DAMA:
Referencias:
· Autor 1: Redman: Redman, T. C. (1996). Data Quality for the Information Age. Prentice Hall.
· Autor 2: Wang & Strong: Wang, R. Y., & Strong, D. M. (1996). “Beyond Accuracy: What Data Quality Means to Data Consumers.” Journal of Management Information Systems.
· Autor 3: Batini & Scannapieco: Batini, C., & Scannapieco, M. (2016). Data Quality: Concepts, Methodologies, and Techniques. Springer.
· Autor 4: Saltzman: Saltzman, J. D. (2007). Data Quality: The Accuracy Dimension. Morgan Kaufmann.
· Autor 5: Kahn: Kahn, L. T. (2008). Data Quality Assessment. Wiley.
· DAMA International. (2017). Data management body of knowledge (DMBoK) (2.ª ed.). Technics Publications.
Adicionalmente a la posible confusión que puede crear tantas dimensiones con definiciones no coincidentes, otro aspecto a tener en la cuenta es que algunas de las dimensiones pueden ser confusas y/o de difícil cálculo en la vida real. Veamos algunas dimensiones que pueden servir de ejemplo:
· Oportunidad: Grado en que los datos están disponibles cuando se necesitan para tomar decisiones o realizar acciones.
· Flexibilidad: Capacidad de los datos para adaptarse a diferentes usos o cambios en los requisitos sin perder calidad.
· Legibilidad: Facilidad con la que los datos pueden ser leídos y comprendidos por los usuarios.
· Valía: Grado en que los datos generan valor para la organización.
Como lo pueden consultar en otro de los artículos de DGov4Value “Midiendo la calidad de los datos”, la idea para medir la calidad de los datos es generar indicadores de calidad de datos los cuales están atados a las dimensiones de calidad pudiendo llegar a tener varios indicadores para un solo atributo de datos. Por ejemplo, al campo del correo electrónico de nuestros clientes le podríamos medir la completitud, exactitud y consistencia.
Ante las diferentes definiciones existentes para una misma dimensión, una alternativa podría ser que cada organización elija una definición de lo que va a entender por cada dimensión sin importar si coincide o no con las definiciones de otras organizaciones y medir en consecuencia con lo definido. La desventaja de esto es que podría perder la oportunidad de hacer benchmark con otras empresas o industrias. Otra alternativa es seguir la línea de DAMA que es ampliamente conocida y eso permite compararse con la industria.
Dada la multitud de dimensiones, los consultores expertos de DGov4Value que han asesorado a múltiples organizaciones en la implementación de gobierno de datos, recomiendan iniciar el camino del mejoramiento de la calidad de los datos identificando para cada atributo de datos unas pocas dimensiones de calidad de datos que impacten positivamente al negocio y utilizar definiciones simples y fáciles de calcular. Por ejemplo, para medir la completitud de un atributo, un buen inicio es simplemente determinar el porcentaje de registros que tienen contenido, esto es, que no están vacíos. Para la exactitud, definir una regla de calidad que debe cumplir el dato y determinar el porcentaje que la cumple pudiéndose apoyar en expresiones regulares.
Gobernar sobre los datos de una organización es un gran desafío, pero también una gran oportunidad empresarial que lo diferenciará de la competencia.
Si necesitas saber algo adicional o el apoyo de profesionales especialistas para abordar estos temas, te invito a explorar la web www.dgov4value.com