Datos Duplicados: Un doloroso problema real
por Iván Amón
por Iván Amón
Casi ninguna organización se escapa de tener registros duplicados, esto es, de tener almacenado más de una vez algo que debería ser único convirtiéndose en uno de los problemas de calidad de datos más frecuentes. La idea es que una misma entidad del mundo real se almacena más de una vez, a través de una o varias bases de datos, en filas con igual estructura pero sin un identificador único y éstas presentan diferencias en sus valores.
Sucede en la mayoría de las organizaciones que algunos de nuestros clientes están registrados dos o más veces. Esto puede suceder fácilmente si creamos un cliente con sus datos como Documento de Identidad, Nombre, Fecha Nacimiento, Teléfono celular, entre otros datos y posteriormente sin darnos cuenta se registra nuevamente. Al estar creando el cliente por segunda o tercera vez, se comete un error en la digitación del número de documento y por tanto el sistema lo recibe; adicionalmente los otros datos también pueden ingresarse con diferencias o variaciones que hacen que se tengan dos (o más) registros de un mismo cliente que son similares o parecidos más no idénticos lo cual dificulta detectar que se trata de la misma persona ya que la comparación no es trivial. A estas posibles variaciones las llamaré “Situaciones Problemáticas” y en la siguiente tabla se presentan diferentes situaciones que podrían presentarse:
El que en el maestro de clientes se tenga varias veces al mismo cliente le puede ocasionar a la organización diferentes afectaciones empezando porque ni siquiera es confiable el dato de la cantidad de clientes con que cuenta la empresa ya que éste estaría inflado.
Esta situación se puede presentar no solo en el maestro de clientes sino con los proveedores, productos en inventario, empleados, etc, y todo tipo de organizaciones son susceptibles a este problema: universidades, hospitales, empresas manufactureras, bancos, entre muchas otras. Entre las empresas que los expertos de Dgov4Value hemos apoyado hemos sido testigos de pacientes duplicados, estudiantes duplicados, repuestos duplicados, empleados duplicados, etc.
UN COSTOSO CASO DE LA VIDA REAL
Los registros duplicados realmente pueden ser un doloroso problema. Les contaré el caso de una empresa del sector textil/confección a quienes asesoramos en el año 2013. Dicha empresa contaba con maquinaria que cubría todo el proceso de fabricación de telas y de confección de prendas y para esto contaba con un archivo maestro con aproximadamente 50,000 códigos en inventario correspondientes a los repuestos que necesitaban las máquinas.
Debido a la falta de gobierno sobre los datos, no se contaba con un estándar o regla para la creación de las descripciones de los repuestos y adicionalmente dicha labor era realizada por múltiples personas desde plantas de producción ubicadas en diferentes sitios. Esto llevaba a que de un mismo repuesto podían existir dos o más códigos con descripciones similares más no idénticas. Cuando una máquina sufría una falla que requería algún repuesto, se hacía la búsqueda del repuesto y podría encontrarse uno de los códigos el cual no tenía existencias pero en otro de los códigos si había. “Al no haber disponibilidad” del repuesto se procedía a pedirlo a Europa ya que la mayoría de las máquinas eran de allí, pudiéndose demorar dos o más meses la reposición del repuesto, tiempo durante el cual la máquina estaba parada dejando de producir todo ese tiempo y además se hacían compras que realmente no se necesitaban. Las pérdidas por estas situaciones ascendían a cientos de miles de dólares anuales…
LA SOLUCIÓN
Ahora bien, teniendo claro que no es nada deseable tener registros duplicados ¿cómo detectarlos si no son fácilmente comparables ya que no son idénticos? Palabras en diferente orden, errores ortográficos y litográficos, prefijos y sufijos, … todo un reto …
Para esta tarea, los investigadores a lo largo del tiempo han desarrollado algoritmos que miden la similitud entre datos los cuales buscan detectar los datos que son similares más no idénticos y por tanto podría tratarse de la misma entidad. Ejemplos de estos algoritmos conocidos como Funciones de Similitud son: Distancia de edición de Levenshtein, Brecha Afín, Smith-Waterman, Jaro, Jaro-Winkler, q-grams, Monge-Elkan, SoftTF-IDF, Soundex, entre muchos otros. Saber cual función usar no es trivial ya que cada una tiene sus fortalezas y debilidades y requiere fuerte conocimiento utilizar la más adecuada para un caso específico o situación particular, de acuerdo con la naturaleza de los datos que se estén analizando ya que algunas son más eficaces detectando ciertas situaciones problemáticas o variaciones textuales que otras.
Si desea conocer más profundamente el funcionamiento técnico de las funciones de similitud y sus fortalezas y debilidades puede remitirse a un artículo científico que escribí sobre la temática, el cual fue publicado en una revista científica en el año 2010 …. Si hace muchos años ya, es que tenemos mucha experiencia en calidad y gobierno de datos. El artículo puede consultarse en el siguiente link:
Detección de Duplicados: Una Guía Metodológica
Gobernar sobre los datos de una organización es un gran desafío, pero también una gran oportunidad empresarial que lo diferenciará de la competencia.
Asimismo, si necesitas saber algo adicional o el apoyo de profesionales especialistas para abordar estos temas, te invito a explorar la web www.dgov4value.com