Tabla de contenido:
- Datos de diferentes fuentes difíciles de conectar y mapear
- Los expertos de Hadoop intentan combinar datos juntos
Hadoop es un gran lugar para descargar datos para el procesamiento de análisis o para modelar volúmenes más grandes de una sola fuente de datos que no son posibles con los sistemas existentes. Sin embargo, a medida que las empresas traen datos de muchas fuentes a Hadoop, existe una demanda creciente para el análisis de datos en diferentes fuentes, lo que puede ser extremadamente difícil de lograr. Esta publicación es la primera de una serie de tres partes que explica los problemas que enfrentan las organizaciones, ya que intentan analizar diferentes fuentes y tipos de datos dentro de Hadoop, y cómo resolver estos desafíos. La publicación de hoy se centra en los problemas que se producen al combinar múltiples fuentes internas. Las siguientes dos publicaciones explican por qué estos problemas aumentan en complejidad, a medida que se agregan fuentes de datos externas, y cómo los nuevos enfoques ayudan a resolverlos.
Datos de diferentes fuentes difíciles de conectar y mapear
Los datos de diversas fuentes tienen diferentes estructuras que dificultan la conexión y el mapeo de tipos de datos, incluso datos de fuentes internas. La combinación de datos puede ser especialmente difícil si los clientes tienen múltiples números de cuenta o si una organización ha adquirido o fusionado con otras compañías. En los últimos años, algunas organizaciones han intentado usar aplicaciones de descubrimiento de datos o ciencia de datos para analizar datos de múltiples fuentes almacenadas en Hadoop. Este enfoque es problemático porque implica muchas conjeturas: los usuarios deben decidir qué claves externas usar para conectar varias fuentes de datos y hacer suposiciones al crear superposiciones de modelos de datos. Estas suposiciones son difíciles de probar y, a menudo, incorrectas cuando se aplican a escala, lo que conduce a un análisis de datos defectuoso y desconfianza de las fuentes.
Los expertos de Hadoop intentan combinar datos juntos
Por lo tanto, las organizaciones que desean analizar datos a través de fuentes de datos han recurrido a la contratación de expertos de Hadoop para crear secuencias de comandos personalizadas y específicas de la fuente para fusionar conjuntos de datos. Estos expertos de Hadoop generalmente no son expertos en integración de datos o resolución de entidades, pero hacen lo mejor que pueden para abordar las necesidades inmediatas de la organización. Estos expertos suelen utilizar Pig o Java para escribir reglas estrictas y rápidas que determinan cómo combinar datos estructurados de fuentes específicas, por ejemplo, registros coincidentes basados en un número de cuenta. Una vez que se ha escrito una secuencia de comandos para dos fuentes, si es necesario agregar una tercera fuente, se debe desechar la primera secuencia de comandos y diseñar una nueva secuencia de comandos para combinar tres fuentes específicas. Lo mismo sucede si se agrega otra fuente y así sucesivamente. Este enfoque no solo es ineficiente, sino que también falla cuando se aplica a escala, maneja mal los casos límite, puede dar lugar a una gran cantidad de registros duplicados y, a menudo, combina muchos registros que no deben combinarse.