Tabla de contenido:
- Mito: todo el mundo está por delante de nosotros en la adopción de big data.
- Mito: tenemos tantos datos; no debemos preocuparnos por cada pequeño defecto de datos.
- Mito: la tecnología de Big Data eliminará la necesidad de integración de datos.
- Mito: el uso de un almacén de datos para análisis avanzados no tiene sentido.
- Mito: los lagos de datos reemplazarán el almacén de datos.
- Big Data funciona: nuevos métodos de manipulación de datos pueden no funcionar
En mayo de 2014, Forrester Research emitió dos informes que extraen ciertas conclusiones sobre la exageración que rodea a los grandes datos. La firma de investigación encuestó a más de 250 ejecutivos de marketing y desarrollo de negocios. Según los autores del informe, la retórica del big data está en su punto más alto, y los proveedores de tecnología están promocionando productos con lo que parecen ser afirmaciones increíbles.
Gartner está de acuerdo con Forrester Research; exageración sustancial rodea a los grandes datos. En el informe de septiembre de 2014, Gartner desacredita cinco de los mitos de datos más importantes, y los analistas de Gartner ofrecen su opinión sobre lo que no se entiende sobre big data y su manipulación. ¿Cuáles son los mitos más grandes de los grandes datos? Echemos un vistazo.
Mito: todo el mundo está por delante de nosotros en la adopción de big data.
Gartner dice que el interés por los grandes datos está en su punto más alto. A pesar de esto, un mísero 13 por ciento de los encuestados tienen sistemas de trabajo. La razón: la mayoría de las empresas aún no han descubierto cómo extraer cualquier valor de grandes depósitos de datos. Aquí, la encuesta de Gartner es más optimista que el informe Forrester, que encontró que solo el 9 por ciento de los participantes de la encuesta dijo que planeaba implementar tecnologías de datos grandes durante el próximo año. (Big Data tiene mucho que ofrecer. Obtenga más información en 5 problemas del mundo real que Big Data puede resolver).Mito: tenemos tantos datos; no debemos preocuparnos por cada pequeño defecto de datos.
Gartner está preocupado por una debilidad que tenemos los humanos: "Tenemos tanto, lo poco que sea malo no importará". Ted Friedman, vicepresidente y analista distinguido de Gartner, cree que esta es la forma incorrecta de ver la situación.
"En realidad, aunque cada falla individual tiene un impacto mucho menor en todo el conjunto de datos que cuando había menos datos, hay más fallas que antes porque hay más datos", dijo Friedman. "Por lo tanto, el impacto general de los datos de baja calidad en todo el conjunto de datos sigue siendo el mismo".
Friedman agrega otro motivo de preocupación. La captura de grandes datos a menudo incluye datos externos a la empresa, que por lo tanto son de estructura y origen desconocidos. Esto aumenta el potencial de errores.
Mito: la tecnología de Big Data eliminará la necesidad de integración de datos.
Hay dos estrategias clave de análisis de datos que se pueden aplicar a Big Data: "esquema en escritura" o "esquema en lectura". Hasta hace poco, el esquema de escritura era el único método utilizado. El esquema de lectura es la moda actual en la gestión de bases de datos. A diferencia del esquema en escritura, que requiere un formato estructurado, los datos se cargan en bases de datos de esquema en lectura en su formato sin formato. Luego, los desarrolladores, que utilizan plataformas de bases de datos no estructuradas como Hadoop, combinan los datos dispares en un formato utilizable. El esquema de lectura tiene ventajas obvias, pero, como menciona Gartner, la integración de datos tiene que ocurrir en algún momento.Mito: el uso de un almacén de datos para análisis avanzados no tiene sentido.
Pasar el tiempo para crear un almacén de datos parece inútil para muchos administradores de información, particularmente cuando los datos recién capturados son diferentes de los del almacén de datos. Sin embargo, Gartner advierte nuevamente que incluso los análisis de datos avanzados utilizarán almacenes de datos y nuevos datos, lo que significa que los integradores de datos deben:- Refinar nuevos tipos de datos para que sean adecuados para el análisis.
- Decida qué datos son relevantes y el nivel de calidad de datos necesario
- Determinar cómo agregar los datos
- Comprenda que el refinamiento de datos puede ocurrir en lugares distintos del almacén de datos
Mito: los lagos de datos reemplazarán el almacén de datos.
Los lagos de datos son depósitos de datos dispares, a diferencia de los almacenes de datos donde los datos están en un formato estructurado. Crear un lago de datos requiere poco esfuerzo inicial (no es necesario formatear los datos) en comparación con los almacenes de datos, razón por la cual los lagos de datos son de interés.
Gartner enfatiza que tener los datos no es el punto; poder manipular los datos capturados para tomar decisiones informadas es el punto. Además, el uso de lagos de datos (algo no comprobados) para facilitar la toma de decisiones es problemático.
"Los almacenes de datos ya tienen la capacidad de admitir una amplia variedad de usuarios en toda la organización", dijo Nick Heudecker, director de investigación de Gartner. "Los líderes de gestión de la información no tienen que esperar a que los lagos de datos se pongan al día". (Obtenga más información sobre la adopción de Big Data en 7 cosas que debe saber sobre Big Data antes de la adopción).
Big Data funciona: nuevos métodos de manipulación de datos pueden no funcionar
La razón por la que Gartner dijo que los "mitos de datos más grandes" en lugar de los "mitos de datos grandes" se aclara después de leer el informe. Gartner no desconfía de los grandes datos. Gartner desconfía de aquellos que sienten que los métodos más nuevos de manipulación de big data están listos para el "horario estelar".