Tabla de contenido:
- ¿Cómo comenzó Hadoop?
- ¿Qué es tan importante sobre Hadoop?
- ¿Qué es el esquema en lectura?
- ¿Qué es la colmena?
- ¿Qué tipo de datos analiza Hadoop?
- ¿Puedes dar un ejemplo real de Hadoop?
- ¿Hadoop ya está obsoleto o simplemente se está transformando?
¿Qué es el Hadoop? Es un elefante de juguete amarillo. ¿No es lo que esperabas? ¿Qué tal esto? Doug Cutting, cocreador de este proyecto de software de código abierto, tomó prestado el nombre de su hijo, quien llamó a su elefante de juguete Hadoop. En pocas palabras, Hadoop es un marco de software desarrollado por Apache Software Foundation que se utiliza para desarrollar computación distribuida y con uso intensivo de datos. Y es un componente clave en otra palabra de moda que los lectores nunca parecen tener suficiente: grandes datos. Aquí hay siete cosas que debe saber sobre este software único y con licencia gratuita.
¿Cómo comenzó Hadoop?
Hace doce años, Google creó una plataforma para manipular las enormes cantidades de datos que estaba recopilando. Como suele hacer la empresa, Google puso su diseño a disposición del público en forma de dos documentos: Google File System y MapReduce.
Al mismo tiempo, Doug Cutting y Mike Cafarella estaban trabajando en Nutch, un nuevo motor de búsqueda. Los dos también estaban luchando sobre cómo manejar grandes cantidades de datos. Entonces los dos investigadores se enteraron de los documentos de Google. Esa afortunada intersección cambió todo al introducir Cutting y Cafarella a un mejor sistema de archivos y una forma de realizar un seguimiento de los datos, lo que finalmente condujo a la creación de Hadoop.
¿Qué es tan importante sobre Hadoop?
Hoy, recopilar datos es más fácil que nunca. Tener todos estos datos presenta muchas oportunidades, pero también hay desafíos:- Grandes cantidades de datos requieren nuevos métodos de procesamiento.
- Los datos que se capturan están en un formato no estructurado.
Luego, tuvieron que abordar datos no estructurados o datos en formatos que los sistemas de bases de datos relacionales estándar no podían manejar. Cutting y Cafarella diseñaron Hadoop para trabajar con cualquier tipo de datos: estructurados, no estructurados, imágenes, archivos de audio, incluso texto. Este documento técnico de Cloudera (integrador de Hadoop) explica por qué esto es importante:
-
"Al hacer que todos sus datos sean utilizables, no solo lo que hay en sus bases de datos, Hadoop le permite descubrir relaciones ocultas y revela respuestas que siempre han estado fuera de su alcance. Puede comenzar a tomar más decisiones basadas en datos duros, en lugar de corazonadas, y mirar en conjuntos de datos completos, no solo muestras y resúmenes ".
¿Qué es el esquema en lectura?
Como se mencionó anteriormente, una de las ventajas de Hadoop es su capacidad para manejar datos no estructurados. En cierto sentido, eso es "patear la lata en el camino". Finalmente, los datos necesitan algún tipo de estructura para analizarlos.
Ahí es donde entra en juego el esquema de lectura. El esquema en la lectura es la combinación de en qué formato están los datos, dónde encontrarlos (recuerde que los datos están dispersos entre varios servidores) y qué hacer con los datos, no es una tarea simple. Se ha dicho que manipular datos en un sistema Hadoop requiere las habilidades de un analista de negocios, un estadístico y un programador de Java. Desafortunadamente, no hay muchas personas con esas calificaciones.
¿Qué es la colmena?
Si Hadoop iba a tener éxito, trabajar con los datos tenía que simplificarse. Entonces, la multitud de código abierto se puso a trabajar y creó Hive:-
"Hive proporciona un mecanismo para proyectar la estructura en estos datos y consultar los datos utilizando un lenguaje similar a SQL llamado HiveQL. Al mismo tiempo, este lenguaje también permite que los programadores tradicionales de mapeo / reducción conecten sus mapeadores y reductores personalizados cuando sea inconveniente o ineficiente para expresar esta lógica en HiveQL ".
Hive permite lo mejor de ambos mundos: el personal de la base de datos familiarizado con los comandos SQL puede manipular los datos, y los desarrolladores familiarizados con el esquema en el proceso de lectura aún pueden crear consultas personalizadas.
¿Qué tipo de datos analiza Hadoop?
El análisis web es lo primero que viene a la mente, analizar los registros web y el tráfico web para optimizar los sitios web. Facebook, por ejemplo, definitivamente está en el análisis web, usando Hadoop para clasificar los terabytes de datos que acumula la compañía.
Las empresas utilizan clústeres de Hadoop para realizar análisis de riesgos, detección de fraudes y segmentación de la base de clientes. Las empresas de servicios públicos utilizan Hadoop para analizar los datos de los sensores de su red eléctrica, lo que les permite optimizar la producción de electricidad. Las principales compañías como Target, 3M y Medtronics utilizan Hadoop para optimizar la distribución de productos, las evaluaciones de riesgos comerciales y la segmentación de la base de clientes.
Las universidades también invierten en Hadoop. Brad Rubin, profesor asociado de los Programas de Posgrado en Software de la Universidad de St. Thomas, mencionó que su experiencia en Hadoop está ayudando a clasificar la gran cantidad de datos recopilados por grupos de investigación en la universidad.
¿Puedes dar un ejemplo real de Hadoop?
Uno de los ejemplos más conocidos es el TimesMachine. The New York Times tiene una colección de imágenes TIFF de periódicos de página completa, metadatos asociados y texto de artículos desde 1851 hasta 1922 que ascienden a terabytes de datos. Derek Gottfrid de NYT, utilizando un sistema EC2 / S3 / Hadoop y un código especializado:-
"Se ingirieron 405, 000 imágenes TIFF muy grandes, 3, 3 millones de artículos en SGML y 405, 000 archivos xml que mapean artículos a regiones rectangulares en los TIFF. Estos datos se convirtieron en 810, 000 imágenes PNG más amigables para la web (miniaturas e imágenes completas) y 405, 000 archivos JavaScript. "
Utilizando servidores en la nube de Amazon Web Services, Gottfrid mencionó que podían procesar todos los datos necesarios para TimesMachine en menos de 36 horas.
¿Hadoop ya está obsoleto o simplemente se está transformando?
Hadoop ha existido por más de una década. Eso tiene muchos diciendo que es obsoleto. Un experto, el Dr. David Rico, dijo que "los productos de TI son de corta duración. En los años caninos, los productos de Google son aproximadamente 70, mientras que Hadoop tiene 56".
Puede haber algo de verdad en lo que dice Rico. Parece que Hadoop está pasando por una revisión importante. Para obtener más información al respecto, Rubin me invitó a una reunión del Grupo de Usuarios Hadoop de Twin Cities, y el tema de discusión fue Introducción a YARN:
-
"Apache Hadoop 2 incluye un nuevo motor MapReduce, que tiene una serie de ventajas sobre la implementación anterior, incluida una mejor escalabilidad y utilización de recursos. La nueva implementación se basa en un sistema general de administración de recursos para ejecutar aplicaciones distribuidas llamadas YARN".