Tabla de contenido:
Todos están hablando de Hadoop, la nueva tecnología que es muy apreciada entre los desarrolladores y que podría cambiar el mundo (nuevamente). Pero de todos modos, ¿qué es eso? ¿Es un lenguaje de programación? Una base de datos? Un sistema de procesamiento? Un té indio acogedor?
La respuesta amplia: Hadoop es todas estas cosas (excepto el té acogedor), y más. Es una biblioteca de software que proporciona un marco de programación para el procesamiento barato y útil de otra palabra de moda moderna: big data.
¿De dónde vino Hadoop?
Apache Hadoop es parte del Proyecto Fundación de Apache Software Foundation, una organización sin fines de lucro cuya misión es "proporcionar software para el bien público". Como tal, la biblioteca Hadoop es un software gratuito de código abierto disponible para todos los desarrolladores.
La tecnología subyacente que impulsa a Hadoop fue realmente inventada por Google. En los primeros días, el motor de búsqueda no bastante gigante necesitaba una forma de indexar las cantidades masivas de datos que recopilaban de Internet y convertirlo en resultados significativos y relevantes para sus usuarios. Sin nada disponible en el mercado que pudiera cumplir con sus requisitos, Google creó su propia plataforma.
Esas innovaciones se lanzaron en un proyecto de código abierto llamado Nutch, que Hadoop luego utilizó como base. Esencialmente, Hadoop aplica el poder de Google a Big Data de una manera que sea asequible para empresas de todos los tamaños.
¿Cómo funciona Hadoop?
Como se mencionó anteriormente, Hadoop no es una cosa, son muchas cosas. La biblioteca de software que es Hadoop consta de cuatro partes principales (módulos) y una serie de soluciones complementarias (como bases de datos y lenguajes de programación) que mejoran su uso en el mundo real. Los cuatro módulos son:- Hadoop Common: esta es la colección de utilidades comunes (la biblioteca común) que admite módulos Hadoop.
- Sistema de archivos distribuidos de Hadoop (HDFS): un sistema de archivos distribuido robusto sin restricciones en los datos almacenados (lo que significa que los datos pueden ser estructurados o no estructurados y sin esquemas, donde muchos DFS solo almacenarán datos estructurados) que proporciona acceso de alto rendimiento con redundancia ( HDFS permite que los datos se almacenen en varias máquinas, por lo que si una máquina falla, la disponibilidad se mantiene a través de las otras máquinas).
- Hadoop YARN: este marco es responsable de la programación de trabajos y la gestión de recursos del clúster; se asegura de que los datos se distribuyan lo suficiente en varias máquinas para mantener la redundancia. YARN es el módulo que hace de Hadoop una forma económica y rentable de procesar grandes datos.
- Hadoop MapReduce: este sistema basado en YARN, basado en la tecnología de Google, lleva a cabo el procesamiento paralelo de grandes conjuntos de datos (estructurados y no estructurados). MapReduce también se puede encontrar en la mayoría de los marcos de procesamiento de big data actuales, incluidas las bases de datos MPP y NoSQL.
El hardware que puede manejar la cantidad de potencia de procesamiento requerida para trabajar con big data es costoso, por decirlo suavemente. Esta es la verdadera innovación de Hadoop: la capacidad de descomponer cantidades masivas de potencia de procesamiento en varias máquinas más pequeñas, cada una con su propio cálculo y almacenamiento localizados, junto con redundancia incorporada a nivel de aplicación para evitar fallas.
¿Qué hace Hadoop?
En pocas palabras, Hadoop hace que Big Data sea accesible y utilizable por todos.
Antes de Hadoop, las compañías que usaban Big Data lo hacían principalmente con bases de datos relacionales y almacenes de datos empresariales (que usan cantidades masivas de hardware costoso). Si bien estas herramientas son excelentes para procesar datos estructurados, que son datos que ya están ordenados y organizados de una manera manejable, la capacidad para procesar datos no estructurados era extremadamente limitada, tanto que prácticamente no existía. Para ser utilizable, los datos primero tenían que estructurarse para que se ajustaran perfectamente a las tablas.
El marco de Hadoop cambia ese requisito, y lo hace de manera económica. Con Hadoop, se pueden procesar cantidades masivas de datos de 10 a 100 gigabytes y superiores, tanto estructurados como no estructurados, utilizando servidores ordinarios (básicos).
Hadoop ofrece posibles aplicaciones de big data para empresas de todos los tamaños, en todas las industrias. El marco de código abierto permite a las compañías financieras crear modelos sofisticados para la evaluación de la cartera y el análisis de riesgos, o los minoristas en línea para ajustar sus respuestas de búsqueda y dirigir a los clientes hacia productos que es más probable que compren.
Con Hadoop, las posibilidades son realmente ilimitadas.