Tabla de contenido:
Big data, el nombre atractivo para grandes volúmenes de datos estructurados, no estructurados o semiestructurados, es notoriamente difícil de capturar, almacenar, administrar, compartir, analizar y visualizar, al menos utilizando bases de datos tradicionales y aplicaciones de software. Es por eso que las tecnologías de Big Data tienen el potencial de administrar y procesar grandes volúmenes de datos de manera efectiva y eficiente. Y es Apache Hadoop el que proporciona el marco y las tecnologías asociadas para procesar grandes conjuntos de datos en grupos de computadoras de manera distribuida. Por lo tanto, para comprender realmente los grandes datos, debe comprender un poco sobre Hadoop. Aquí echaremos un vistazo a los principales términos que escuchará con respecto a Hadoop, y lo que significan.
Seminario web: Big Iron, Meet Big Data: liberación de datos de mainframe con Hadoop y Spark Registrarse aquí |
Pero primero, un vistazo a cómo funciona Hadoop
Antes de ingresar al ecosistema Hadoop, debe comprender dos cosas fundamentales con claridad. El primero es cómo se almacena un archivo en Hadoop; el segundo es cómo se procesan los datos almacenados. Todas las tecnologías relacionadas con Hadoop trabajan principalmente en estas dos áreas y lo hacen más fácil de usar. (Obtenga los conceptos básicos de cómo funciona Hadoop en Cómo ayuda Hadoop a resolver el problema de Big Data).
Ahora, a los términos.