¿Cómo puede sql en hadoop ayudar con el análisis de big data?

2026

Tabla de contenido:

Definición de SQL en Hadoop

SQL en Hadoop es un grupo de herramientas de aplicación analíticas que combinan consultas y procesamiento de datos al estilo SQL con los elementos más recientes del marco de datos de Hadoop. La aparición de SQL en Hadoop es un desarrollo importante para el procesamiento de big data porque permite que grupos más amplios de personas trabajen con éxito con el marco de procesamiento de datos de Hadoop ejecutando consultas SQL en los enormes volúmenes de big data que procesa Hadoop. Obviamente, el marco Hadoop anteriormente no era tan accesible para las personas, especialmente en términos de sus capacidades de consulta. Según el desarrollo, se han desarrollado varias herramientas que prometen mejorar la productividad de las empresas cuando se trata de procesar y analizar grandes datos con calidad y velocidad. Tampoco es necesario invertir mucho en aprender la herramienta, como debería hacer el conocimiento tradicional de SQL.

Definición de SQL en Hadoop

SQL en Hadoop es un grupo de aplicaciones que le permite ejecutar consultas de estilo SQL en grandes datos alojados en el marco de procesamiento de datos de Hadoop. Obviamente, la consulta, recuperación y análisis de datos se ha vuelto más fácil con la adición de SQL en Hadoop. Dado que SQL se diseñó originalmente para bases de datos relacionales, tuvo que modificarse de acuerdo con el modelo Hadoop 1 que comprende MapReduce y el Sistema de archivos distribuidos de Hadoop (HDFS), y el modelo Hadoop 2 que no tiene MapReduce y HDFS.

Uno de los primeros esfuerzos para combinar SQL con Hadoop resultó en la creación del almacén de datos de Hive con el software HiveQL que podría traducir consultas de estilo SQL en trabajos de MapReduce. Después de eso, se desarrollaron varias aplicaciones que podrían hacer trabajos similares. Entre las herramientas posteriores destacan Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) y Tez (Hive on Tez).