Hogar Tendencias Cómo hadoop ayuda a resolver el problema de big data

Cómo hadoop ayuda a resolver el problema de big data

Tabla de contenido:

Anonim

Big data es … bueno … ¡de gran tamaño! La cantidad exacta de datos que se pueden clasificar como big data no es muy clara, así que no nos atasquemos en ese debate. Para una pequeña empresa que está acostumbrada a tratar datos en gigabytes, 10 TB de datos serían GRANDES. Sin embargo, para compañías como Facebook y Yahoo, los petabytes son grandes.


Solo el tamaño de Big Data hace que sea imposible (o al menos prohibitivo) almacenarlo en un almacenamiento tradicional como bases de datos o archivadores convencionales. Estamos hablando del costo para almacenar gigabytes de datos. El uso de archivadores de almacenamiento tradicionales puede costar mucho dinero para almacenar grandes datos.


Aquí echaremos un vistazo a Big Data, sus desafíos y cómo Hadoop puede ayudar a resolverlos. Primero, los mayores desafíos del big data.


Big Data es desestructurado o semiestructurado

Una gran cantidad de big data no está estructurada. Por ejemplo, los datos de registro de flujo de clics podrían verse así:


marca de tiempo, user_id, página, referrer_page


La falta de estructura hace que las bases de datos relacionales no sean adecuadas para almacenar grandes datos. Además, no muchas bases de datos pueden hacer frente al almacenamiento de miles de millones de filas de datos.

No tiene sentido almacenar Big Data si no podemos procesarlo

Almacenar big data es parte del juego. Tenemos que procesarlo para extraer inteligencia de él. Los sistemas de almacenamiento tradicionales son bastante "tontos" en el sentido de que solo almacenan bits. No ofrecen ningún poder de procesamiento.


El modelo tradicional de procesamiento de datos tiene datos almacenados en un clúster de almacenamiento, que se copia en un clúster de procesamiento para su procesamiento. Los resultados se vuelven a escribir en el clúster de almacenamiento.


Sin embargo, este modelo no funciona para grandes datos porque copiar tantos datos en un clúster de cómputo puede ser demasiado lento o imposible. Entonces, ¿cuál es la respuesta?


Una solución es procesar grandes datos en el lugar, como en un clúster de almacenamiento que se duplica como un clúster de cómputo.


Entonces, como hemos visto anteriormente, los grandes datos desafían el almacenamiento tradicional. Entonces, ¿cómo manejamos los grandes datos?

Cómo Hadoop resuelve el problema de Big Data

Hadoop está diseñado para ejecutarse en un grupo de máquinas

Comencemos con un ejemplo. Digamos que necesitamos almacenar muchas fotos. Comenzaremos con un solo disco. Cuando excedemos un solo disco, podemos usar algunos discos apilados en una máquina. Cuando maximizamos todos los discos en una sola máquina, necesitamos obtener un montón de máquinas, cada una con un montón de discos.


Así es exactamente cómo se construye Hadoop. Hadoop está diseñado para ejecutarse en un grupo de máquinas desde el principio.



Los clústeres de Hadoop se escalan horizontalmente

Se puede lograr más almacenamiento y potencia de cómputo agregando más nodos a un clúster de Hadoop. Esto elimina la necesidad de comprar hardware cada vez más potente y costoso.


Hadoop puede manejar datos no estructurados / semiestructurados

Hadoop no aplica un esquema en los datos que almacena. Puede manejar texto arbitrario y datos binarios. Entonces Hadoop puede digerir cualquier información no estructurada fácilmente.


Los clústeres de Hadoop proporcionan almacenamiento y computación

Vimos cómo tener clústeres de almacenamiento y procesamiento separados no es la mejor opción para big data. Sin embargo, los clústeres de Hadoop proporcionan almacenamiento y computación distribuida, todo en uno.

El caso de negocios para Hadoop

Hadoop proporciona almacenamiento para big data a un costo razonable

Almacenar big data utilizando el almacenamiento tradicional puede ser costoso. Hadoop se basa en hardware básico, por lo que puede proporcionar un almacenamiento bastante grande a un costo razonable. Hadoop se ha utilizado en el campo a escala de petabytes.


Un estudio de Cloudera sugirió que las empresas generalmente gastan alrededor de $ 25, 000 a $ 50, 000 por terabyte por año. Con Hadoop, este costo se reduce a unos pocos miles de dólares por terabyte por año. A medida que el hardware se vuelve más y más barato, este costo continúa bajando.


Hadoop permite la captura de datos nuevos o más

A veces, las organizaciones no capturan un tipo de datos porque era demasiado costoso almacenarlos. Dado que Hadoop proporciona almacenamiento a un costo razonable, este tipo de datos se puede capturar y almacenar.


Un ejemplo serían los registros de clics del sitio web. Debido a que el volumen de estos registros puede ser muy alto, no muchas organizaciones los capturaron. Ahora con Hadoop es posible capturar y almacenar los registros.


Con Hadoop, puede almacenar datos por más tiempo

Para administrar el volumen de datos almacenados, las empresas purgan periódicamente los datos más antiguos. Por ejemplo, solo se pudieron almacenar registros de los últimos tres meses, mientras que se eliminaron los registros más antiguos. Con Hadoop es posible almacenar los datos históricos por más tiempo. Esto permite que se realicen nuevos análisis en datos históricos más antiguos.


Por ejemplo, tome registros de clics de un sitio web. Hace unos años, estos registros se almacenaron durante un breve período de tiempo para calcular estadísticas como páginas populares. Ahora con Hadoop, es viable almacenar estos registros de clics durante un período de tiempo más largo.


Hadoop proporciona análisis escalables

No tiene sentido almacenar todos estos datos si no podemos analizarlos. Hadoop no solo proporciona almacenamiento distribuido, sino también procesamiento distribuido, lo que significa que podemos procesar un gran volumen de datos en paralelo. El marco de cálculo de Hadoop se llama MapReduce. MapReduce ha sido probado a escala de petabytes.


Hadoop proporciona análisis ricos

Native MapReduce admite Java como lenguaje de programación principal. También se pueden usar otros lenguajes como Ruby, Python y R.


Por supuesto, escribir código MapReduce personalizado no es la única forma de analizar datos en Hadoop. La reducción de mapa de nivel superior está disponible. Por ejemplo, una herramienta llamada Pig toma el inglés como lenguaje de flujo de datos y los traduce a MapReduce. Otra herramienta, Hive, toma consultas SQL y las ejecuta usando MapReduce.


Las herramientas de inteligencia empresarial (BI) pueden proporcionar un nivel de análisis aún mayor. Existen herramientas para este tipo de análisis también.


Este contenido está extraído de "Hadoop Illuminated" de Mark Kerzner y Sujee Maniyam. Se ha puesto a disposición a través de Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.

Cómo hadoop ayuda a resolver el problema de big data