Hogar It-Business Datos, grandes y pequeños: ¿dónde está el valor real?

Datos, grandes y pequeños: ¿dónde está el valor real?

Tabla de contenido:

Anonim

Big data es una palabra general utilizada para referirse al manejo de grandes volúmenes de datos. Todos entendemos que cuanto mayor es el volumen de datos, más complejo se vuelve. Las soluciones de bases de datos tradicionales a menudo no pueden administrar grandes volúmenes de datos correctamente debido a su complejidad y tamaño. Por lo tanto, administrar grandes volúmenes de datos y extraer información real es una tarea difícil. El mismo concepto de "valor" también es aplicable a datos pequeños.

Cómo se usa Big Data

Las soluciones de bases de datos convencionales basadas en el concepto RDBMS pueden gestionar muy bien los datos transaccionales y se utilizan ampliamente en diferentes aplicaciones. Pero cuando se trata de manejar un gran conjunto de datos (datos que están archivados y están en terabytes o petabytes), estas soluciones de bases de datos a menudo fallan. Estos conjuntos de datos son demasiado grandes y la mayoría de las veces no encajan en la arquitectura de las bases de datos tradicionales. En estos días, los grandes datos se han convertido en un enfoque rentable para manejar conjuntos de datos más grandes. Desde el punto de vista organizacional, el uso de big data se puede dividir en las siguientes categorías, donde reside el valor real de big data:

  • Uso analitico

    Los analistas de big data han revelado muchos aspectos ocultos importantes de datos que son demasiado costosos de procesar. Por ejemplo, si tenemos que verificar el interés de tendencia de los estudiantes sobre un tema nuevo y determinado, podemos hacerlo analizando los registros de asistencia diaria y otros hechos sociales y geográficos. Estos hechos se capturan en la base de datos. Si no podemos acceder a estos datos de manera eficiente, no podemos ver los resultados.

  • Habilitar nuevos productos

    En el pasado reciente, muchas compañías web nuevas, como Facebook, han comenzado a utilizar big data como una solución para lanzar nuevos productos. Todos sabemos lo popular que es Facebook: ha preparado con éxito una experiencia de usuario de alto rendimiento utilizando big data.

¿Dónde está el valor real?

Las diferentes soluciones de big data difieren en el enfoque en el que almacenan datos, pero al final, todos almacenan datos en una estructura de archivo plano. En general, Hadoop consta del sistema de archivos y algunas abstracciones de datos a nivel de sistema operativo. Esto incluye un motor MapReduce y el Sistema de archivos distribuidos de Hadoop (HDFS). Un clúster Hadoop simple incluye un nodo maestro y varios nodos de trabajo. El nodo maestro consta de lo siguiente:

  • Rastreador de tareas
  • Job Tracker
  • Nodo de nombre
  • Nodo de datos
El nodo de trabajo consta de lo siguiente:
  • Rastreador de tareas
  • Nodo de datos

Algunas implementaciones solo tienen el nodo de datos. El nodo de datos es el área real donde se encuentran los datos. HDFS almacena archivos grandes (en el rango de terabytes a petabytes) distribuidos en múltiples máquinas. La confiabilidad de los datos en cada nodo se logra al replicar los datos en todos los hosts. Por lo tanto, los datos están disponibles incluso cuando uno de los nodos está inactivo. Esto ayuda a lograr una respuesta más rápida contra las consultas. Este concepto es muy útil en el caso de grandes aplicaciones como Facebook. Como usuario, recibimos una respuesta a nuestra solicitud de chat, por ejemplo, casi de inmediato. Considere un escenario en el que un usuario tiene que esperar mucho tiempo mientras chatea. Si el mensaje y la respuesta posterior no se entregan de inmediato, ¿cuántas personas realmente usarán estas herramientas de chat?

Volviendo a la implementación de Facebook, si los datos no se replican en los clústeres, no será posible tener una implementación atractiva. Hadoop distribuye los datos a través de máquinas en un clúster más grande y almacena archivos como una secuencia de bloques. Estos bloques son de tamaño idéntico, excepto el último bloque. El tamaño del bloque y el factor de replicación se pueden personalizar según las necesidades. Los archivos en HDFS siguen estrictamente el enfoque de escritura única y, por lo tanto, solo pueden ser escritos o editados por un usuario a la vez. Las decisiones con respecto a la replicación de bloques las toma el nodo de nombre. El nodo de nombre recibe informes y respuestas de pulso de cada uno de los nodos de datos. Las respuestas de pulso aseguran la disponibilidad del nodo de datos correspondiente. El informe contiene los detalles de los bloques en el nodo de datos.


Otra implementación de Big Data, Cassandra, también utiliza un concepto de distribución similar. Cassandra distribuye datos en función de la ubicación geográfica. Por lo tanto, en Cassandra, los datos se segregan en función de la ubicación geográfica del uso de datos.

A veces, los datos pequeños tienen un impacto mayor (y menos costoso)

Según Rufus Pollock de la Open Knowledge Foundation, no tiene sentido crear exageración en torno a los grandes datos, mientras que los datos pequeños siguen siendo el lugar donde reside el valor real.


Como su nombre indica, los datos pequeños son un conjunto de datos destinados a un conjunto de datos más grande. Los datos pequeños tienen la intención de cambiar el enfoque del uso de datos y también tienen como objetivo contrarrestar la tendencia de avanzar hacia los datos grandes. El enfoque de datos pequeños ayuda a recopilar datos basados ​​en requisitos específicos utilizando menos esfuerzo. Como resultado, es la práctica comercial más eficiente mientras se implementa la inteligencia empresarial.


En esencia, el concepto de datos pequeños gira en torno a las empresas que requieren resultados que requieren acciones adicionales. Estos resultados deben recuperarse rápidamente y la acción posterior también debe ejecutarse rápidamente. Por lo tanto, podemos eliminar los tipos de sistemas comúnmente utilizados en análisis de big data.


En general, si consideramos algunos de los sistemas específicos que se requieren para la adquisición de big data, una empresa podría invertir en la configuración de un gran almacenamiento de servidores, usar servidores sofisticados de alta gama y las últimas aplicaciones de minería de datos para manejar diferentes bits de datos, incluidas las fechas y horas de las acciones del usuario, la información demográfica y otra información. Todo este conjunto de datos se traslada a un almacén de datos central, donde se utilizan algoritmos complejos para clasificar y procesar los datos que se mostrarán en forma de informes detallados.


Todos sabemos que estas soluciones han beneficiado a muchas empresas en términos de escalabilidad y disponibilidad; Hay organizaciones que consideran que adoptar estos enfoques requiere un esfuerzo considerable. También es cierto que, en algunos casos, se obtienen resultados similares utilizando una estrategia de minería de datos menos sólida.


Los datos pequeños proporcionan una forma para que las organizaciones retrocedan de una obsesión con las tecnologías más recientes y más recientes que admiten procesos comerciales más sofisticados. Las empresas que promueven datos pequeños argumentan que es importante desde el punto de vista comercial utilizar sus recursos de manera eficiente, de modo que se pueda evitar el gasto excesivo en tecnología en cierta medida.


Hemos discutido mucho sobre las realidades de big data y small data, pero debemos entender que seleccionar la plataforma correcta (big data o small data) para el uso correcto es la parte más importante de todo el ejercicio. Y la verdad es que si bien los grandes datos pueden proporcionar muchos beneficios, no siempre es lo mejor.

Datos, grandes y pequeños: ¿dónde está el valor real?