Tabla de contenido:
La genómica clínica es un tema fascinante, donde las personas trabajan en tecnologías de vanguardia para procesar resultados rápidos y precisos. Hay muchos secuenciadores genómicos disponibles en el mercado, y están produciendo petabytes de datos de secuencia, y el crecimiento en la secuenciación producirá exabytes de datos en el futuro cercano. Aquí, Hadoop es la plataforma perfecta para procesar el flujo de trabajo de genómica compleja. Hadoop puede almacenar y ordenar cantidades masivas de información y también puede realizar análisis significativos. (Para tener una idea de la cantidad de datos que esto realmente implica, lea Comprensión de bits, bytes y sus múltiples).
El presente y el futuro de la genómica
Hoy, el mapeo del genoma ha alcanzado su pico de desarrollo. Muchas personas asociadas con la industria de la genómica están llenas de curiosidad, y a medida que se presentan nuevas oportunidades, una mejor tecnología es la necesidad de la hora. La secuenciación del genoma es una tarea muy repetitiva y que requiere muchos recursos. Solo en 2013, se produjeron alrededor de 15 petabytes de datos, y solo por 2, 000 secuenciadores. Esta cantidad asombrosa incluyó 300 KB de datos secuenciados del genoma humano. A este ritmo de producción de datos, se puede estimar que para 2018, se producirá aproximadamente un exabyte de datos. Esto se debe al crecimiento de los secuenciadores, que producirán más y más datos por ejecución. Otra razón es la llegada de máquinas de secuenciación del genoma extremadamente potentes y de bajo costo. Desde 2008, el precio de estas máquinas ha disminuido constantemente. Esto se debe a las potentes máquinas de próxima generación que han incursionado en el mercado.
Las necesidades de la industria de mapeo del genoma
Se utilizan algoritmos complejos para procesar los datos que se recopilan del genoma humano. Entonces, esta información necesita ser almacenada. Puede ser revisado en el futuro para compararlo con los datos originales. La tarea de procesar y almacenar 100 GB de datos no es demasiado difícil, especialmente cuando lo hace con las potentes máquinas empleadas en los centros de secuenciación. Los estudios muestran que esta cantidad de datos puede procesarse en solo alrededor de 1, 000 horas de CPU, por lo que es muy fácil. A este ritmo de avance técnico, es evidente que la industria del genoma pronto procesará miles de gigabytes en solo unos segundos.