Entre las nuevas empresas de tecnología, el científico de datos es un término cada vez más común que se utiliza para referirse a los geeks de datos capaces de unir áreas funcionales tradicionalmente separadas de inteligencia de datos. Un científico de datos es alguien que se siente cómodo realizando varios (si no todos) los aspectos de los proyectos de inteligencia de datos:
- Adquisición de datos: esto podría implicar la escritura de analizadores personalizados y rastreadores web o scripts que apuntan a servicios web específicos o API para fuentes de datos no tradicionales.
- Gestión de datos: ETL, manipular, consultar y mantener datos en bases de datos, almacenes de valores clave o Hadoop.
- Visualización de información: descubriendo patrones mediante el uso de kits de herramientas de visualización estática y / o plataformas interactivas basadas en Flash, JavaScript o Procesamiento.
- Análisis: esto puede variar de técnicas simples a complejas en estadísticas multivariadas, aprendizaje automático y PNL.
- Perspectiva: Extraiga, resuma y presente los hallazgos clave a una audiencia amplia.
Hay muchas herramientas, habilidades y detalles técnicos, y uno puede pasar años dominando cada uno de los elementos enumerados anteriormente. Si bien un científico de datos puede no poseer un verdadero conocimiento experto en ninguna de las áreas, él o ella se siente cómodo saltando de un lado a otro y realizando tareas básicas en todas ellas. El resultado es un geek de datos lo suficientemente ágil como para investigar rápidamente un proyecto de datos y producir respuestas a preguntas (de alto nivel) de la gerencia. (sobre los científicos de datos en Data Scientists: The New Rock Stars of the Tech World).
Para nutrir a los científicos de datos, las empresas deben centrarse más en la cultura y la estructura organizativa. Muchos trabajadores de datos tienen suficientes habilidades y capacitación para convertirse rápidamente en productivos en múltiples áreas de inteligencia de datos. El problema es que la mayoría no trabaja en entornos que los alienten a convertirse en científicos de datos. Están atrapados en silos y limitados a una o dos áreas de inteligencia de datos. A menudo, están restringidos a usar herramientas "aprobadas" por sus gerentes.