Hogar Audio ¿Cuáles son algunas formas clave de automatizar y optimizar los procesos de ciencia de datos?

¿Cuáles son algunas formas clave de automatizar y optimizar los procesos de ciencia de datos?

Anonim

Q:

¿Cuáles son algunas formas clave de automatizar y optimizar los procesos de ciencia de datos?

UN:

Los procesos de ciencia de datos en el contexto del aprendizaje automático y la IA se pueden dividir en cuatro fases distintas:

  1. adquisición y exploración de datos,
  2. construcción del modelo,
  3. despliegue de modelo y
  4. evaluación y refinamiento en línea.

Desde mi experiencia, las fases más difíciles son las fases de adquisición de datos y despliegue de modelos en cualquier proceso de ciencia de datos basado en aprendizaje automático, y aquí hay dos formas de optimizarlas:

1. Establecer un almacén de datos altamente accesible.

En la mayoría de las organizaciones, los datos no se almacenan en una ubicación central. Solo tomemos información relacionada con los clientes. Tiene información de contacto del cliente, correos electrónicos de atención al cliente, comentarios de los clientes e historial de navegación del cliente si su negocio es una aplicación web. Todos estos datos están naturalmente dispersos, ya que sirven para diferentes propósitos. Pueden residir en diferentes bases de datos y algunas pueden estar completamente estructuradas y otras no estructuradas, e incluso pueden almacenarse como archivos de texto sin formato.

Desafortunadamente, la dispersión de estos conjuntos de datos es altamente limitante para el trabajo de ciencia de datos, ya que la base de todos los problemas de PNL, aprendizaje automático y AI son los datos . Por lo tanto, tener todos estos datos en un solo lugar, el almacén de datos, es primordial para acelerar el desarrollo y la implementación del modelo. Dado que esta es una pieza crucial para todos los procesos de ciencia de datos, las organizaciones deben contratar ingenieros de datos calificados para ayudarlos a construir sus almacenes de datos. Esto puede comenzar fácilmente como simples volcados de datos en una ubicación y crecer lentamente en un repositorio de datos bien pensado, completamente documentado y consultable con herramientas de utilidad para exportar subconjuntos de datos a diferentes formatos para diferentes propósitos.

2. Exponga sus modelos como un servicio para una integración perfecta.

Además de permitir el acceso a los datos, también es importante poder integrar los modelos desarrollados por los científicos de datos en el producto. Puede ser extremadamente difícil integrar modelos desarrollados en Python con una aplicación web que se ejecuta en Ruby. Además, los modelos pueden tener muchas dependencias de datos que su producto puede no ser capaz de proporcionar.

Una manera de lidiar con esto es establecer una infraestructura sólida alrededor de su modelo y exponer la funcionalidad suficiente que necesita su producto para usar el modelo como un "servicio web". Por ejemplo, si su aplicación necesita una clasificación de opinión en las revisiones del producto, todo lo que debe hacer es invocar el servicio web, proporcionar el texto relevante y el servicio devolverá la clasificación de sentimiento adecuada que el producto puede usar directamente. De esta manera, la integración es simplemente en forma de una llamada API. Desacoplar el modelo y el producto que lo usa hace que sea muy fácil para los nuevos productos que se te ocurran usar también estos modelos con poca molestia.

Ahora, configurar la infraestructura alrededor de su modelo es otra historia y requiere una gran inversión inicial por parte de sus equipos de ingeniería. Una vez que la infraestructura está allí, es solo cuestión de construir modelos de una manera que se ajuste a la infraestructura.

¿Cuáles son algunas formas clave de automatizar y optimizar los procesos de ciencia de datos?