Hogar Audio ¿Cómo se ha convertido el raspado de datos para el aprendizaje automático en el cuello de botella más laborioso desde la entrada manual de datos en la migración heredada?

¿Cómo se ha convertido el raspado de datos para el aprendizaje automático en el cuello de botella más laborioso desde la entrada manual de datos en la migración heredada?

Anonim

Q:

¿Cómo se ha convertido el raspado de datos para el aprendizaje automático en el cuello de botella más laborioso desde la entrada manual de datos en la migración heredada?

UN:

Uno de los problemas prácticos que las empresas pueden encontrar al intentar iniciar un proyecto de aprendizaje automático (ML) es el desafío de adquirir los conjuntos de datos de capacitación inicial. Esto podría incluir procesos que requieren mucha mano de obra, como el raspado web u otro raspado de datos.

Los términos raspado web y raspado de datos se refieren en gran medida a la actividad automatizada por software de computadora, pero para muchos proyectos de ML, habrá casos en los que las computadoras no tienen la sofisticación para recopilar los datos específicos correctos, por lo que tendrá que hacerse "manualmente." Esto podría llamarse "raspado humano de datos / web", y es un trabajo ingrato. Generalmente implica salir y buscar datos o imágenes para "alimentar" el programa ML a través de conjuntos de entrenamiento. A menudo es bastante iterativo, lo que lo convierte en un trabajo tedioso, lento y exigente.

Descarga gratuita: Aprendizaje automático y por qué es importante

El raspado de datos para los conjuntos de entrenamiento de ML representa un cuello de botella problemático en el aprendizaje automático, en parte porque gran parte del otro trabajo es altamente conceptual y no repetitivo. A muchas personas se les ocurre una gran idea para una nueva aplicación que realiza tareas de aprendizaje automático, pero los aspectos básicos y el trabajo práctico pueden ser mucho más difíciles. En particular, delegar el trabajo de ensamblar los conjuntos de entrenamiento en realidad puede ser una de las partes más difíciles de un proyecto de ML, como se exploró en el programa de televisión "Silicon Valley" de Mike Judge. En un episodio de la cuarta temporada, un emprendedor incipiente primero intimida a un socio para que haga el trabajo intensivo en mano de obra, luego trata de pasarlo a los estudiantes universitarios disfrazándolo como una tarea.

Este ejemplo es instructivo porque muestra cuán disgustado y aparentemente sin importancia es el raspado manual de datos. Sin embargo, también muestra que este proceso es necesario para una amplia gama de productos de aprendizaje automático. Aunque la mayoría de las personas odian la entrada de datos, los conjuntos de capacitación deben ensamblarse de alguna manera. Los expertos en el proceso a menudo recomiendan el uso de un servicio de raspado web, esencialmente solo externalizando este trabajo que requiere mucha mano de obra a terceros, pero eso podría tener ramificaciones de seguridad y causar otros problemas. Al mantener el trabajo manual de recopilación de datos en la empresa, nuevamente, debe haber una provisión para lo que a menudo es un proceso muy manual y que consume mucho tiempo.

De alguna manera, el "raspado de datos humanos" para el aprendizaje automático se parece a la entrada manual de datos que a veces tenía que hacerse en la migración heredada. A medida que la nube se hizo cada vez más popular, y las empresas pusieron sus procesos y flujos de trabajo en la nube, algunos descubrieron que no habían trabajado en los aspectos prácticos de cómo obtener sus datos corporativos de un sistema heredado aislado en aplicaciones nativas de la nube. Como resultado, algunas personas que de otro modo eran científicos de datos o personas creativas con habilidades esenciales de TI se encontraron realizando tareas desagradables de entrada de datos.

Es probable que ocurra lo mismo con el aprendizaje automático. Es posible que escuche a un científico de datos quejarse de que "soy una persona creativa" o "estoy en el lado del desarrollo", pero alguien tiene que hacer el trabajo sucio.

Nuevamente, si el flujo creativo no coincide con una evaluación práctica de la delegación del flujo de trabajo, habrá una discrepancia en cómo se dirige el manejo de la tarea. Cuando una empresa no tiene personas para realizar el trabajo de raspado de datos en la recopilación de conjuntos de datos, carece de una parte clave de la cadena de procedimiento para un proyecto exitoso. Vale la pena tener esto en cuenta cada vez que una empresa intenta cumplir una idea que se basa en el desarrollo de nuevas aplicaciones de aprendizaje automático.

¿Cómo se ha convertido el raspado de datos para el aprendizaje automático en el cuello de botella más laborioso desde la entrada manual de datos en la migración heredada?