Hogar En las noticias ¿Por qué es tan importante la selección de funciones en el aprendizaje automático?

¿Por qué es tan importante la selección de funciones en el aprendizaje automático?

Anonim

Q:

¿Por qué es tan importante la selección de funciones en el aprendizaje automático?

UN:

La selección de características es extremadamente importante en el aprendizaje automático principalmente porque sirve como una técnica fundamental para dirigir el uso de variables a lo que es más eficiente y efectivo para un sistema de aprendizaje automático dado.

Los expertos hablan sobre cómo la selección de características y la extracción de características funcionan para minimizar la maldición de la dimensionalidad o ayudar a lidiar con el sobreajuste: estas son diferentes formas de abordar la idea de un modelado excesivamente complejo.

Descarga gratuita: Aprendizaje automático y por qué es importante

Otra forma de decir esto es que la selección de características ayuda a proporcionar a los desarrolladores las herramientas para usar solo los datos más relevantes y útiles en los conjuntos de capacitación de aprendizaje automático, lo que reduce drásticamente los costos y el volumen de datos.

Un ejemplo es la idea de medir una forma compleja a escala. A medida que el programa escala, identifica un mayor número de puntos de datos y el sistema se vuelve mucho más complejo. Pero una forma compleja no es el conjunto de datos típico que utiliza un sistema de aprendizaje automático. Estos sistemas pueden usar conjuntos de datos que tienen niveles de variación muy dispares entre las diferentes variables. Por ejemplo, al clasificar las especies, los ingenieros pueden usar la selección de características para estudiar solo las variables que les darán los resultados más específicos. Si todos los animales en la tabla tienen el mismo número de ojos o patas, esos datos pueden eliminarse u otros puntos de datos más relevantes pueden extraerse.

La selección de características es el proceso discriminatorio mediante el cual los ingenieros dirigen los sistemas de aprendizaje automático hacia un objetivo. Además de la idea de eliminar la complejidad de los sistemas a escala, la selección de características también puede ser útil para optimizar aspectos de lo que los expertos llaman la "compensación de la variación de sesgo" en el aprendizaje automático.

Las razones por las que la selección de características ayuda con el análisis de sesgo y varianza son más complicadas. Un estudio de la Universidad de Cornell sobre selección de características, variación de sesgo y embolsado sirve para ilustrar cómo la selección de características ayuda a los proyectos.

Según los autores, el documento "examina el mecanismo por el cual la selección de características mejora la precisión del aprendizaje supervisado".

El estudio afirma además:

Un análisis empírico de sesgo / varianza a medida que avanza la selección de características indica que el conjunto de características más preciso corresponde al mejor punto de compensación de sesgo-varianza para el algoritmo de aprendizaje.

Al discutir el uso de relevancia fuerte o débil, los escritores hablan de la selección de características como "un método de reducción de la varianza"; esto tiene sentido cuando piensas en la varianza como esencialmente la cantidad de variación en una variable dada. Si no hay variación, el punto de datos o matriz puede ser esencialmente inútil. Si hay una variación extremadamente alta, puede convertirse en lo que los ingenieros pueden considerar "ruido" o resultados irrelevantes y arbitrarios que son difíciles de manejar para el sistema de aprendizaje automático.

A la luz de esto, la selección de características es una parte fundamental del diseño en el aprendizaje automático.

¿Por qué es tan importante la selección de funciones en el aprendizaje automático?