Hogar Tendencias ¿Cuál es una manera simple de describir el sesgo y la varianza en el aprendizaje automático?

¿Cuál es una manera simple de describir el sesgo y la varianza en el aprendizaje automático?

Anonim

Q:

¿Cuál es una manera simple de describir el sesgo y la varianza en el aprendizaje automático?

UN:

Hay varias formas complicadas de describir el sesgo y la varianza en el aprendizaje automático. Muchos de ellos utilizan ecuaciones matemáticas significativamente complejas y muestran mediante gráficos cómo ejemplos específicos representan diversas cantidades de sesgo y varianza.

Aquí hay una manera simple de describir el sesgo, la varianza y el compromiso de sesgo / varianza en el aprendizaje automático.

En esencia, el sesgo es una simplificación excesiva. Puede ser importante agregar a la definición de sesgo algún supuesto o supuesto error.

Si un resultado altamente sesgado no fuera un error, si fuera por el dinero, sería muy preciso. El problema es que el modelo simplificado contiene algún error, por lo que no está en el centro de atención: el error significativo se repite o incluso se amplifica a medida que funciona el programa de aprendizaje automático.

La definición simple de varianza es que los resultados están demasiado dispersos. Esto a menudo conduce a una complejidad excesiva del programa y problemas entre los conjuntos de prueba y entrenamiento.

Gran variación significa que pequeños cambios crean grandes cambios en resultados o resultados.

Otra forma de describir simplemente la varianza es que hay demasiado ruido en el modelo y, por lo tanto, se hace más difícil para el programa de aprendizaje automático aislar e identificar la señal real.

Entonces, una de las formas más simples de comparar el sesgo y la varianza es sugerir que los ingenieros de aprendizaje automático tengan que caminar una línea muy fina entre demasiado sesgo o simplificación excesiva, y demasiada varianza o complejidad excesiva.

Otra forma de representar este pozo es con un gráfico de cuatro cuadrantes que muestra todas las combinaciones de varianza alta y baja. En el cuadrante de bajo sesgo / baja varianza, todos los resultados se reúnen en un grupo preciso. En un resultado de alto sesgo / baja varianza, todos los resultados se reúnen en un grupo inexacto. En un resultado de sesgo bajo / varianza alta, los resultados están dispersos alrededor de un punto central que representaría un grupo preciso, mientras que en un resultado de sesgo alto / varianza alta, los puntos de datos están dispersos y son inexactos colectivamente.

¿Cuál es una manera simple de describir el sesgo y la varianza en el aprendizaje automático?