Q:
¿Por qué el embolsado en el aprendizaje automático disminuye la varianza?
UN:La agregación de Bootstrap, o "ensacado", en el aprendizaje automático disminuye la variación mediante la construcción de modelos más avanzados de conjuntos de datos complejos. Específicamente, el enfoque de ensacado crea subconjuntos que a menudo se superponen para modelar los datos de una manera más involucrada.
Una noción interesante y directa de cómo aplicar el embolsado es tomar un conjunto de muestras aleatorias y extraer la media simple. Luego, usando el mismo conjunto de muestras, cree docenas de subconjuntos construidos como árboles de decisión para manipular los resultados eventuales. La segunda media debe mostrar una imagen más real de cómo esas muestras individuales se relacionan entre sí en términos de valor. La misma idea se puede aplicar a cualquier propiedad de cualquier conjunto de puntos de datos.
Descarga gratuita: Aprendizaje automático y por qué es importante |
Dado que este enfoque consolida el descubrimiento en límites más definidos, disminuye la variación y ayuda con el sobreajuste. Piense en un diagrama de dispersión con puntos de datos algo distribuidos; Al utilizar un método de embolsado, los ingenieros "reducen" la complejidad y orientan las líneas de descubrimiento para suavizar los parámetros.
Algunos hablan del valor del embolsado como "divide y vencerás" o un tipo de "heurística asistida". La idea es que a través del modelado de conjuntos, como el uso de bosques aleatorios, aquellos que usan el embolsado como técnica puedan obtener resultados de datos con una variación menor. En términos de disminución de la complejidad, el embolsado también puede ayudar con el sobreajuste. Piense en un modelo con demasiados puntos de datos: digamos, unir los puntos con 100 puntos no alineados. La línea de datos visuales resultante será irregular, dinámica, volátil. Luego "solucione" la varianza reuniendo conjuntos de evaluaciones. En el aprendizaje conjunto, esto a menudo se considera unir a varios "estudiantes débiles" para proporcionar un resultado colaborativo de "aprendizaje fuerte". El resultado es una línea de datos más suave, más contorneada y menos variación salvaje en el modelo.
Es fácil ver cómo la idea de embolsado se puede aplicar a los sistemas de TI empresariales. Los líderes empresariales a menudo quieren una "vista panorámica" de lo que está sucediendo con productos, clientes, etc. Un modelo sobreajustado puede devolver datos menos digeribles y resultados más "dispersos", donde el embolsado puede "estabilizar" un modelo y hacerlo más útil. a los usuarios finales