Q:
¿Por qué las redes neuronales recurrentes artificiales a menudo son difíciles de entrenar?
UN:La dificultad de entrenar redes neuronales recurrentes artificiales tiene que ver con su complejidad.
Una de las formas más simples de explicar por qué las redes neuronales recurrentes son difíciles de entrenar es que no son redes neuronales de alimentación directa.
En las redes neuronales de avance, las señales solo se mueven en una dirección. La señal se mueve desde una capa de entrada a varias capas ocultas, y hacia adelante, a la capa de salida de un sistema.
Por el contrario, las redes neuronales recurrentes y otros tipos diferentes de redes neuronales tienen movimientos de señal más complejos. Clasificadas como redes de "retroalimentación", las redes neuronales recurrentes pueden tener señales viajando tanto hacia adelante como hacia atrás, y pueden contener varios "bucles" en la red donde los números o valores se retroalimentan en la red. Los expertos asocian esto con el aspecto de las redes neuronales recurrentes que está asociado con su memoria.
Además, hay otro tipo de complejidad que afecta las redes neuronales recurrentes. Un excelente ejemplo de esto es en el campo del procesamiento del lenguaje natural.
En el procesamiento sofisticado del lenguaje natural, la red neuronal necesita poder recordar cosas. También necesita tomar entradas en contexto. Supongamos que hay un programa que quiere analizar o predecir una palabra dentro de una oración de otras palabras. Puede haber, por ejemplo, una longitud fija de cinco palabras para que el sistema las evalúe. Eso significa que la red neuronal debe tener entradas para cada una de estas palabras, junto con la capacidad de "recordar" o entrenarse en el contexto de estas palabras. Por esas y otras razones similares, las redes neuronales recurrentes suelen tener estos pequeños bucles ocultos y retroalimentaciones en el sistema.
Los expertos lamentan que estas complicaciones dificulten la capacitación de las redes. Una de las formas más comunes de explicar esto es citando el problema de gradiente de explosión y desaparición. Esencialmente, los pesos de la red conducirán a la explosión o desaparición de valores con una gran cantidad de pases.
El pionero de la red neuronal Geoff Hinton explica este fenómeno en la web diciendo que los pases lineales hacia atrás harán que los pesos más pequeños se reduzcan exponencialmente y que los pesos más grandes exploten.
Este problema, continúa, empeora con secuencias largas y pasos de tiempo más numerosos, en los cuales las señales crecen o decaen. La inicialización del peso puede ayudar, pero esos desafíos están integrados en el modelo de red neuronal recurrente. Siempre habrá un problema relacionado con su diseño y construcción particulares. Esencialmente, algunos de los tipos más complejos de redes neuronales realmente desafían nuestra capacidad de administrarlos fácilmente. Podemos crear una cantidad de complejidad prácticamente infinita, pero a menudo vemos crecer los desafíos de previsibilidad y escalabilidad.