Tabla de contenido:
- Definición - ¿Qué significa el aprendizaje por refuerzo?
- Techopedia explica el aprendizaje por refuerzo
Definición - ¿Qué significa el aprendizaje por refuerzo?
El aprendizaje por refuerzo, en el contexto de la inteligencia artificial, es un tipo de programación dinámica que entrena algoritmos utilizando un sistema de recompensa y castigo.
Un algoritmo de aprendizaje de refuerzo, o agente, aprende interactuando con su entorno. El agente recibe recompensas por realizar correctamente y sanciones por realizar incorrectamente. El agente aprende sin intervención de un humano maximizando su recompensa y minimizando su penalización.
Techopedia explica el aprendizaje por refuerzo
El aprendizaje de refuerzo es un enfoque del aprendizaje automático inspirado en la psicología conductista. Es similar a cómo un niño aprende a realizar una nueva tarea. El aprendizaje por refuerzo contrasta con otros enfoques de aprendizaje automático en que el algoritmo no se le dice explícitamente cómo realizar una tarea, sino que resuelve el problema por sí solo.
Como agente, que podría ser un automóvil autónomo o un programa que juega ajedrez, interactúa con su entorno, recibe un estado de recompensa dependiendo de cómo se desempeña, como conducir a un destino de manera segura o ganar un juego. Por el contrario, el agente recibe una multa por actuar incorrectamente, como salir de la carretera o ser jaqueado.
El agente con el tiempo toma decisiones para maximizar su recompensa y minimizar su penalización mediante programación dinámica. La ventaja de este enfoque de la inteligencia artificial es que permite que un programa de IA aprenda sin que un programador explique cómo un agente debe realizar la tarea.