M1 (9 a 12hs) Aprendizaje por Refuerzos: Teoría y Aplicaciones en Robótica, Psicología y Neurociencias
Profesor: Carlos Diuk (Dept. of Psychology y Princeton Neuroscience Institute, Princeton University, EEUU). Horario: Turno mañana, de 9 a 12 horas. En castellano.

Aprendizaje por refuerzos (AR) es una sub-área dentro de aprendizaje automático que estudia cómo un agente (un animal, humano, robot o programa) aprende mediante interacción directa con su ambiente, sin la intervención de un supervisor que le dice qué tiene que hacer. La disciplina nació a fines de los años ’80 inspirada en antiguos modelos de aprendizaje provenientes de la psicología, principalmente de los estudios sobe condicionamiento Pavloviano e instrumental. Su desarrollo desde las Ciencias de la Computación en los ’90 llevó a importantes avances teóricos y aplicaciones en robótica, optimización y en juegos como el Backgammon y el Go. En los últimos 15 años, AR computacional también ha producido una revolución en neurociencia, en las áreas de aprendizaje y toma de decisiones. En este curso estudiaremos el formalismo de AR computacional y los algoritmos más importantes, contextualizándolo desde sus orígenes en psicología hasta el rol que cumple hoy en los estudios sobre aprendizaje en el cerebro.
Programa
- Introducción a la toma de decisions: los bandidos de k-brazos. El dilema exploración-explotación.
- Teorías de aprendizaje animal: Pavlov y el condicionamiento instrumental. Exploración-explotación en ratas (y humanos). Son sub-óptimas las ratas?
- Problemas con las teorías de condicionamiento: el problema de los delayed rewards y la asignación de crédito.
- Aprendizaje por refuerzos: cómo solucionar los problemas con las teorías de condicionamiento.
- Formalizando AR: los Procesos de Decisión de Markov (PDM). Definición de valor. Resolviendo un PDM mediante programación dinámica y programación lineal.
- Algoritmos de aprendizaje model-free: Q-learning, TD(lambda), SARSA. El problema de la exploración en esquemas model-free.
- Algoritmos de aprendizaje model-based: la familia R-Max. Exploración cuasi-óptima en algoritmos model-based. El problema de planning.
- Otras representaciones: PDM factorizados, relacionales y orientados a objetos.
- Aplicaciones en robótica y videojuegos.
- Aprendizaje por refuerzos en neurociencias: el rol de la dopamina en el cerebro.
- Algoritmos de AR en el cerebro: estudios de electrofisiología y resonancia magnética funcional.