M1 (9 a 12hs) Aprendizaje por Refuerzos: Teoría y Aplicaciones en Robótica, Psicología y Neurociencias

Profesor: Carlos Diuk (Dept. of Psychology y Princeton Neuroscience Institute, Princeton University, EEUU). Horario: Turno mañana, de 9 a 12 horas. En castellano.

Profesor: Carlos Diuk

Horario: Lunes a viernes de 9 a 12 horas, Aula 8 (pabellón 1).

Idioma: castellano

Evaluación: trabajo práctico (ver abajo)

Aprendizaje por refuerzos (AR) es una sub-área dentro de aprendizaje automático que estudia cómo un agente (un animal, humano, robot o programa) aprende mediante interacción directa con su ambiente, sin la intervención de un supervisor que le dice qué tiene que hacer. La disciplina nació a fines de los años ’80 inspirada en antiguos modelos de aprendizaje provenientes de la psicología, principalmente de los estudios sobe condicionamiento Pavloviano e instrumental. Su desarrollo desde las Ciencias de la Computación en los ’90 llevó a importantes avances teóricos y aplicaciones en robótica, optimización y en juegos como el Backgammon y el Go. En los últimos 15 años, AR computacional también ha producido una revolución en neurociencia, en las áreas de aprendizaje y toma de decisiones. En este curso estudiaremos el formalismo de AR computacional y los algoritmos más importantes, contextualizándolo desde sus orígenes en psicología hasta el rol que cumple hoy en los estudios sobre aprendizaje en el cerebro.

Programa

Introducción a la toma de decisions: los bandidos de k-brazos. El dilema exploración-explotación.
Teorías de aprendizaje animal: Pavlov y el condicionamiento instrumental. Exploración-explotación en ratas (y humanos). Son sub-óptimas las ratas?
Problemas con las teorías de condicionamiento: el problema de los delayed rewards y la asignación de crédito.
Aprendizaje por refuerzos: cómo solucionar los problemas con las teorías de condicionamiento.
Formalizando AR: los Procesos de Decisión de Markov (PDM). Definición de valor. Resolviendo un PDM mediante programación dinámica y programación lineal.
Algoritmos de aprendizaje model-free: Q-learning, TD(lambda), SARSA. El problema de la exploración en esquemas model-free.
Algoritmos de aprendizaje model-based: la familia R-Max. Exploración cuasi-óptima en algoritmos model-based. El problema de planning.
Otras representaciones: PDM factorizados, relacionales y orientados a objetos.
Aplicaciones en robótica y videojuegos.
Aprendizaje por refuerzos en neurociencias: el rol de la dopamina en el cerebro.
Algoritmos de AR en el cerebro: estudios de electrofisiología y resonancia magnética funcional.

Trabajo final

Bajar el enunciado y entregar el 22 de agosto de 2010: enunciado.

Diapositivas

Clase 5: RL continuo y resúmen.