Обучение с подкреплением (курс лекций) / 2020
Материал из MachineLearning.
| Строка 10: | Строка 10: | ||
'''Ссылка на Zoom:''' [https://us02web.zoom.us/j/88022710514?pwd=UC92ZzM2Vnh1bC8wT0FFdnZBMStVUT09 ссылка], идентификатор: 880 2271 0514, пароль: 638344  | '''Ссылка на Zoom:''' [https://us02web.zoom.us/j/88022710514?pwd=UC92ZzM2Vnh1bC8wT0FFdnZBMStVUT09 ссылка], идентификатор: 880 2271 0514, пароль: 638344  | ||
| + | |||
| + | '''Видеозаписи занятий:''' [https://www.youtube.com/playlist?list=PLVF5PzSHILHTcO89xQvyomRZIiCA2XLgN ссылка]  | ||
'''Инвайт в AnyTask:''' HTA74nV  | '''Инвайт в AnyTask:''' HTA74nV  | ||
Версия 10:06, 8 сентября 2020
В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится "методом проб и ошибок": агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.
Читается в 3-м семестре для магистров каф. ММП.
Преподаватели: Кропотов Дмитрий, Бобров Евгений, Иванов Сергей, Темирчев Павел
Расписание: по вторникам в 12-15
Ссылка на Zoom: ссылка, идентификатор: 880 2271 0514, пароль: 638344
Видеозаписи занятий: ссылка
Инвайт в AnyTask: HTA74nV
Канал в Telegram группе: ссылка
Содержание | 
Критерии оценки
В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:
Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)
Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:
| Итог | Необходимые условия | 
|---|---|
| 5 | сдано не менее 5 заданий, оценка за экзамен >= 6 | 
| 4 | сдано не менее 4 заданий, оценка за экзамен >= 4 | 
| 3 | сдано не менее 3 заданий, оценка за экзамен >= 4 | 
Домашние задания
Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять.
| Лабораторная |  Ориентировочная дата выдачи (может быть изменена!)  | Срок | Баллы |  Штраф за день опоздания  | 
|---|---|---|---|---|
| CEM | 8 сентября | 1 неделя | 10 | -0.5 | 
| Dyn. prog. | 22 сентября | 1 неделя | 10 | -0.5 | 
| DQN | 6 октября | 2 недели | 20 | -1 | 
| A2C | 27 октября | 2 недели | 20 | -1 | 
| PPO | 10 ноября | 2 недели | 20 | -1 | 
| MCTS | 1 декабря | 2 недели | 20 | -1 | 
Экзамен
На экзамене при подготовке билета можно пользоваться любыми материалами; при ответе ничем пользоваться нельзя.
Расписание занятий
| Занятие | Материалы | Дополнительные материалы | |
|---|---|---|---|
| Лекция | Введение в курс. Кросс-энтропийный метод (CEM). | ||
| Семинар | Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода. | ||
| Лекция | Динамическое программирование. Value Iteration, Policy Iteration. | 
  | |
| Лекция | TD-обучение. Deep Q-Network (DQN). | 
  | |
| Семинар | Q-обучение. | ||
| Лекция | Distributional RL. Categorical DQN (c51), Quantile Regression DQN (QR-DQN). | ||
| Лекция | Policy gradient theorem. Advantage Actor-Critic (A2C). | 
  | |
| Семинар | REINFORCE. | ||
| Лекция | Trust-Region Policy Optimization (TRPO). | ||
| Лекция | Generalized Advantage Estimation (GAE). Proximal Policy Optimization (PPO). | 
  | |
| Лекция | Deep Deterministic Policy Gradient (DDPG). Soft Actor-Critic (SAC). | ||
| Лекция | Имитационное обучение. Обратное обучение с подкреплением. | ||
| Лекция | Monte-Carlo Tree Search. AlphaZero, MuZero. | ||
| Лекция | Linear Quadratic Regulator (LQR). Model-based RL. | 

