Обучение с подкреплением (курс лекций) / 2021
Материал из MachineLearning.
 (→Экзамен)  | 
				 (→Расписание занятий)  | 
			||
| Строка 88: | Строка 88: | ||
| Лекция<br>  | | Лекция<br>  | ||
''21 сентября''  | ''21 сентября''  | ||
| - | | Табличные методы  | + | | Табличные методы.  | 
|  | |  | ||
* [https://drive.google.com/file/d/1Z4W_-0IaMNpZnhnMkqcDVM_EA79GFJo-/view Sutton, Barto], ch.6  | * [https://drive.google.com/file/d/1Z4W_-0IaMNpZnhnMkqcDVM_EA79GFJo-/view Sutton, Barto], ch.6  | ||
| Строка 102: | Строка 102: | ||
| Лекция<br>  | | Лекция<br>  | ||
''5 октября''  | ''5 октября''  | ||
| - | | DQN и его модификации  | + | | DQN и его модификации.  | 
|  | |  | ||
* [https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf DQN]  | * [https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf DQN]  | ||
| Строка 134: | Строка 134: | ||
| Семинар<br>  | | Семинар<br>  | ||
''19 октября''  | ''19 октября''  | ||
| - | | REINFORCE  | + | | REINFORCE.  | 
|  | |  | ||
|  | |  | ||
Версия 20:13, 15 сентября 2021
В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится "методом проб и ошибок": агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.
Читается в 3-м семестре для магистров каф. ММП.
Преподаватели: Кропотов Дмитрий, Бобров Евгений, Иванов Сергей, Темирчев Павел
Расписание: по вторникам в 12-15, ауд. 507
Канал в Telegram: ссылка
Содержание | 
Критерии оценки
В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:
Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)
Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:
| Итог | Необходимые условия | 
|---|---|
| 5 | сдано не менее 5 заданий, оценка за экзамен >= 6 | 
| 4 | сдано не менее 4 заданий, оценка за экзамен >= 4 | 
| 3 | сдано не менее 3 заданий, оценка за экзамен >= 4 | 
Домашние задания
Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять.
Лабораторные, сданные позже недели после мягкого дедлайна, не приносят баллов, но учитываются в необходимых условиях для конкретной оценки (см. выше).
| Лабораторная |  Ориентировочная дата выдачи (может быть изменена!)  | Срок | Баллы |  Штраф за день опоздания  | 
|---|---|---|---|---|
| CEM | 14 сентября | 1 неделя | 10 | -0.3 | 
| Dyn. prog. | 21 сентября | 1 неделя | 10 | -0.3 | 
| DQN | 5 октября | 2 недели | 20 | -0.6 | 
| A2C | 19 октября | 2 недели | 20 | -0.6 | 
| PPO | 2 ноября | 2 недели | 20 | -0.6 | 
| MCTS | 23 ноября | 2 недели | 20 | -0.6 | 
Экзамен
На экзамене все студенты берут случайный билет. В течение часа студент самостоятельно пишет ответ на экзаменационный вопрос, при этом можно пользоваться любыми материалами. Далее студент устно отвечает билет экзаменатору и обсуждаются различные вопросы по курсу уже без использования материалов. Для положительной оценки за экзамен необходимо также справиться с вопросами из теоретического минимума.
Список вопросов к экзамену: TBA
Расписание занятий
| Занятие | Материалы | Дополнительные материалы | |
|---|---|---|---|
|  Лекция 7 сентября  | Введение в курс. Кросс-энтропийный метод (CEM). | ||
|  Лекция 14 сентября  | Динамическое программирование. Value Iteration, Policy Iteration. | 
  | |
|  Семинар 14 сентября  | Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода. | ||
|  Лекция 21 сентября  | Табличные методы. | 
  | |
|  Семинар 28 сентября  | Q-обучение. | ||
|  Лекция 5 октября  | DQN и его модификации. | ||
|  Лекция 12 октября  | Distributional RL. Categorical DQN (c51), Quantile Regression DQN (QR-DQN). | ||
|  Лекция 19 октября  | Policy gradient подход. Advantage Actor-Critic (A2C). | 
  | |
|  Семинар 19 октября  | REINFORCE. | ||
|  Лекция 26 октября  | Trust-Region Policy Optimization (TRPO). | ||
|  Лекция 2 ноября  | Generalized Advantage Estimation (GAE). Proximal Policy Optimization (PPO). | ||
|  Лекция 9 ноября  | Deep Deterministic Policy Gradient (DDPG). Soft Actor-Critic (SAC). | ||
|  Лекция 16 ноября  | Имитационное обучение. Обратное обучение с подкреплением. | ||
|  Лекция 23 ноября  | Monte-Carlo Tree Search. AlphaZero, MuZero. | ||
|  Лекция 30 ноября  | Linear Quadratic Regulator (LQR). Model-based RL. | 
Страницы курса прошлых лет
Материалы
- Полунеофициальный конспект (возможны ошибки! Просьба всем собирать баги и опечатки!)
 - Курс Practical RL (ШАД)
 - Курс Deep Reinforcement Learning (CS 285), UC Berkeley
 

