Обучение с подкреплением (курс лекций) / 2023
Материал из MachineLearning.
В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится <<методом проб и ошибок>>: агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.
Читается для магистров 617-й, 522-й и 622-й групп.
Преподаватели: Кропотов Дмитрий, Темирчев Павел, Илья Синильщиков, Алексей Медведев, Дмитрий Медведев, Владимир Ипполитов, Миньчуань Сюй.
Расписание: Занятия проводятся в смешанном онлайн/офлайн формате. Распределение см. в расписании занятий ниже.
- лекции: по пятницам в 14-35, ауд. ??
 - семинары: по пятницам в 16:20, ауд. ??
 
Канал в Telegram: ссылка
Видеозаписи занятий: TBA
Содержание | 
Критерии оценки
В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и письменный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:
Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)
Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:
| Итог | Необходимые условия | 
|---|---|
| 5 | сдано не менее 5 заданий, оценка за экзамен >= 6 | 
| 4 | сдано не менее 4 заданий, оценка за экзамен >= 4 | 
| 3 | сдано не менее 3 заданий, оценка за экзамен >= 4 | 
Домашние задания
Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания.
Сдавать лабораторные можно в течение недели после мягкого дедлайна (работы сданные в этот период облагаются штрафом: см. таблицу ниже). Лабораторные, сданные позже недели после мягкого дедлайна, не приносят баллов, но учитываются в необходимых условиях для конкретной оценки (см. выше).
| Лабораторная |  Ориентировочная дата выдачи (может быть изменена!)  | Срок | Баллы |  Штраф за день опоздания  | 
|---|---|---|---|---|
| Deep Crossentropy Method | 8 сентября | 1 неделя | 10 | -0.3 | 
| Policy Iteration + Theory | 15 сентября | 1 неделя | 10 | -0.3 | 
| DQN | 29 сентября | 2 недели | 20 | -0.6 | 
| A2C | 20 октября | 2 недели | 20 | -0.6 | 
| PPO | 10 ноября | 2 недели | 20 | -0.6 | 
| MCTS | 1 декабря | 2 недели | 20 | -0.6 | 
Расписание занятий
| Дата | Формат | Занятие | Материалы | Дополнительные материалы | 
|---|---|---|---|---|
|  Лекция 8 сентября  | Онлайн | Введение в курс. Кросс-энтропийный метод (CEM). | ||
|  Семинар 8 сентября  | Онлайн | Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода. | ||
|  Лекция 15 сентября  | Онлайн | Динамическое программирование. Value Iteration, Policy Iteration. | 
  | |
|  Семинар 15 сентября  | Онлайн | Реализация Value Iteration. | ||
|  Лекция 22 сентября  | Очно | Табличные методы. TD-обучение, Q-обучение. | 
  | |
|  Семинар 22 сентября  | Онлайн | Табличное Q-обучение. | ||
|  Лекция 29 сентября  | Очно | Deep Q-Network (DQN) и его модификации. | ||
|  Лекция 6 октября  | Очно | Distributional RL. Quantile Regression DQN (QR-DQN). | ||
|  Лекция 13 октября  | Очно | Многорукие бандиты, внутренняя мотивация для исследования среды. | ||
|  Лекция 20 октября  | Очно | Policy gradient подход. Advantage Actor-Critic (A2C). | 
  | |
|  Семинар 20 октября  | Онлайн | Реализация policy gradient | ||
|  Лекция 27 октября  | Онлайн | Trust-Region Policy Optimization (TRPO). | ||
|  Лекция 3 ноября  | Очно | Proximal Policy Optimization (PPO) и Generalized Advantage Estimation (GAE). | ||
|  Лекция 10 ноября  | Очно | DDPG, Soft Actor Critic. | ||
|  Лекция 17 ноября  | Очно | Имитационное обучение. Обратное обучение с подкреплением. | ||
|  Лекция 24 ноября  | Очно | Monte Carlo Tree Search. AlphaZero, MuZero. | ||
|  Лекция 1 декабря  | Онлайн | Linear Quadratic Regulator (LQR). Model-based RL. Dreamer. | 
Страницы курса прошлых лет
2020-й год
2021-й год
2022-й год

