Математические методы анализа текстов (ВМК МГУ) / 2021
Материал из MachineLearning.
В курсе рассматриваются основные задачи и математические методы обработки естественного языка.
Курс читается:
- студентам кафедры «Математические методы прогнозирования» ВМК МГУ с 2016 года
 - студентам кафедры «Интеллектуальные системы» ФУПМ МФТИ с 2018 года
 
От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.
Содержание | 
Объявления
Нет
Контакты
- Преподаватели курса: Попов А.С., Апишев М.А., Хрыльченко К.Я., Воронцов К.В.
 
- В этом семестре занятия будут проводиться в аудитории TBA
 
- По всем конструктивным вопросам пишите в telegram-чат
 
- Репозиторий со всеми материалами: ссылка
 
- Видеозаписи лекций 2020 года: ссылка
 
- Короткая ссылка на страницу курса: ссылка
 
- Родственный курс на ФПМИ МФТИ: ссылка
 
Правила сдачи курса
Правила выставления итоговой оценки
В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
Студенты, набравшие за практические задания строго больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
, где
 — оценка за дз, 
 — оценка за экзамен в 10-ти балльной шкале, 
 — математическое округление.
Есть дополнительные условия для получения каждой из оценок:
- удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
 - хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
 - отлично (8, 9, 10) — 4 сданных задания на положительную оценку
 
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
Программа курса
| № | Дата | Тема | Материалы | Д/З | 
|---|---|---|---|---|
| 1 | 07.09 |  Организация курса, правила игры.
 Введение в обработку текстов (Natural Language Processing). Предобработка, выделение признаков и классификация .  | ||
| 2 | 14.09 |  Векторные представления слов.
 Count-based и prediction-based методы. Построение представлений для слов не из словаря.  | ||
| 3 | 21.09 |  Задача разметки последовательностей (tagging).
 Нейросетевые архитектуры для её решения. RNN, LSTM. Transformer.  | ||
| 4 | 28.09 |  Структурированное обучение для задачи разметки.
 Модель Linear-CRF, её упрощения и обобщения. Комбинирование нейросетей и CRF.  | ||
| 5 | 05.10 |  Задача языкового моделирования.
 Статистические и нейросетевые языковые модели. Семейство моделей GPT.  | ||
| 6 | 12.10 |  Контекстуальные векторные представления слов.
 Transfer learning в NLP. Модель BERT и её модификации.  | ||
| 7 | 19.10 |  Машинный перевод.
 Подход Sequence-to-sequence. Эвристики при авторегрессионной генерации.  | ||
| 8 | 02.11 | Диалоговые и вопросно-ответные системы. | ||
| 9 | 09.11 | Синтаксический разбор и его применение в практических задачах. | ||
| 10 | 16.11 |  Задача классификации текстов.
 Дизайн индустриальной ML-системы.  | ||
| 11 | 30.11 |  Различные приложения DL в NLP.
 Информационный поиск. Рекомендательные системы.  | ||
| 12 | 07.12 |  Автоматическая суммаризация текстов.
 Extractive суммаризация. Abstractive суммаризация.  | 
Страницы прошлых лет
- Математические методы анализа текстов (курс лекций) / осень 2020 ВМК & МФТИ
 - Математические методы анализа текстов (курс лекций) / осень 2019 ВМК & МФТИ
 - Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко) — 2018 (ФУПМ МФТИ)
 - Математические методы анализа текстов (ВМиК МГУ) / 2018 — 2018 (ВМК МГУ)
 - Математические методы анализа текстов (ВМиК МГУ) / 2017 — 2017 (ВМК МГУ)
 
Дополнительные материалы
Литература
- Dan Jurafsky and James H. Martin Speech and Language Processing (3rd ed. draft)
 - Stewen Bird et. al. Natural Language Processing with Python. 2-nd edition. 2016.
 - Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. НИУ ВШЭ, 2017.
 - Yoav Goldberg et. al. Neural Network Methods in Natural Language Processing
 - LxMLS summer school Practical guide on NLP in Python
 
Другие курсы по NLP

