Современные методы распознавания и синтеза речи (курс лекций)/2019
Материал из MachineLearning.
Лекторы: Полыковский Д., Бибик Д., Дуканов С., Воропаев А., Соловьев Д.
Содержание | 
Аннотация
Обработка речи начинает применяться в большом числе приложений — голосовых помощниках, автомобилях, картах и играх. Данный курс посвящен актуальным задачам и направлениям в этой области. Первые лекции будут посвящены классическим методам анализа цифровых сигналов, а также их применению в обработке речи. Во второй части будут рассмотрены современные нейросетевые подходы синтеза и распознавания речи, а также — голосовая идентификация пользователя и детекция ключевой фразы. На курсе студенты смогут самостоятельно реализовать рассматриваемые методы как на модельных примерах, так и в реальном командном проекте.
Учебный план
- Лекции проходят по пятницам в с 10:30 до 12:05 в ауд. 612
 - Чат в Telegram: ссылка в Anytask
 - Инвайт в Anytask: miHgsH0, страница
 - Тут вы можете всегда оставить анонимный отзыв: ссылка
 - [0, 40) — “неуд”
 - [40, 60) — “удовл”
 - [60, 80) — “хор”
 - [80, 100] — “отл”
 - Определиться с темой и записать ее и состав команды в таблицу: TODO
 - Найти и проанализировать релевантную литературу
 - Выбрать один или несколько методов для реализации
 - Реализовать выбранные методы (крайне рекомендовано реализовывать код полностью самостоятельно. Использование готового кода будет учитываться при выставлении итоговых баллов)
 - Сделать презентацию на 15 минут, в которой каждый участник проекта расскажет некоторую логически завершенную часть (e.g. постановка задачи, методы, эксперименты, демонстрация)
 - Материал (15 баллов)
- Вклад участника (0-6)
 - Выбор метода (0-3)
 - Сложность метода (0-3)
 - Релевантность метода (0-3)
 
 
| Дата | № занятия | Тема | Материалы | 
|---|---|---|---|
| 15.02.2019 | Лекция 1 |  Дискретные сигналы. Преобразование Фурье.Введение в курс. Терминология. Гильбертово пространство.   |  Конспект  Ch. 1 — Ch. 4, [2]  | 
| 22.02.2019 | Лекция 2 | 
Цифровые фильтрыЛинейные стационарные системы. Цифровые фильтры. Анализ фильтров: стабильность,импульсная характеристика. Z-transform. Подходы к построению фильтров.  |  Конспект  Ch. 5 — Ch. 7, [2]  | 
| 01.03.2019 | Лекция 3 | 
Частотно-временной анализ.Частотно-временной анализ. Оконное преобразование Фурье.   |  Конспект Ch. 7, [5] статья  | 
| 15.03.2019 | Лекция 4 | 
Аналого-цифровые преобразователиСэмплирование сигналов. Теорема Котельникова. Аналого-цифровые преобразователи.Beamforming. Сжатие сигналов (MP3, JPEG).  |  Слайды  Ch. II, VII, IX [1] Ch. 9, 10 [2]  | 
| 22.03.2019 | Лекция 5 |  РечьБиологические аспекты. Формирование F0, F1, F2, F2 и их извлечение из звуковой волны.Гласные и согласные звуки. Выделение признаков из звука. Аугментация. Выравнивание. Нормализация текстов для синтеза речи.  |  Слайды  Ch. 1, [6] [7] Ch.6, [8] Статья Статья  | 
| 29.03.2019 | Лекция 6 |   Распознавание речи.Dynamic Time Warping. Фонемы. Скрытые Марковские модели для распознавания.Улучшение распознавание при помощи смесси Гуассиан.  |  Ch. 9, [3а]  Ch. 9, [3б] статья Слайды  | 
| 05.04.2019 | Лекция 7 |   Гибридные модели.Нейронные сети. Алгоритм обратного распространения ошибки.Рекуррентные нейронные сети. Connectionist Temporal Classification (CTC). Механизмы внимания. Listen, Attend and Spell.  |  Ch.10, [3б]  | 
| 12.04.2019 | Лекция 8 |  Иные задачиИдентификация голоса. Определение конца предложения.Определение активности. Распознавание ключевой фразы.  | |
| 19.04.2019 | Лекция 9 |  Синтез звука 1Классические подходы. Восстановление звука из линейной спектрограммы.Алгоритм Гриффина-Лима.  | Слайды | 
| 26.04.2019 | Лекция 10 |   Синтез звука 2Свертки на последовательностях. Современные архитектуры: WaveNet, DeepVoice и их улучшения.Multi-speaker synthesis. Tacotron.  | Слайды | 
Практические задания
Задания сдаются в системе Anytask: страница. Для получения доступа к курсу, необходимо указать инвайт miHgsH0.
| Тема | Макс. балл | Дата выдачи | Срок сдачи | Крайний срок | 
|---|---|---|---|---|
Преобразование Фурье  | 15 | |||
Распознавание команд  | 25 | |||
Синтез звука  | 25 | |||
Итоговый проект  | 35 | 
Система выставления оценок по курсу
В курсе предусмотрено 3 практических задания и итоговый проект. Практические задания выдаются на 2 недели, после которых начисляется штраф 1 балл за каждый день просрочки. Через 2 недели после срока сдачи практическое задание не принимается. Защита итогового проекта проходит в день экзамена. Суммарно за практические задания и итоговый проект можно получить до 100 баллов.
При пересчете баллов итоговая оценка ставится по следующей шкале:
Для получения зачета необходимо получить не менее 50 баллов.
Итоговый проект
Итоговый проект выполняется командами до 4-х человек и оценивается в 35 баллов. Цель проекта — самостоятельное изучение нового материала из области синтеза и распознавания речи. Для успешной сдачи проекта надо сделать следующее:
Все команды должны предоставить ссылку на git репозиторий, в котором будет храниться весь реализованный код с документацией (мы должны иметь возможность разобраться в коде и запустить его менее чем за 10 минут). В презентации обязателен слайд с вкладами участников проекта. На презентации обязательно следует провести демонстрацию своего проекта: например, показать качество звука до подавления шума и качество после. При выставлении итоговых баллов будут учитываться: качество выступления (как общее, так и каждого участника в отдельности), качество кода (в том числе история коммитов), вклад участников в проект, результаты проекта.
Критерии выставления баллов:
- Своевременность выполнения (0-2)
 - Понятность (0-5)
 - Воспроизводимость (0-3)
 
- Понятность [общая и индивидуальная] (0-5)
 - Полнота (0-5)
 
При нулевой оценке за “вклад участника”, отсутствии презентации или кода, ставится нулевая итоговая оценка.
Литература
[1] The Digital Signal Processing Handbook, Vijay Madiestti
[2] Signal Processing For Communications, Paolo Prandoni & Martin Vettarli
[3] Speech and Language Processing. Dan Jurafsky and James H. Martin
[3a] Speech and Language Processing. Dan Jurafsky and James H. Martin,3rd edition draft
[3б] Speech and Language Processing. Dan Jurafsky and James H. Martin,2rd edition
[4] CS224S / LINGUIST285 - Spoken Language Processing
[5] Digital Image Processing 2nd Edition, Rafael C. Gonzalez, Richard E. Woods
[7] Акустическая теория речеобразования. Г. Фант, 1964
[9] David Ferris, Techniques and Challenges in Speech Synthesis, 2017
