Современные методы распознавания и синтеза речи (курс лекций)/2018
Материал из MachineLearning.
Лекторы: Воропаев А., Соловьев Д., Полыковский Д.
Содержание | 
Аннотация
Обработка речи начинает применяться в большом числе приложений — голосовых помощниках, автомобилях, картах и играх. Данный курс посвящен актуальным задачам и направлениям в этой области. Первые лекции будут посвящены классическим методам анализа цифровых сигналов, а также их применению в обработке речи. Во второй части будут рассмотрены современные нейросетевые подходы синтеза и распознавания речи, а также — голосовая идентификация пользователя и детекция ключевой фразы. На курсе студенты смогут самостоятельно реализовать рассматриваемые методы как на модельных примерах, так и в реальном командном проекте.
Учебный план
- Лекции проходят по средам в с 10:30 до 12:50 в ауд. 524
 - Чат в Telegram: ссылка
 - Anytask: TBA
 - [0, 40) — “неуд.”
 - [40, 60) — “удовл”
 - [60, 80) — “хор”
 - [80, 100] — “отл”.
 
| Дата | № занятия | Тема | Материалы | 
|---|---|---|---|
| 14.02.2018 | Лекция 1 |   Преобразование Фурье. Дискретное преобразование Фурье. Свойства. Спектрограмма. STFT  | |
| 21.02.2018 | Лекция 2 | 
 Быстрое преобразование Фурье. Вейвлеты.  | |
| 18.02.2018 | Лекция 3 | 
 Модуляция сигнала. Фильтрация. Линейные фильтры. Обращение фильтра. Подходы к построению фильтров  | |
| 07.03.2018 | Лекция 4 | 
 Аналого-цифровые преобразователи. Теорема Котельникова. Сжатие сигналов (MP3, JPEG). Beamforming  | |
| 14.03.2018 | Лекция 5 |   Речь. Биологические аспекты. Формирование F0, F1, F2, F2. и их извлечение из звуковой волны.   | |
| 21.03.2018 | Лекция 6 |    Распознавание речи. Hidden Markov Models для распознавания. GMM.  | |
| 28.03.2018 | Лекция 7 |    Гибридные модели. Нейронные сети. Алгоритм обратного распространения ошибки.   | |
| 04.04.2018 | Лекция 8 |   Teacher forcing, Seq2Seq, Beam Search. Механизмы внимания. Listen, Attend and Spell.  | |
| 11.04.2018 | Лекция 9 |   Идентификация голоса. Определение конца предложения.   | |
| 18.04.2018 | Лекция 10 |   Синтез звука. Классические подходы. Восстановление звука из линейной спектрограммы.  | |
| 25.04.2018 | Лекция 11 |    Свертки на последовательностях. Современные архитектуры: WaveNet, DeepVoice и их улучшения.   | 
Практические задания
| Тема | Макс. балл | Дата выдачи | Срок сдачи | Крайний срок | 
|---|---|---|---|---|
Преобразование Фурье  | 15 | 21.02.2018 | 07.03.2018 | 21.03.2018 | 
Распознавание команд  | 25 | 21.03.2018 | 04.04.2018 | 18.04.2018 | 
Синтез звука  | 25 | 18.04.2018 | 02.05.2018 | 16.05.2018 | 
Итоговый проект  | 35 | 07.03.2018 | Досрочная защита | Экзамен | 
Система выставления оценок по курсу
В курсе предусмотрено 3 практических задания и итоговый проект. Практические задания выдаются на 2 недели, после которых начисляется штраф 0.2 балла за каждый день просрочки. Через 2 недели после срока сдачи практическое задание не принимается. Защита итогового проекта проходит в день экзамена. Суммарно за практические задания и итоговый проект можно получить до 100 баллов.
При пересчете баллов итоговая оценка ставится по следующей шкале:

