Современные методы распознавания и синтеза речи (курс лекций)/2018
Материал из MachineLearning.
Лекторы: Воропаев А., Соловьев Д., Полыковский Д.
Содержание |
Аннотация
Обработка речи начинает применяться в большом числе приложений — голосовых помощниках, автомобилях, картах и играх. Данный курс посвящен актуальным задачам и направлениям в этой области. Первые лекции будут посвящены классическим методам анализа цифровых сигналов, а также их применению в обработке речи. Во второй части будут рассмотрены современные нейросетевые подходы синтеза и распознавания речи, а также — голосовая идентификация пользователя и детекция ключевой фразы. На курсе студенты смогут самостоятельно реализовать рассматриваемые методы как на модельных примерах, так и в реальном командном проекте.
Учебный план
Лекция 07.03.2018 отменяется. 14.03.2018 будет сдвоенная лекция (10:30 - 12:05, 12:15 - 13:50).
- Лекции проходят по средам в с 10:30 до 12:05 в ауд. 524
- Чат в Telegram: ссылка
- Инвайт в Anytask: lWVASKX, курс в Anytask
- Тут вы можете всегда оставить анонимный отзыв: ссылка
- [0, 40) — “неуд”
- [40, 60) — “удовл”
- [60, 80) — “хор”
- [80, 100] — “отл”
Дата | № занятия | Тема | Материалы |
---|---|---|---|
14.02.2018 | Лекция 1 | Дискретные сигналы. Преобразование Фурье.Введение в курс. Терминология. Гильбертово пространство. | Конспект Ch. 1 — Ch. 4, [2] |
21.02.2018 | Лекция 2 |
Цифровые фильтрыЛинейные стационарные системы. Цифровые фильтры. Анализ фильтров: стабильность,импульсная характеристика. Z-transform. Подходы к построению фильтров. | Конспект Ch. 5 — Ch. 7, [2] |
18.02.2018 | Лекция 3 |
Частотно-временной анализ.Частотно-временной анализ. Оконное преобразование Фурье. | Конспект Ch. 7, [5] статья |
Лекция 4 |
Аналого-цифровые преобразователиСэмплирование сигналов. Теорема Котельникова. Аналого-цифровые преобразователи.Beamforming. Сжатие сигналов (MP3, JPEG). | Слайды Ch. II, VII, IX [1] Ch. 9, 10 [2] | |
14.03.2018 | Лекция 5 | РечьРечь. Биологические аспекты. Формирование F0, F1, F2, F2 и их извлечение из звуковой волны.Гласные и согласные звуки. Выделение признаков из звука. Аугментация. Dynamic Time Warping. Выравнивание. Нормализация текстов для синтеза речи. | Слайды Ch. 1, [6] [7] Ch.6, [8] Статья Статья |
21.03.2018 | Лекция 6 | Распознавание речи. Hidden Markov Models для распознавания. GMM. | |
28.03.2018 | Лекция 7 | Гибридные модели. Нейронные сети. Алгоритм обратного распространения ошибки. | |
04.04.2018 | Лекция 8 | Teacher forcing, Seq2Seq, Beam Search. Механизмы внимания. Listen, Attend and Spell. | |
11.04.2018 | Лекция 9 | Идентификация голоса. Определение конца предложения. | |
18.04.2018 | Лекция 10 | Синтез звука. Классические подходы. Восстановление звука из линейной спектрограммы. | |
25.04.2018 | Лекция 11 | Свертки на последовательностях. Современные архитектуры: WaveNet, DeepVoice и их улучшения. | |
16.05.2018 | Лекция 12 | Защита финального проекта |
Практические задания
Задания сдаются в системе Anytask: ссылка. Для получения доступа к курсу, необходимо указать инвайт "lWVASKX".
Тема | Макс. балл | Дата выдачи | Срок сдачи | Крайний срок |
---|---|---|---|---|
15 | 24.02.2018 | 10.03.2018 | 24.03.2018 | |
25 | 23.03.2018 | 05.04.2018 | 19.04.2018 | |
Синтез звука | 25 | 18.04.2018 | 02.05.2018 | 16.05.2018 |
Итоговый проект | 35 | 07.03.2018 | Досрочная защита | Экзамен |
Система выставления оценок по курсу
В курсе предусмотрено 3 практических задания и итоговый проект. Практические задания выдаются на 2 недели, после которых начисляется штраф 0.2 балла за каждый день просрочки. Через 2 недели после срока сдачи практическое задание не принимается. Защита итогового проекта проходит в день экзамена. Суммарно за практические задания и итоговый проект можно получить до 100 баллов.
При пересчете баллов итоговая оценка ставится по следующей шкале:
Для получения зачета необходимо получить не менее 50 баллов.
Литература
[1] The Digital Signal Processing Handbook, Vijay Madiestti
[2] Signal Processing For Communications, Paolo Prandoni & Martin Vettarli
[3] Speech and Language Processing. Dan Jurafsky and James H. Martin
[4] CS224S / LINGUIST285 - Spoken Language Processing
[5] Digital Image Processing 2nd Edition, Rafael C. Gonzalez, Richard E. Woods
[7] Акустическая теория речеобразования. Г. Фант, 1964
[8] Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm, and System Development, Prentice Hall, 2001