Современные методы распознавания и синтеза речи (курс лекций)/2019

Материал из MachineLearning.

Версия от 20:33, 14 февраля 2019; Daniil.polykovskiy (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Лекторы: Полыковский Д., Бибик Д., Дуканов С., Воропаев А., Соловьев Д.

Аннотация

Обработка речи начинает применяться в большом числе приложений — голосовых помощниках, автомобилях, картах и играх. Данный курс посвящен актуальным задачам и направлениям в этой области. Первые лекции будут посвящены классическим методам анализа цифровых сигналов, а также их применению в обработке речи. Во второй части будут рассмотрены современные нейросетевые подходы синтеза и распознавания речи, а также — голосовая идентификация пользователя и детекция ключевой фразы. На курсе студенты смогут самостоятельно реализовать рассматриваемые методы как на модельных примерах, так и в реальном командном проекте.

Учебный план

Лекции проходят по пятницам в с 10:30 до 12:05 в ауд. 612
Чат в Telegram: ссылка
Инвайт в Anytask: miHgsH0, страница
Тут вы можете всегда оставить анонимный отзыв: ссылка

Дата	№ занятия	Тема	Материалы
15.02.2019	Лекция 1	Дискретные сигналы. Преобразование Фурье. Введение в курс. Терминология. Гильбертово пространство. Неравенство Бесселя и тождество Парсеваля. Тригонометрический базис. Дискретное преобразование Фурье (DFT, DFS, DTFT). Связь между преобразованиями. Свойства. Быстрое преобразование Фурье.	Конспект Ch. 1 — Ch. 4, [2]
22.02.2019	Лекция 2	Цифровые фильтры Линейные стационарные системы. Цифровые фильтры. Анализ фильтров: стабильность, импульсная характеристика. Z-transform. Подходы к построению фильтров.	Конспект Ch. 5 — Ch. 7, [2]
01.03.2019	Лекция 3	Частотно-временной анализ. Частотно-временной анализ. Оконное преобразование Фурье. Выделение признаков из сигнала: поиск аудиозаписи. Вейвлет преобразование.	Конспект Ch. 7, [5] статья
15.03.2019	Лекция 4	Аналого-цифровые преобразователи Сэмплирование сигналов. Теорема Котельникова. Аналого-цифровые преобразователи. Beamforming. Сжатие сигналов (MP3, JPEG).	Слайды Ch. II, VII, IX [1] Ch. 9, 10 [2]
22.03.2019	Лекция 5	Речь Биологические аспекты. Формирование F0, F1, F2, F2 и их извлечение из звуковой волны. Гласные и согласные звуки. Выделение признаков из звука. Аугментация. Выравнивание. Нормализация текстов для синтеза речи.	Слайды Ch. 1, [6] [7] Ch.6, [8] Статья Статья
29.03.2019	Лекция 6	Распознавание речи. Dynamic Time Warping. Фонемы. Скрытые Марковские модели для распознавания. Улучшение распознавание при помощи смесси Гуассиан.	Ch. 9, [3а] Ch. 9, [3б] статья Слайды
05.04.2019	Лекция 7	Гибридные модели. Нейронные сети. Алгоритм обратного распространения ошибки. Рекуррентные нейронные сети. Connectionist Temporal Classiﬁcation (CTC). Механизмы внимания. Listen, Attend and Spell.	Ch.10, [3б] статья статья статья статья Слайды 1 Слайды 2 Статья
12.04.2019	Лекция 8	Иные задачи Идентификация голоса. Определение конца предложения. Определение активности. Распознавание ключевой фразы.
19.04.2019	Лекция 9	Синтез звука 1 Классические подходы. Восстановление звука из линейной спектрограммы. Алгоритм Гриффина-Лима.	Слайды
26.04.2019	Лекция 10	Синтез звука 2 Свертки на последовательностях. Современные архитектуры: WaveNet, DeepVoice и их улучшения. Multi-speaker synthesis. Tacotron.	Слайды

Практические задания

Задания сдаются в системе Anytask: страница. Для получения доступа к курсу, необходимо указать инвайт miHgsH0.

Тема	Макс. балл	Дата выдачи	Срок сдачи	Крайний срок
Преобразование Фурье	15
Распознавание команд	25
Синтез звука	25
Итоговый проект	35

Система выставления оценок по курсу

В курсе предусмотрено 3 практических задания и итоговый проект. Практические задания выдаются на 2 недели, после которых начисляется штраф 1 балл за каждый день просрочки. Через 2 недели после срока сдачи практическое задание не принимается. Защита итогового проекта проходит в день экзамена. Суммарно за практические задания и итоговый проект можно получить до 100 баллов.

При пересчете баллов итоговая оценка ставится по следующей шкале:

[0, 40) — “неуд”
[40, 60) — “удовл”
[60, 80) — “хор”
[80, 100] — “отл”

Для получения зачета необходимо получить не менее 50 баллов.

Итоговый проект

Итоговый проект выполняется командами до 4-х человек и оценивается в 35 баллов. Цель проекта — самостоятельное изучение нового материала из области синтеза и распознавания речи. Для успешной сдачи проекта надо сделать следующее:

Определиться с темой и записать ее и состав команды в таблицу: TODO
Найти и проанализировать релевантную литературу
Выбрать один или несколько методов для реализации
Реализовать выбранные методы (крайне рекомендовано реализовывать код полностью самостоятельно. Использование готового кода будет учитываться при выставлении итоговых баллов)
Сделать презентацию на 15 минут, в которой каждый участник проекта расскажет некоторую логически завершенную часть (e.g. постановка задачи, методы, эксперименты, демонстрация)

Все команды должны предоставить ссылку на git репозиторий, в котором будет храниться весь реализованный код с документацией (мы должны иметь возможность разобраться в коде и запустить его менее чем за 10 минут). В презентации обязателен слайд с вкладами участников проекта. На презентации обязательно следует провести демонстрацию своего проекта: например, показать качество звука до подавления шума и качество после. При выставлении итоговых баллов будут учитываться: качество выступления (как общее, так и каждого участника в отдельности), качество кода (в том числе история коммитов), вклад участников в проект, результаты проекта.

Критерии выставления баллов:

Материал (15 баллов)
- Вклад участника (0-6)
- Выбор метода (0-3)
- Сложность метода (0-3)
- Релевантность метода (0-3)
Код (10 баллов)
- Своевременность выполнения (0-2)
- Понятность (0-5)
- Воспроизводимость (0-3)
Выступление (10 баллов)
- Понятность [общая и индивидуальная] (0-5)
- Полнота (0-5)