Теория надёжности обучения по прецедентам (курс лекций, К. В. Воронцов)/2010
Материал из MachineLearning.
(Перенаправлено с Теория надёжности обучения по прецедентам (курс лекций, К.В.Воронцов)/2010)
												
			Программа спецкурса, прочитанного на кафедре ММП ВМК МГУ весной 2010 года.
Сборник задач по спецкурсу «Теория надёжности обучения по прецедентам»: PDF, 183 КБ.
Комбинаторные методы в математической статистике
Предсказание частоты события и закон больших чисел
- Задача эмпирического предсказания в общей постановке. Понятия наблюдаемой и скрытой выборки. Точность и надёжность предсказаний.
 - Слабая вероятностная аксиоматика. Перенос оценок из слабой аксиоматики в сильную (колмогоровскую). Финитарные и инфинитарные вероятности. Сравнение с колмогоровской аксиоматикой, достоинства, недостатки и границы применимости.
 - Задача предсказания частоты события. Примеры приложений: выборочный контроль качества, оценивание качества алгоритма классификации.
 - Лемма. Частота события в наблюдаемой выборке подчиняется гипергеометрическому распределению.
 - Теорема. Точная оценка вероятности большого уклонения частот события на наблюдаемой и скрытой выборках. Доказательство теоремы.
 - Геометрическая интерпретация.
 - Свойства гипергеометрического распределения. Методы вычисления гипергеометрического распределения.
 - Экспоненциальные верхние и асимптотические оценки. Закон больших чисел в слабой аксиоматике.
 
Обращение оценок
- Парадокс: оценка вероятности большого уклонения частот зависит от оцениваемой величины — числа ошибок на полной выборке.
 - Экспоненциальная верхняя оценка вероятности большого уклонения частот, её обращение и «грубое» устранение парадокса.
 - Обращение кусочно-постоянных функций.
 - Переход от ненаблюдаемой оценки к наблюдаемой: общая постановка проблемы; одномерный случай.
 - Обращение точной верхней оценки частоты события на скрытой выборке; «аккуратное» устранение парадокса.
 - Интервальная оценка частоты нуль-события на скрытой выборке.
 
Оценки равномерного отклонения эмпирических распределений
- Задача оценивания функции распределения как задача эмпирического предсказания.
 - Теоремы Колмогорова и Смирнова (без доказательства).
 - Усечённый треугольник Паскаля. Связь с задачами о случайном блуждании и разорении игрока.
 - Теорема. Точная оценка вероятности больших отклонений эмпирических распределений. Доказательство теоремы. Геометрические интерпретации.
 - Оценивание функции распределения на полной выборке.
 - Обобщение на случай вариационного ряда со связками. Почему в этом случае задача предсказания намного сложнее.
 
Непараметрические статистические критерии
- Задачи проверки статистических гипотез.
 - Гипотеза однородности, гипотеза сдвига.
 - Принципиальное различие задач эмпирического предсказания и проверки статистических гипотез.
 - Критерий знаков.
 - Критерий Уилкоксона-Манна-Уитни.
 - Критерий серий.
 - Критерий Смирнова.
 - Доверительное оценивание. Доверительный интервал для медианы.
 
Основы теории статистического обучения (теория Вапника-Червоненкиса)
Задача оценивания вероятности переобучения
- Основные понятия: алгоритм, метод обучения, переобучение. Примеры приложений: кредитный скоринг, медицинская диагностика.
 - Функционал вероятности переобучения в слабой аксиоматике; полный скользящий контроль.
 - Коэффициент разнообразия (shatter coefficient), профиль разнообразия (shatter profile), функция роста.
 - Принцип равномерной сходимости.
 - Теорема. Условия, при которых функционал равномерной сходимости совпадает с вероятностью переобучения метода минимизации эмпирического риска. Доказательство теоремы.
 - Теорема Вапника-Червоненкиса. Доказательство теоремы.
 - Обращение оценки.
 - Метод структурной минимизации риска.
 - Достаточная длина обучающей выборки.
 - Проблема завышенности оценок. Эмпирическое оценивание вероятности переобучения (метод Монте-Карло). Скользящий контроль. Эксперименты по эмпирическому измерению факторов завышенности. Основные причины завышенности — пренебрежение эффектами расслоения и связности в семействах алгоритмов.
 - Связность семейства алгоритмов с непрерывной дискриминантной функцией.
 
Влияние различности алгоритмов на вероятность переобучения
- Постановка экспериментов с методом минимизации эмпирического риска. Пессимистичная минимизация эмпирического риска.
 - Теорема. Вероятность переобучения для пары алгоритмов. Доказательство теоремы.
 - Результаты численного эксперимента: эффекты переобучения, расслоения и сходства для пары алгоритмов.
 - Модельные семейства алгоритмов с расслоением и связностью: цепочки алгоритмов (монотонные, унимодальные, стохастические, без расслоения).
 - Алгоритм эффективного построения зависимостей вероятности переобучения от числа алгоритмов в семействе. Результаты экспериментов и выводы. Без расслоения и связности переобучение наступает уже при нескольких десятках алгоритмов в семействе.
 - Теорема. Вероятность переобучения для монотонной цепочки алгоритмов.
 
Размерность Вапника-Червоненкиса (ёмкость)
- Понятие ёмкости.
 -  Функция 
, её связь с треугольником Паскаля.
 -  Лемма о функции 
. Доказательство леммы.
 - Теорема. Выражение функции роста через ёмкость. Доказательство теоремы.
 - Ёмкость конечных множеств. Принцип минимума длины описания.
 - Теорема. Ёмкость семейства линейных разделяющих правил. Доказательство теоремы.
 - Пример однопараметрического семейства бесконечной ёмкости.
 - Теорема. Ёмкость семейства конъюнкций элементарных пороговых условий. Доказательство теоремы.
 - Ёмкость некоторых разновидностей нейронных сетей (без доказательства).
 
Неравенства типа Бонферрони
- Классические неравенства Бонферрони.
 - Понятие биномиально ограниченной функции. Примеры биномиально ограниченных функций.
 - Основная теорема и следствия.
 - Применение дерева событий для замены неравенства Буля более точным неравенством Бонферрони при выводе оценок типа Вапника-Червоненкиса.
 
Литература:
- Klaus Dohmen, Peter Tittmann. Bonferroni-type inequalities and binomially bounded functions. — Electronic Notes in Discrete Mathematics (Czech-Slovak International Symposium on Combinatorics, Graph Theory, Algorithms and Applications). — 2007 T. 28. — 91–93 с.
 
Точные комбинаторные оценки обобщающей способности
Общая точная оценка вероятности переобучения
- Понятия порождающих, запрещающих и нейтральных объектов для данного алгоритма.
 - Простая гипотеза о множествах порождающих и запрещающих объектов.
 - Лемма о вероятности получить заданный алгоритм в результате обучения. Доказательство леммы.
 - Теорема. Точная оценка вероятности переобучения. Доказательство теоремы.
 - Общая гипотеза о множествах порождающих и запрещающих объектов.
 - Теорема. Общая гипотеза верна практически всегда. Доказательство теоремы.
 - Аналогично: Лемма и Теорема для общей гипотезы.
 - Теорема. Упрощённая оценка вероятности переобучения для случая, когда существует корректный алгоритм. Доказательство теоремы.
 
Модельные семейства алгоритмов (семейства простой структуры)
- Монотонная цепочка алгоритмов. Примеры.
 - Теорема. Вероятность переобучения монотонной цепочки. Доказательство теоремы.
 - Унимодальная цепочка алгоритмов. Примеры.
 - Теорема. Вероятность переобучения унимодальной цепочки. Доказательство теоремы.
 - Единичная окрестность лучшего алгоритма.
 - Теорема. Вероятность переобучения единичной окрестности. Доказательство теоремы.
 - h-мерная монотонная сетка алгоритмов. Линейная зависимость вероятности переобучения от размерности сетки.
 - Пучок h монотонных цепочек алгоритмов.
 - Полный слой алгоритмов.
 
Блочное вычисление вероятности переобучения
- Определение блока объектов.
 - Теорема. Формула для вычисления вероятности переобучения по блокам. Доказательство теоремы.
 - Теорема. Вероятность переобучения для пары алгоритмов. Доказательство теоремы.
 - Условия, при которых блочное вычисление достаточно эффективно.
 
Рекуррентное вычисление вероятности переобучения
- Идея рекуррентного обновления информации о каждом алгоритме семейства при добавлении нового алгоритма.
 - Лемма. Вычисление информации о добавленном алгоритме. Доказательство леммы.
 - Теорема. Правила обновления информации о предыдущих алгоритмах при добавлении нового. Доказательство теоремы.
 - Теорема. Упрощённый рекуррентный алгоритм не уменьшает оценку вероятности переобучения.
 
Профиль расслоения и связности
- Степень связности алгоритма. Граф расслоения и связности семейства алгоритмов. Профиль расслоения-связности.
 - Теорема. Верхняя оценка вероятности пееобучения через профиль расслоения-связности. Доказательство теоремы.
 - Эмпирическая гипотеза о сепарабельности профиля расслоения-связности.
 - Эмпирические гипотезы о взаимосвязи средней связности и размерности пространства парамеров.
 - Теорема. Верхняя оценка вероятности пееобучения через профиль расслоения и профиль связности. Доказательство теоремы.
 - Сравнение с оценками Вапника-Червоненкиса. Эмпирический факт: вероятность переобучения зависит линейно от размерности пространства, тогда как в классических оценках зависимость близка к экспоненциальной.
 
Оценки скользящего контроля для метода ближайших соседей
- метрические алгоритмы классификации, метод ближайших соседей.
 - Понятие профиля компактности.
 - Теорема. Точное выражение функционала полного скользящего контроля для метода одного ближайшего соседа (1NN). Доказательство теоремы.
 - Теорема. Точное выражение функционала полного скользящего контроля для метода k ближайших соседей (kNN).
 - Свойства профилей компактности.
 - Алгоритм выделения эталонных объектов. Функция вклада объекта и её эффективное вычисление. Метрические деревья.
 - Разделение объектов на шумовые, эталонные и неинформативные.
 
Оценки скользящего контроля для монотонных классификаторов
- Монотонные алгоритмы классификации.
 - Понятие клина объекта. Профиль монотонности выборки.
 - Теорема. Верхняя оценка скользящего контроля. Доказательство теоремы.
 - Монотонные корректирующие операции в алгоритмических композициях.
 - Критерии настройки базовых алгоритмов на основе оценок обобщающей способности.
 
Литература по предыдущей части курса
- Воронцов, К. В. Комбинаторная теория надёжности обучения по прецедентам: Дис. док. физ.-мат. наук: 05-13-17. — Вычислительный центр РАН, 2010. — 271 с. (подробнее).
 - Воронцов К. В. Слабая вероятностная аксиоматика. 2009. PDF, 832 КБ.
 - Воронцов К. В. Эффекты расслоения и сходства в семействах алгоритмов и их влияние на вероятность переобучения. 2009. PDF, 354 КБ.
 - Воронцов К. В. Точные оценки вероятности переобучения. 2009. PDF, 542 КБ.
 
Задачи по предыдущей части курса
- Открытые проблемы и задачи по спецкурсу «Теория надёжности обучения по прецедентам». 2010. PDF, 183 КБ.
 
Вероятностная байесовская теория обобщающей способности
Простейшие оценки вероятности ошибки классификации
- Вероятностная постановка задачи классификации. Понятия эмпирической ошибки и вероятности ошибок.
 - Биномиальное распределение.
 - Аппроксимации хвоста биномиального распределения (неравенства Хёфдинга и Чернова, дивиргенция Кульбака-Лейблера).
 - Обращение оценок.
 - Теорема. Оценка вероятности ошибки фиксированного алгоритма (test set bound). Доказательство теоремы. Три следствия: применение трёх различных аппроксимаций хвоста биномиального распределения.
 
Литература:
- Langford J. Quantitatively Tight Sample Complexity Bounds. — Carnegie Mellon Thesis. — 2002. — 124 с.
 
Бритва Оккама (Occam Razor)
- Понятия априорного распределения на множестве алгоритмов.
 - Теорема. Оценка вероятности ошибки для произвольного алгоритма (Occam razor bound). Доказательство теоремы. Три следствия: применение аппроксимаций и оценка Вапника-Червоненкиса.
 - Метод структурной минимизации риска (Вапника-Червоненкиса).
 - Теорема. Об оптимальном априорном распределении. Доказательство теоремы.
 - Открытые проблемы.
 
Литература:
- Langford J. Quantitatively Tight Sample Complexity Bounds. — Carnegie Mellon Thesis. — 2002. — 124 с.
 
Микровыборы и статистические запросы
- Методы обучения, основанные на статистических запросах (statistical queries learning).
 - Примеры алгоритмов. Решающие списки и решающие деревья.
 - Дерево микровыборов.
 - Оценки вероятности переобучения, основанные на микровыборах (microchoice bounds).
 - Адаптивные оценки, основанные на микровыборах (adaptive microchoice bounds).
 - Самоограничивающие методы обучения (self-bounding по Фройнду).
 
Стохастические классификаторы и теория PAC-Bayes
- Стохастические классификаторы. Понятия ожидаемой эмпирической ошибки и ожидаемой вероятности ошибок.
 - Теорема. Основная теорема теории PAC-Bayes. Доказательство теоремы.
 
Литература:
- Langford J. Tutorial on Practical Prediction Theory for Classification. — 2005. — 28 с.
 
Применение теории PAC-Bayes к линейным классификаторам
- Линейный классификатор, понятие отступа (margin), распределение отступов.
 - Принцип минимизации эмпирического риска и принцип максимизации отступов. Замена пороговой функции потерь на её непрерывную аппроксимацию.
 - Краткая история обоснований принципа максимизации отступов. О завышенности оценок обобщающей способности.
 - Теорема. Конкретизация основной теоремы теории PAC-Bayes для линейных классификаторов. Доказательство теоремы. Выбор априорного и апостериорного распределений. Следствие: ещё одна аппроксимация пороговой функции потерь.
 - Проблема правомерности переноса результатов, полученных для стохастических классификаторов, на обычные классификаторы.
 - Усреднённый классификатор (Averaging classifier) — композиция бесконечного множества стохастических линейных классификаторов путём усреднения по всему апостериорному распределению.
 - Теорема. Усреднённый классификатор является обычным (не стохастическим) линейным классификатором. Доказательство теоремы.
 - Теорема. Вероятность ошибки усреднённого классификатора не превышает удвоенной ожидаемой вероятности ошибки стохастического классификатора. Доказательство теоремы.
 
Литература:
- Langford J. Tutorial on Practical Prediction Theory for Classification. — 2005. — 28 с.
 - McAllester D. Simplified PAC-Bayesian Margin Bounds. — 2003.
 
Применение теории PAC-Bayes к голосованию правил
- Понятия логического правила (rule), закономерности, покрывающего набора правил (ruleset), ансамбля покрывающих наборов. Примеры прикладных задач.
 - Стохастический алгоритм синтеза покрывающего набора. Конкретизация основной теоремы теории PAC-Bayes для ансамбля покрывающих наборов. Эмпирическая оценка апостериорного распределения по конкретному ансамблю покрывающих наборов.
 - Теорема. Вероятность ошибки ансамбля покрывающих наборов оценивается сверху суммарной (по всем классам) ожидаемой вероятностью ошибки стохастического алгоритма.
 - Теорема. Оценка обобщающей способности улучшается, если классификатору разрешено отказываться (abstain) от классификации.
 - О практическом оценивании дивиргенции Кульбака-Лейблера между априорным и апостериорным распределениями. Эмпирическая оценка апостериорного распределения, основанная на модели белого шума.
 
Литература:
- Ruckert U., Kramer S. Towards Tight Bounds for Rule Learning. — Proc. 21th International Conference on Machine Learning, Banff, Canada. — 2004. — 90 с.
 
Расслоение семейства алгоритмов (Shell bounds)
- Основная идея расслоения: подавляющее большинство алгоритмов имеют высокую вероятность ошибки (около 50%), и крайне маловероятно, что для них будет наблюдаться малая эмпирическая ошибка.
 - Теорема. Оценка ненаблюдаемого расслоения (unobservable shell bound). Доказательство теоремы.
 - Теорема. Оценка наблюдаемого расслоения (observable shell bound). Доказательство теоремы.
 - Оценивание расслоения методом Монте-Карло.
 - Теорема. Оценка по случайной равномерной выборке алгоритмов. Доказательство теоремы.
 - Теорема. Обобщение на случай бесконечного семейства алгоритмов. Без доказательства.
 
Литература:
- Langford J. Quantitatively Tight Sample Complexity Bounds (Chapter 8). — Carnegie Mellon Thesis. — 2002. — 124 с.
 
Прочее
Анализ смещения и разброса
- Разложение ошибки на смещение и разброс (bias-variance decomposition) для случая регрессии.
 - Обобщения на случай классификации.
 - Оценки для метода k ближайших соседей и для линейных композиций.
 
Оценки вероятности ошибки в задачах регрессии
- Линейная регрессия.
 - Оценка матожидания ошибки для многомерной линейной регрессии.
 - Теорема. Информационный критерий Акаике. Доказательство теоремы.
 - Теорема. Байесовский информационный критерий. Доказательство теоремы.
 

