Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)
Материал из MachineLearning.
Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.
Предполагается, что слушатели владеют материалом курса «Численные методы обучения по прецедентам»
|   | Страница редактируется для группы 674 вплоть до 7 сентября 2011. --Strijov 15:25, 21 июня 2011 (MSD) | 
Введение
- Задача регрессионного анализа, терминология
 - Что такое регрессионная модель
 - Примеры постановки задач регрессионного анализа
 - Подстановки в линейных моделях
 - Авторегрессионные модели
 - Моделирование геометрических измерений
 - Моделирование в финансовой математике
 - Экспертно-статистические методы
 
Линейные и существенно-нелинейные модели
- Линейная регрессия
 - Метод наименьших квадратов
 - Нелинейная регрессия
 - Основные модели нелинейной регрессии
 - Матрица Якоби и Гессе
 - Метод Ньютона
 - Алгоритм Левенберга-Марквардта
 - Ранговая регрессия
 
Линейные методы
- Метод главных компонент
 - Максимальное правдоподобие МГК
 - Байсесовский МГК
 - МГК для нелинейных моделей
 - Сингулярное разложение
 - Простой итерационный алгоритм сингулярного разложения
 - Пространства, порождаемые сингулярными векторами
 - Матричные нормы и обусловленность
 - Анализ сингулярных структур
 
Обобщенно-линейные модели
- Гипотеза порождения данных
 - Логистическая регрессия
 - Метод Ньютона-Рафсона
 - Первый уровень Байесовского вывода
 - Регуляризация
 - Оценка гиперпараметров для произвольной гипотезы порождения данных
 
Методы сэмплирования
- Интегрирование Монте-Карло
 - Методы преобразования равномерного распределения
 - Сэмплирование с отклонением
 - Сэмплирование по значимости
 - Гиббсовское сэмплирование
 - Сэмплирование Метрополиса-Хастингса
 - Использование результатов
 
Критерии качества моделей
- Отсутствие гипотезы порождения данных
 - Искусственные критерии качества моделей
 - МГУА
 - Скоринг и логистическая регрессия.
 - Многокритериальный выбор моделей
 - Постановка задач многокритериальной оптимизации.
 - Сведение многокритериальной оптимизации к однокритериальной (Weber)
 - Парето-оптимальный фронт
 - Алгоритмы многокритериальной оптимизации
 
Требования к моделям
- Анализ регрессионных остатков
 - Фактор инфляции дисперсии
 - Сложность моделей
 - Устойчивость моделей
 - Метод Белсли для линейных моделей
 - Метод Белсли и анализ ковариационных матриц для нелинейных моделей
 
Порождение моделей
- Методы порождения моделей
 - Структурная сложность
 - Структурное расстояние
 - Порождение моделей МГУА
 - Порождение нейронных сетей и RBF
 - Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
 - Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом
 
Методы выбора признаков
- Переборные алгоритмы
 - Шаговая регрессия
 - Алгоритмы с регуляризацией
 - Алгоритмы направленного добавления FOS, Stagewise, LARS
 - Оптимальное прореживание
 - Оптимизация правдоподобия
 
Сравнение моделей
- Второй уровень Байесовского вывода
 - Фактор Оккама
 - Принцип минимальной длины описания
 - Аппроксимация Лапласа
 - Оценка гиперпараметров
 - Выбор базиса аппроксимации Лапласа
 
Сравнение моделей
- Графические модели
 - Байесовские сети
 - Расстояние Кулльбака-Лейблера
 - Вероятностная сходимость
 - Расстояние между моделями
 
Мультимоделирование и смеси экспертов
- Байесовское усреднение моделей
 - Смеси распределений
 - Смеси линейных моделей
 - Смеси обобщенно-линейных моделей
 - Смеси экспертов
 - Иерархические модели
 - Инварианты в пространстве параметров моделей
 
Анализ ковариационных матриц
- Гауссовские процессы
 - Байесовская регрессия - пространство данных и пространство параметров
 - Оценка гиперпараметров
 - Мультиколлинеарность и случайные признаки
 
Практика
Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. Практика и доклад выполняются в формате «Численные методы».
- Подробнее: Группа 674, осень 2011
 
Экзамен
До начала экзамена нужно выполнить все практические задания. Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), неотрицательная оценка за экзамен дает 1 балл, а отрезок [84, 100] линейно отображается в отрезок [6,10].
Практика
- 29 сентября и 6 октября
 - 27 октября и 3 ноября
 - 24 ноября и 1 декабря
 
Теория
- 15 декабря 2011 группа 674: список задач будет опубликован по окончании экзамена
 
История
Предшествующие программы и практические задания
Начиная с осени 2010 старая практика переносится в раздел

