Статистический анализ данных (курс лекций, К.В.Воронцов)
Материал из MachineLearning.
Курс знакомит студентов с основными задачами и методами прикладной статистики.
Цели курса — связать теорию и практику, научить студентов «видеть» статистические задачи в различных предметных областях и правильно применять методы прикладной статистики, показать на практических примерах возможности и ограничения статистических методов. Курс имеет скорее методологическую, чем математическую направленность и не содержит доказательств теорем.
Каждый метод описывается по единой схеме:
- постановка задачи;
 - примеры прикладных задач из области экономики, социологии, производства, медицины;
 - базовые предположения и границы применимости;
 - описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её функция распределения с эскизом графика, критическая область);
 - достоинства, недостатки, ограничения, «подводные камни»;
 - сравнение с другими методами.
 
Курс читается студентам 5 курса кафедры математических методов прогнозирования ВМиК МГУ с 2007 года и студентам 4 курса факультета управления и прикладной математики МФТИ с 2011 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики.
Программа курса
Введение
Обзор необходимых сведений из теории вероятностей и математической статистики.
- Понятия простой выборки и статистики. Примеры статистик: моменты, асимметрия и эксцесс, вариационный ряд и порядковые статистики, эмпирическое распределение.
 - Статистические точечные оценки и их свойства: несмещённость, состоятельность, оптимальность, робастность.
 - Интервальные оценки, понятия доверительного интервала и уровня доверия. Доверительное оценивание по вариационному ряду. Доверительные интервалы для среднего и медианы.
 - Часто используемые распределения: нормальное, хи-квадрат, Фишера, Стьюдента, Бернулли, биномиальное, гипергеометрическое, Пуассона.
 - Проверка статистических гипотез, основные понятия: уровень значимости, достигаемый уровень значимости (p-value), ошибки I и II рода. Односторонние и двусторонние альтернативы.
 - Свойства достигаемых уровней значимости.
 - Свойства критериев: несмещённость, состоятельность, равномерная мощность.
 
Параметрическая проверка гипотез
[Kanji, Кобзарь]
- Критерии нормальности: критерий хи-квадрат (Пирсона), Критерий Шапиро-Уилка, критерии, основанные на различиях между эмпирической и теоретической функциями распределения, критерий Колмогорова-Смирнова (Лиллиефорса). Упрощённая проверка нормальности по асимметрии и эксцессу: критерий Жарка-Бера.
 - Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании [Лапач, §3.2]. Примеры прикладных задач.
 - Гипотеза о равенстве средних: критерий Стьюдента для одной и двух выборок, Z-критерий для одной и двух выборок, связанные выборки
 - Гипотеза о равенстве дисперсий: критерий Фишера.
 - Гипотезы о значениях параметра распределения Бернулли: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок (случаи связанных и независимых выборок).
 - Доверительный интервал для параметра распределения Бернулли: Вальда, Уилсона. Доверительные интервалы Уилсона для разности параметров двух выборок.
 
Непараметрическая проверка гипотез
[Кобзарь, Good, Wilcox]
- Критерии знаков: одновыборочный, для связанных выборок.
 - Вариационный ряд, ранги и связки.
 - Ранговые критерии: критерий Уилкоксона-Манна-Уитни, критерий Уилкоксона двухвыборочный, критерий Уилкоксона для связанных выборок, критерий Зигеля-Тьюки.
 - Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связанных выборок, для независимых выборок), проверка гипотезы о рассеивании.
 - Двухвыборочные критерии согласия: Колмогорова-Смирнова, Крамера-фон Мизеса (Андерсона).
 - Функция сдвига и доверительная лента для неё.
 
Множественная проверка гипотез
[Bretz, Dickhaus]
- Множественная проверка гипотез. Примеры задач. Меры числа ошибок первого рода.
 - FWER, поправка Бонферрони.
 - Нисходящие процедуры множественной проверки: общий вид, метод Холма.
 - Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, positive orthant dependence.
 - Оценка числа верных нулевых гипотез и её применение.
 - FDR, восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.
 
Дисперсионный анализ (ANOVA)
[Tabachnick, Лагутин, Кобзарь]
- Однофакторная модель. Независимые выборки: критерии Фишера, Краскела-Уоллиса, Джонкхиера. Связанные выборки: критерии Фишера, Фридмана и Пейджа
 - Модель со случайным эффектом, разделение дисперсии.
 - Модель с фиксированным эффектом, уточнение различий: методы LSD и HSD, критерий Неменьи.
 - Проверка гипотезы о равенстве дисперсий: критерии Бартлета и квадратов рангов.
 - Двухфакторная модель. Взаимодействие факторов, его интерпретация. Двухфакторный нормальный анализ. Иерархический дизайн.
 
Анализ зависимостей
[Agresti, Лагутин].
- Корреляция Пирсона. Значимость коэффициента корреляции: критерий Стьюдента, перестановочный критерий.
 - Ранговая корреляция: коэффициент корреляции Спирмена, коэффициент корреляции Кенделла, их значимость. Связь коэффициентов корреляции.
 - Частная корреляция, значимость коэффициента частной корреляции (критерий Стьюдента).
 - Множественная корреляция, значимость коэффициента множественной корреляции (критерий Фишера).
 -  Таблица сопряженности 
. Проверка гипотезы независимости категориальных величин с помощью критериев хи-квадрат и G-квадрат. Коэффициент V Крамера, коэффициент
для порядковых величин.
 -  Таблица сопряженности 
. Проверка гипотезы независимости бинарных величин с помощью точного критерия Фишера. Корреляция Мэтьюса.
 - Парадокс хи-квадрат.
 
Линейный регрессионный анализ
[Дрейпер, Wooldridge]
- Многомерная линейная регрессия. Примеры прикладных задач. Метод наименьших квадратов.
 - Несимметричность решения задачи одномерной регрессии относительно признака и отклика, связь с коэффициентом корреляции. Остаточная сумма квадратов (RSS). Коэффициент детерминации
 - Предположения Гаусса-Маркова. Статистические свойства МНК-оценок в отсутствие предположения нормальности.
 - Факторы, влияющие на дисперсию оценок коэффициентов модели. Мультиколлинеарность.
 - Кодирование нечисловых признаков, фиктивные переменные. Dummy- и deviation-кодирование.
 - Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика.
 - Анализ структуры линейной регрессионной модели. Значимость коэффициентов линейной регрессии: проверка равенства коэффициентов нулю и константе, вложенные модели линейной регрессии, критерий Фишера, запись критерия Фишера через коэффициент детерминации. Связь между критериями Фишера и Стьюдента. Пошаговая регрессия. Эксперимент Фридмана.
 - Сравнение невложенных моделей: приведённый коэффициент детерминации, критерий Давидсона-Маккиннона.
 - Анализ регрессионных остатков: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности (критерий Бройша-Пагана), нормальности.
 - Обработка выбросов, расстояние Кука.
 - Метод Бокса-Кокса для преобразования отклика. Доверительный интервал для параметра метода.
 - Устойчивая оценка дисперсии Уайта, её модификации.
 
Обобщения линейной регрессии
[Hosmer]
- Постановка задачи логистической регрессии, повторяемый эксперимент с фиксированными уровнями фактора, неповторяемый эксперимент со случайными уровнями фактора. Логит, его интерпретация. Интерпретация коэффициентов логистической регрессии (бинарный, количественный признак).
 - Оценка параметров модели методом максимального правдоподобия. Возможные причины отсутствия сходимости.
 - Анализ модели логистической регрессии: оценка значимости коэффициентов (критерии Вальда и отношения правдоподобия), построение доверительных интервалов. Оценка значимости категориальных предикторов. Проверка линейности логита по признаку. Признаки мультиколлинеарности. Остатки Пирсона, аналог расстояния Кука.
 - Содержательный отбор признаков.
 - Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога.
 
[Cameron]
- Регрессия натурального признака. Пуассоновская модель.
 - Методы оценки дисперсии коэффициентов. Доверительные интервалы. Меры качества модели.
 - Предположение о равенстве матожидания и дисперсии и его проверка. Отрицательная биномиальная и пороговая модели.
 
[Hastie]
- Проблема мультиколлинеарности. Методы понижения размерности: ридж-регрессия, лассо Тибширани, эластичная сеть. Выбор параметра регуляризации.
 
Материалы занятий: часть 1, часть 2
Анализ временных рядов
[Hyndman, Лукашин]
- Временной ряд. Основные компоненты эконометрических временных рядов: тренд, сезонность. Календарные эффекты.
 - Анализ остатков. Автокорреляционная функция. Коррелограмма и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции и группы автокорреляций (критерий Льюнга-Бокса). Проверка гипотезы стационарности (критерий KPSS).
 - Меры качества прогнозов, примеры оценок. Информационные критерии. U-коэффициент Тейла.
 - Сравнение качества двух прогнозов. Непараметрические критерии, критерий Диболда-Мариано, его модификация для маленьких выборок.
 - Сравнение качества нескольких прогнозов. Reality check Уайта, модификация Романо-Вольфа.
 - Обнаружение структурных изменений. Критерий Чоу.
 - Прогнозирование методами экспоненциального сглаживания. Простое экспоненциальное сглаживание Брауна, методы Хольта и Хольта-Уинтерса. Таксономия моделей ETS.
 - Модели AR, MA, ARMA. Частичная автокорреляция. Подбор параметров модели по коррелограммам. Переход к ряду разностей, модель ARIMA.
 - Сезонные эффекты и модели их учёта: SARMA, SARIMA.
 - Учёт дополнительных признаков, модель regARIMA. Схема настройки параметров модели.
 - Причинность по Грейнджеру. Критерий Грейнджера (для двух рядов, для множества рядов).
 - Адаптивная селекция и копозиция моделей прогнозирования. «Forecast combination puzzle». Агрегирующий алгоритм Вовка.
 - Прогнозирование иерархических совокупностей рядов.
 - Сложные сезонности в моделях экспоненциального сглаживания (TBATS) и авторегрессии.
 
Материалы занятий: часть 1, часть 2, часть 3.
Последовательный анализ
[Вальд, Mukhopadhyay]
- Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений.
 - Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным.
 - Последовательные доверительные интервалы для среднего нормальной совокупности с неизвестной дисперсией (двухэтапная, последовательная процедуры). Процедуры для разности средних двух нормальных совокупностей, случаи равных и неравных дисперсий.
 - Непараметрические последовательные доверительные интервалы для среднего и медианы.
 
Анализ выживаемости
- Анализ выживаемости. Функция выживаемости и функция интенсивности рисков. Процедура Каплана-Мейера. Доверительный интервал выживаемости.
 - Сравнение двух функций выживаемости: логранговый критерий, критерий Гехана.
 
Анализ панельных данных
[Магнус]
- Примеры эконометрических задач: анализ стран, фирм, домашних хозяйств, телезрителей.
 - Объединённая модель панельных данных.
 - Модель панельных данных с фиксированными эффектами.
 - Модель панельных данных со случайными эффектами.
 - Модель панельных данных с временны́ми эффектами.
 - Модель несвязанных регрессий.
 - Проблема выбора модели: F-тест Фишера, критерий множителей Лагранжа, критерий Хаусмана.
 - Ротационная панель.
 
Литература
- Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
 - Дрейпер, Н.Р., Смит Г. Прикладной регрессионный анализ. — М.: Издательский дом "Вильямс", 2007.
 - Лагутин, М.Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
 - Лукашин, Ю.П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
 - Кобзарь, А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.
 - Магнус, Я.Р., Катышев, П.К., Пересецкий, А.А. Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
 - Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2002.
 - Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
 - Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
 - Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
 - Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
 - Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p. (подробнее)
 - Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
 - Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2013. https://www.otexts.org/book/fpp
 - Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
 - Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
 - Shumway, R.H, Stoffer, D.S. Time Series Analysis and Its Applications with R Examples. — New York: Springer, 2011.
 - Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
 - Wilcox, R.R. Introduction to Robust Estimation and Hypothesis Testing. — Academic Press, 2012.
 - Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.
 

