Шаговая регрессия
Материал из MachineLearning.
| Строка 1: | Строка 1: | ||
== Шаговая регрессия (stepwise regression) == | == Шаговая регрессия (stepwise regression) == | ||
| - | Цель пошаговой [[Регрессия|регрессии]] состоит в отборе из большого количества предикатов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной. Обычно этот процесс выполняет автоматизированная процедура, которая вводит или выводит предикаты из уравнения регрессии по очереди. | + | Цель пошаговой [[Регрессия|регрессии]] состоит в отборе из большого количества предикатов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной. Обычно этот процесс выполняет автоматизированная процедура, которая вводит или выводит предикаты из уравнения регрессии по очереди, основываясь на серии [[F-тест Фишера|F-тестов]], [[Критерий Стьюдента|t-тестов]] или других подходах. |
== Основные подходы == | == Основные подходы == | ||
| - | === | + | ==== прямое включение (прямая пошаговая регрессия) ==== |
Вначале уравнение регрессии не содержит предикатов. Они вводятся по одному, если удовлетворяют определенному критерию. В основе порядка введения включаемых переменных лежит вклад переменной в объясняемую вариацию. | Вначале уравнение регрессии не содержит предикатов. Они вводятся по одному, если удовлетворяют определенному критерию. В основе порядка введения включаемых переменных лежит вклад переменной в объясняемую вариацию. | ||
| - | === | + | ==== исключение переменной (обратная пошаговая регрессия) ==== |
Вначале все предикаты входят в уравнение регрессии. Затем по очереди выводятся из уравнения исходя из их соответствия критерию. | Вначале все предикаты входят в уравнение регрессии. Затем по очереди выводятся из уравнения исходя из их соответствия критерию. | ||
| - | === | + | ==== пошаговый подход ==== |
На каждой стадии прямое включение осуществляют одновременно с исключением переменных, которые больше не удовлетворяют конкретному критерию. | На каждой стадии прямое включение осуществляют одновременно с исключением переменных, которые больше не удовлетворяют конкретному критерию. | ||
| Строка 19: | Строка 19: | ||
== Алгоритмы == | == Алгоритмы == | ||
| - | + | Часто применяют пошаговый подход, когда последовательно включаются факторы в уравнение | |
| + | регрессии и после проверяется их значимость. Факторы поочередно вводятся | ||
| + | в уравнение так называемым "прямым методом". При проверке значимости | ||
| + | введенного фактора определяется, насколько уменьшается сумма квадратов | ||
| + | остатков и увеличивается величина множественного коэффициента корреляции. | ||
| + | Одновременно используется и обратный метод, т.е. исключение факторов, | ||
| + | ставших незначимыми на основе t-критерия Стьюдента. Фактор является | ||
| + | незначимым, если его включение в уравнение регрессии только изменяет | ||
| + | значение коэффициентов регрессии, не уменьшая значительно суммы квадратов остатков и не | ||
| + | увеличивая их значения. Если при включении в модель соответствующего | ||
| + | факторного признака величина множественного коэффициента корреляции | ||
| + | увеличивается, а коэффициент регрессии не изменяется (или меняется | ||
| + | несущественно), то данный признак существен и его включение в уравнение | ||
| + | регрессии необходимо. | ||
| + | |||
== Недостатки == | == Недостатки == | ||
| - | * | + | * Метод пошаговой регрессии не позволяет выводить оптимальные уравнения регрессии с точки зрения получения наибольшего коэффициента детерминации R2 для данного количества предикторов. Из-за корреляций между предикторами важная переменная может никогда не быть включена в уравнение, а второстепенные переменные будут введены в уравнение. Чтобы определить оптимальное уравнение регрессии, желательно просчитать варианты, в которых анализируются все возможные комбинации. Несмотря на это, пошаговая регрессия полезна в ситуации, когда размер выборки велик по сравнению с количеством предикторов |
| - | * [P-Value] зависит от результата предшествующих тестов, что усложняет их интерпретацию. | + | * Часто для выбора добавляемой или удаляемой переменной используется последовательность [[F-тест Фишера|F-тестов Фишера]], который проводятся на одних и тех же данных, что приводит к проблеме [[Проблема множественных сравнений|преблеме множественных сравнений]]. Для борьбы с этим явлением разработано достаточно большое количество корректирующих критериев. |
| + | |||
| + | * [[P-Value]] зависит от результата предшествующих тестов, что усложняет их интерпретацию. | ||
* Тесты являеются смещенными, так как проводятся на одних и тех же данных (Rencher and Pun, 1980, Copas, 1983) | * Тесты являеются смещенными, так как проводятся на одних и тех же данных (Rencher and Pun, 1980, Copas, 1983) | ||
| + | |||
| + | == Внешние ресурсы == | ||
| + | |||
| + | * [http://www.mathworks.com/access/helpdesk/help/toolbox/stats/index.html?/access/helpdesk/help/toolbox/stats/stepwise.html&http://www.google.ru/search?hl=ru&lr=&client=firefox-a&rls=org.mozilla:ru:official&q=regression+stepwise&start=10&sa=N | ||
| + | Реализация в Matlab] | ||
Версия 13:36, 11 января 2009
Содержание |
Шаговая регрессия (stepwise regression)
Цель пошаговой регрессии состоит в отборе из большого количества предикатов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной. Обычно этот процесс выполняет автоматизированная процедура, которая вводит или выводит предикаты из уравнения регрессии по очереди, основываясь на серии F-тестов, t-тестов или других подходах.
Основные подходы
прямое включение (прямая пошаговая регрессия)
Вначале уравнение регрессии не содержит предикатов. Они вводятся по одному, если удовлетворяют определенному критерию. В основе порядка введения включаемых переменных лежит вклад переменной в объясняемую вариацию.
исключение переменной (обратная пошаговая регрессия)
Вначале все предикаты входят в уравнение регрессии. Затем по очереди выводятся из уравнения исходя из их соответствия критерию.
пошаговый подход
На каждой стадии прямое включение осуществляют одновременно с исключением переменных, которые больше не удовлетворяют конкретному критерию.
Алгоритмы
Часто применяют пошаговый подход, когда последовательно включаются факторы в уравнение регрессии и после проверяется их значимость. Факторы поочередно вводятся в уравнение так называемым "прямым методом". При проверке значимости введенного фактора определяется, насколько уменьшается сумма квадратов остатков и увеличивается величина множественного коэффициента корреляции. Одновременно используется и обратный метод, т.е. исключение факторов, ставших незначимыми на основе t-критерия Стьюдента. Фактор является незначимым, если его включение в уравнение регрессии только изменяет значение коэффициентов регрессии, не уменьшая значительно суммы квадратов остатков и не увеличивая их значения. Если при включении в модель соответствующего факторного признака величина множественного коэффициента корреляции увеличивается, а коэффициент регрессии не изменяется (или меняется несущественно), то данный признак существен и его включение в уравнение регрессии необходимо.
Недостатки
- Метод пошаговой регрессии не позволяет выводить оптимальные уравнения регрессии с точки зрения получения наибольшего коэффициента детерминации R2 для данного количества предикторов. Из-за корреляций между предикторами важная переменная может никогда не быть включена в уравнение, а второстепенные переменные будут введены в уравнение. Чтобы определить оптимальное уравнение регрессии, желательно просчитать варианты, в которых анализируются все возможные комбинации. Несмотря на это, пошаговая регрессия полезна в ситуации, когда размер выборки велик по сравнению с количеством предикторов
- Часто для выбора добавляемой или удаляемой переменной используется последовательность F-тестов Фишера, который проводятся на одних и тех же данных, что приводит к проблеме преблеме множественных сравнений. Для борьбы с этим явлением разработано достаточно большое количество корректирующих критериев.
- P-Value зависит от результата предшествующих тестов, что усложняет их интерпретацию.
- Тесты являеются смещенными, так как проводятся на одних и тех же данных (Rencher and Pun, 1980, Copas, 1983)
Внешние ресурсы
Реализация в Matlab]

