МЛР
Материал из MachineLearning.
 (→Проблемы)  | 
				 (→Многомерная линейная регрессия)  | 
			||
| Строка 6: | Строка 6: | ||
Алгоритм:  | Алгоритм:  | ||
| - | :<tex>a(x) = \sum_{j=1}^n\alpha_jf_j(x)</tex>.  | + | :<tex>a(x)\ =\ \sum_{j=1}^n\alpha_jf_j(x)\ =\ F\alpha</tex>.  | 
Оценим качество его работы на выборке <tex>X^l = (x_i,\ y_i)_{i=1}^l \in X*Y</tex> [[Метод наименьших квадратов| методом наименьших квадратов]]:  | Оценим качество его работы на выборке <tex>X^l = (x_i,\ y_i)_{i=1}^l \in X*Y</tex> [[Метод наименьших квадратов| методом наименьших квадратов]]:  | ||
| Строка 36: | Строка 36: | ||
А так как <tex>\parallel \alpha \parallel^2 \ =\ \alpha ^T \alpha</tex>, то <br />  | А так как <tex>\parallel \alpha \parallel^2 \ =\ \alpha ^T \alpha</tex>, то <br />  | ||
:<tex>\parallel \alpha ^*\parallel^2 \ =\ \parallel UD^{-1}V^Ty \parallel^2 \ =\ y^TVD^{-T}U^TUD^{-1}V^Ty\ =\ y^TVD^{-2}V^Ty\ =\ \parallel D^{-1}V^Ty \parallel^2\ =\ \sum_{j=1}^{n} \frac1{\alpha _j} (v_j^T,\ y)^2.</tex>  | :<tex>\parallel \alpha ^*\parallel^2 \ =\ \parallel UD^{-1}V^Ty \parallel^2 \ =\ y^TVD^{-T}U^TUD^{-1}V^Ty\ =\ y^TVD^{-2}V^Ty\ =\ \parallel D^{-1}V^Ty \parallel^2\ =\ \sum_{j=1}^{n} \frac1{\alpha _j} (v_j^T,\ y)^2.</tex>  | ||
| + | |||
==Проблемы==  | ==Проблемы==  | ||
===Мультиколлинеарность===  | ===Мультиколлинеарность===  | ||
Версия 10:46, 5 января 2010
|   |  Данная статья является непроверенным учебным заданием.
 До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.  | 
Многомерная линейная регрессия — это линейная регрессия в n-мерном пространстве.
Содержание | 
Многомерная линейная регрессия
Имеется множество объектов  и множество ответов 
. Также имеется набор 
 вещественнозначных признаков 
. Введём матричные обозначения: матрицу информации 
, целевой вектор 
, вектор параметров 
 и диагональную матрицу весов:
Алгоритм:
.
Оценим качество его работы на выборке   методом наименьших квадратов:
, или, в матричных обозначениях,
.
Задача с произвольной матрицей весов легко приводится к единичной матрице весов заменой :
.
Таким образом, в дальнейшем будем рассматривать только задачу с единичными весами.
Найдём минимум  по α:
.
Если , то можно обращать матрицу 
, где введено обозначение 
.
В таком случае функционал качества записывается в более удобной форме:
, где
— проекционная матрица:
 — вектор, являющийся проекцией 
 на 
.
как нарисовать значок проекционной матрицы, чтобы его можно было отличить от того, на что матрица умножается?!
Теперь рассмотрим сингулярное разложение матрицы F:
.
В таких обозначениях:
, а так как
, то
в силу диагональности матрицы D.
А решение метода наименьших квадратов запишется в следующем виде:
А так как , то 
Проблемы
Мультиколлинеарность
Основной проблемой многомерной линейной регресии является вырожденность, или, в более общем случае, мультиколлинеарность матрицы FTF, которую приходится обращать. Подобные проблемы возникают, когда среди признаков fj(x) есть почти линейно зависимые.
Мультиколлинеарность матрицы определяется её числом обусловленности:
, где λ — собственные значения матрицы FTF.
Чем больше число обусловленности, тем ближе матрица FTF к вырожденной и тем неустойчивее обратная к ней матрица. Плохая обусловленность матрицы: λmin << λmax. Матрицу принято считать плохо обусловленной, если её число обусловленности превышает 103...106.
Последствия:
- Разброс значений αj. Появляются большие положительные и большие отрицательные коэффициенты αj. По абсолютной величине коэффициента становится невозможно судить о степени важности признака fj . Коэффициенты утрачивают интерпретируемость.
 - Неустойчивость решения α* при (кажущейся) устойчивости Fα*. Малые изменения данных, например, шум или добавление нового объекта, могут сильно изменить вектор коэффициентов.
 - Отсюда следует опасность переобучения, так как снижается обобщающая способность алгоритма.
 
Для борьбы с мультиколлинеарностью применяются существуют методы:
- Регуляризация. Накладываются дополнительные ограничения на норму вектора коэффициентов α. Примером могут служить гребневая регрессия или L1-регуляризация)
 - Преобразование признаков. Исходные n признаков с помощью некоторых преобразований переводятся в меньшее число m новых признаков. В частности, линейные преобразования приводят к методу главных компонент.
 
Разный масштаб признаков
Другой важной, но существенно более простой в плане решения проблемой является разнородность признаков. Если машстабы измерений признаков существенно (на несколько порядков) различаются, то появляется опасноcть, что будут учитываться только "крупномасштабные" признаки. Чтобы этого избежать, делается стандартизация матрицы F:
,
где  — выборочное среднее, а 
 — выборочная дисперсия. При этом после стандартизации исходных данных то же самое преобразование необходимо будет применять ко всем объектам, подаваемым на вход алгоритма α*(x) = f(x, α*). Также следует отметить, что ковариационная матрица FTF после стандартизации становится корреляционной матрицей.

