Метод главных компонент
Материал из MachineLearning.
 (→Литература)  | 
				 (→Внешние ссылки)  | 
			||
| Строка 59: | Строка 59: | ||
== Внешние ссылки ==  | == Внешние ссылки ==  | ||
* [http://pca.narod.ru/ Нелинейный метод главных компонент]  | * [http://pca.narod.ru/ Нелинейный метод главных компонент]  | ||
| + | * [http://en.wikipedia.org/wiki/Principal_components_analysis Principal components analysis at wikipedia.org]  | ||
| + | * [http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент на wikipedia.org]  | ||
{{Заготовка}}  | {{Заготовка}}  | ||
Версия 08:01, 30 июня 2008
Метод главных компонент  способ снижения размерности пространства данных. Он заключается в нахождении линейного ортогонального преобразования исходной матрицы данных в пространство меньшей размерности. При этом выбираются такая ортогональная система координат, которая обеспечивает наименьшую потерю информации в исходных данных. Последнее подразуменает минимальную среднеквадратичную ошибку при проекции данных в пространство заданной размерности.
Содержание | 
Определение метода главных компонент
  Одной из задач аппроксимации является задача приближения множества векторов-строк  матрицы 
 их проекциями на некоторую новую ортогональную систему координат.
Эта система отыскивается на множестве преобразований вращений 
 начальной системы координат.
При этом множество аппроксимируемых векторов 
, 
, отображается в новое множество векторов 
, где 
.
Оператором отображения
является ортонормальная матрица , то есть 
  единичная матрица.
Столбцы 
 называются главными компонентами матрицы 
.
Матрица 
 строится таким образом, что среднеквадратическая
разность между векторами 
 и проекцией этих векторов на
ортогональную систему координат, заданных 
 минимальна.
Наиболее удобным способом получения матрицы 
 является сингулярное разложение матрицы 
:
Метод главных компонент позволяет с помощью  первых главных компонент можно восстановить исходную матрицу с минимальной ошибкой.
Критерий минимального значения суммы квадратов расстояния от векторов-столбцов матрицы данных до их проекций на
первую главную компоненту называется критерием наибольшей информативности C.Р. Рао.
Кроме того, матрица 
 выполняет декоррелирующее преобразование, называемое также преобразованием Карунена-Лоэва.
В результате этого преобразования исчезает возможная корреляция между векторами-столбцами исходной матрицы 
.
где матрица  центрирована  из каждого ее столбца вычтено среднее значение по этому столбцу.
Понятие наибольшей информативности
Рассмотрим -мерную случайную величину 
 с ковариационной
матрицей 
. Обозначим 
 
соответствующие собственные числа и 
  собственные
векторы матрицы 
.
Заметим, что собственные числа и элементы собственных векторов
матрицы 
 всегда действительны. Тогда по теореме о собственных числах
Случайная величина  называется 
-й главной
компонентой случайной величины 
. Матрица вращения 
составлена из векторов-столбцов 
. Матрица
главных компонент 
 имеет следующие свойства.
Смотри также
Литература
- Рао С.Р. Линейные статистические методы и их применения. М.: Наука. 1968.  С. 530-533.
 - Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика. 1989.
 - Jolliffe I.T. Principal Component Analysis, Springer Series in Statistics. Springer. 2002.
 - Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points in Space". Philosophical Magazine 2 (6): 559–572. [1]
 

