Профиль компактности
Материал из MachineLearning.
 (Новая: {{TOCright}} '''Профиль компактности''' выборки в метрических алгоритмах [[клас...)  | 
				 (дополнение)  | 
			||
| Строка 7: | Строка 7: | ||
Имеется множество объектов <tex>X</tex> и множество имён классов <tex>Y</tex>.  | Имеется множество объектов <tex>X</tex> и множество имён классов <tex>Y</tex>.  | ||
Задана [[обучающая выборка]] пар «объект—ответ»  | Задана [[обучающая выборка]] пар «объект—ответ»  | ||
| - | <tex>X^m = \{(x_1,y_1),\  | + | <tex>X^m = \{(x_1,y_1),\ldots,(x_m,y_m)\} \in X\times Y</tex>.  | 
Пусть на множестве объектов задана функция расстояния <tex>\rho(x,x')</tex>.  | Пусть на множестве объектов задана функция расстояния <tex>\rho(x,x')</tex>.  | ||
| Строка 16: | Строка 16: | ||
объекты обучающей выборки <tex>x_i</tex> в порядке возрастания расстояний до <tex>u</tex>:  | объекты обучающей выборки <tex>x_i</tex> в порядке возрастания расстояний до <tex>u</tex>:  | ||
::<tex>\rho(u,x_{1; u}) \leq  \rho(u,x_{2; u}) \leq \cdots \leq \rho(u,x_{m; u}),</tex>  | ::<tex>\rho(u,x_{1; u}) \leq  \rho(u,x_{2; u}) \leq \cdots \leq \rho(u,x_{m; u}),</tex>  | ||
| - | где через <tex>x_{i; u}</tex> обозначается <tex>i</tex>-  | + | где через <tex>x_{i; u}</tex> обозначается элемент обучающей выборки, который является <tex>i</tex>-м соседом объекта <tex>u</tex>.  | 
Аналогичное обозначение введём и для ответа на <tex>i</tex>-м соседе:  | Аналогичное обозначение введём и для ответа на <tex>i</tex>-м соседе:  | ||
<tex>y_{i; u}</tex>.  | <tex>y_{i; u}</tex>.  | ||
| Строка 22: | Строка 22: | ||
Рассматривается [[метод ближайшего соседа]], который относит классифицируемый объект <tex>u</tex> к тому классу <tex>y_i</tex>, которому принадлежит ближайший объект обучающей выборки <tex>x_i</tex>:  | Рассматривается [[метод ближайшего соседа]], который относит классифицируемый объект <tex>u</tex> к тому классу <tex>y_i</tex>, которому принадлежит ближайший объект обучающей выборки <tex>x_i</tex>:  | ||
| - | ::<tex>a(u) = y_{1;u}.</tex>  | + | ::<tex>a(u,X^m) = y_{1;u}.</tex>  | 
| + | |||
| + | [[Изображение:ChartLib-1NNProfile.png|frame]]  | ||
'''Определение.'''  | '''Определение.'''  | ||
| Строка 36: | Строка 38: | ||
В сложных задачах или при неудачном выборе функции расстояния  | В сложных задачах или при неудачном выборе функции расстояния  | ||
ближайшие объекты практически не несут информации о классах,   | ближайшие объекты практически не несут информации о классах,   | ||
| - | и профиль вырождается в константу, близкую к   | + | и профиль вырождается в константу, близкую к 0.5.   | 
| + | |||
| + | На рисунке показаны профили компактности для серии плоских модельных задач классификации с двумя классами.   | ||
| + | Чем ниже проходит начальный участок профиля,   | ||
| + | тем выше [[обобщающая способность]] метода ближайшего соседа.   | ||
== Связь с полным скользящем контролем ==  | == Связь с полным скользящем контролем ==  | ||
| + | |||
| + | Выборка <tex>X^L</tex> разбивается всевозможными <tex>N=C_L^k</tex> способами на две непересекающиеся подвыборки:  | ||
| + | <tex>X^L = X^m_n \cup X^k_n</tex>,   | ||
| + | где   | ||
| + | <tex>X^m_n</tex> — обучающая подвыборка длины&nbps;<i>m</i>,  | ||
| + | <tex>X^k_n</tex> — контрольная подвыборка длины <tex>k=L-m</tex>,  | ||
| + | <tex>n=1,\ldots,N</tex> — номер разбиения.  | ||
| + | |||
| + | Для каждого разбиения ''n'' строится алгоритм <tex>a_n(u,X^m_n)</tex>.  | ||
| + | Функционал ''полного скользящего контроля'' (complete cross-validation, CCV)   | ||
| + | определяется как средняя (по всем разбиениям) ошибка на контроле:  | ||
| + | ::<tex>CCV(X^L)=\frac1N \sum_{n=1}^N \sum_{x_i \in X^k_n} \left[ a_n(x_i,X^m_n) \neq y_i \right].</tex>  | ||
| + | |||
| + | Функционал ''полного скользящего контроля'' характеризует [[обобщающая способность|обобщающую способность]] метода ближайшего соседа  | ||
| + | |||
'''Теорема.'''  | '''Теорема.'''  | ||
| + | Справедлива формула для эффективного вычисления CCV через профиль компактности:  | ||
| + | ::<tex>CCV(X^L)= \sum_{j=1}^k R(j) \Gamma(j),</tex>   | ||
| + | где <tex>\Gamma(j) = \frac{C_{L-1-j}^{m-1}}{C_{L-1}^{m}}.</tex>   | ||
| + | Комбинаторный множитель <tex>\Gamma(j)</tex> быстро убывает с ростом <tex>j</tex>.   | ||
| + | Поэтому для минимизации функционала CCV достаточно, чтобы при малых j профиль принимал значения, близкие к нулю.   | ||
| + | Но это и означает, что близкие объекты должны лежать преимущественно в одном классе.   | ||
| + | Таким образом, профиль действительно является формальным выражением [[гипотеза компактности|гипотезы компактности]].  | ||
== См. также ==   | == См. также ==   | ||
| Строка 50: | Строка 78: | ||
== Литература ==  | == Литература ==  | ||
| - | # ''Воронцов К. В.'' [www.ccas.ru/frc/papers/voron04mpc.pdf Комбинаторный подход к оценке качества обучаемых алгоритмов] // Математические вопросы кибернетики / Под ред. О. Б. Лупанов. — М.: Физматлит, 2004. — Т. 13. — С. 5–36.   | + | # ''Воронцов К. В.'' [http://www.ccas.ru/frc/papers/voron04mpc.pdf Комбинаторный подход к оценке качества обучаемых алгоритмов] // Математические вопросы кибернетики / Под ред. О. Б. Лупанов. — М.: Физматлит, 2004. — Т. 13. — С. 5–36.   | 
| - | # ''Воронцов К. В.'', ''Колосков А. О.'' [www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf Профили компактности и выделение опорных объектов в метрических алгоритмах классификации] // Искусственный Интеллект. — 2006. — С. 30–33.   | + | # ''Воронцов К. В.'', ''Колосков А. О.'' [http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf Профили компактности и выделение опорных объектов в метрических алгоритмах классификации] // Искусственный Интеллект. — 2006. — С. 30–33.   | 
| + | # ''Mullin M.'', ''Sukthankar R.'' [http://citeseer.ist.psu.edu/309025.html Complete cross-validation for nearest neighbor classifiers] // Proceedings of International Conference on Machine Learning. — 2000.   | ||
| + | |||
[[Категория:Метрические алгоритмы классификации]]  | [[Категория:Метрические алгоритмы классификации]]  | ||
[[Категория:Теория вычислительного обучения]]  | [[Категория:Теория вычислительного обучения]]  | ||
Версия 22:07, 22 сентября 2008
 
  | 
Профиль компактности выборки в метрических алгоритмах классификации — функция , выражающая долю объектов выборки, для которых правильный ответ не совпадает с правильным ответом на 
-м соседе.
Определения
Рассматривается задача классификации.
Имеется множество объектов  и множество имён классов 
.
Задана обучающая выборка пар «объект—ответ»
.
Пусть на множестве объектов задана функция расстояния .
Эта функция должна быть достаточно адекватной моделью сходства объектов.
Чем больше значение этой функции, тем менее схожими являются два объекта 
. 
Для произвольного объекта  расположим
объекты обучающей выборки 
 в порядке возрастания расстояний до 
:
где через  обозначается элемент обучающей выборки, который является 
-м соседом объекта 
.
Аналогичное обозначение введём и для ответа на 
-м соседе:
.
Каждый объект 
 порождает свою перенумерацию выборки.
Рассматривается метод ближайшего соседа, который относит классифицируемый объект  к тому классу 
, которому принадлежит ближайший объект обучающей выборки 
:
Определение.
Профиль компактности выборки  есть функция
Профиль компактности является формальным выражением гипотезы компактности — предположения о том, что схожие объекты гораздо чаще лежат в одном классе, чем в разных. Чем проще задача, то есть чем чаще близкие объекты оказываются в одном классе, тем сильнее «прижимается к нулю» начальный участок профиля. В сложных задачах или при неудачном выборе функции расстояния ближайшие объекты практически не несут информации о классах, и профиль вырождается в константу, близкую к 0.5.
На рисунке показаны профили компактности для серии плоских модельных задач классификации с двумя классами. Чем ниже проходит начальный участок профиля, тем выше обобщающая способность метода ближайшего соседа.
Связь с полным скользящем контролем
Выборка  разбивается всевозможными 
 способами на две непересекающиеся подвыборки:
, 
где 
 — обучающая подвыборка длины&nbps;m,
 — контрольная подвыборка длины 
,
 — номер разбиения.
Для каждого разбиения n строится алгоритм .
Функционал полного скользящего контроля (complete cross-validation, CCV) 
определяется как средняя (по всем разбиениям) ошибка на контроле:
Функционал полного скользящего контроля характеризует обобщающую способность метода ближайшего соседа
Теорема. Справедлива формула для эффективного вычисления CCV через профиль компактности:
где  
Комбинаторный множитель  быстро убывает с ростом 
. 
Поэтому для минимизации функционала CCV достаточно, чтобы при малых j профиль принимал значения, близкие к нулю. 
Но это и означает, что близкие объекты должны лежать преимущественно в одном классе. 
Таким образом, профиль действительно является формальным выражением гипотезы компактности.
См. также
Литература
- Воронцов К. В. Комбинаторный подход к оценке качества обучаемых алгоритмов // Математические вопросы кибернетики / Под ред. О. Б. Лупанов. — М.: Физматлит, 2004. — Т. 13. — С. 5–36.
 - Воронцов К. В., Колосков А. О. Профили компактности и выделение опорных объектов в метрических алгоритмах классификации // Искусственный Интеллект. — 2006. — С. 30–33.
 - Mullin M., Sukthankar R. Complete cross-validation for nearest neighbor classifiers // Proceedings of International Conference on Machine Learning. — 2000.
 


