Алгоритм AnyBoost

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Текущая версия

Данная статья является непроверенным учебным заданием.

Студент: Участник:Mordasova

Преподаватель: Участник:Константин Воронцов

Срок: 10 февраля 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Алгоритм AnyBoost - класс алгоритмов, представляющих бустинг как процесс градиентного спуска. В основе алгоритма лежит последовательное уточнение функции, представляющей собой линейную комбинацию базовых классификаторов, с тем чтобы минимизировать функцию потерь. В класс AnyBoost входят практически все алгоритмы бустинга как частные случаи.

Содержание

1 Описание алгоритма
2 Методы голосования как частный случай AnyBoost
3 Особенности алгоритма
4 См. также
5 Литература
6 Ссылки

Описание алгоритма

Алгоритм AnyBoost

Рассмотрим задачу классификации. Пусть $\mathcal{F}$ - множество базовых классификаторов, а $\mathrm{lin}(\mathcal{F})$ - множество всех линейных комбинаций из $\mathcal{F}$ . На каждом шаге алгоритма к текущему классификатору $F\in \mathrm{lin}(\mathcal{F})$ прибавляется базовый классификатор так, чтобы значение $C(F+\varepsilon f)$ уменьшилось на некоторое значение $\varepsilon$ . То есть в терминах функционального пространства для функции $f$ ищется направление, в котором функция $C(F+\varepsilon f)$ быстрее уменьшается. Наибольшее уменьшение функции потерь наблюдается в случае, когда $f$ максимизирует величину $-\left \langle \nabla C(F),f \right \rangle$ .

Инициализация $F_0=0$ ;
Для всех пока не выполнено условие выхода из цикла;
1. Получение нового классификатора $f_{t+1}$ , увеличивающего значение $-\left \langle \nabla C(F_t), f_{t+1}\right \rangle$ ;
2. Если $-\left \langle \nabla C(F_t),f_{t+1}\right \rangle \le 0$ выходим из цикла и возвращаем $F_t$ ;
3. Выбор веса $w_{t+1}$
4. Уточнение классификатора $F_{t+1}=F_{t}+w_{t+1}f_{t+1}$
Возвращаем $F_{T+1}$

В случае бинарного классификатора $Y=\{-1;1\}$ . Пусть $X^l =\{(x_i,y_i)\}$ - обучающая выборка. Функция потерь $C=\frac{1}{m}\sum^{m}_{i=1}{c(y_iF(x_i))}$ определяется через дифференцируемую функцию выброса $c: \mathbb{R} \to \mathbb{R}$ . В этом случае $-\left \langle \nabla C(F),f \right \rangle = -\frac{1}{m^2}\sum^{m}_{i=1}{y_if(x_i)c'(y_iF(x_i))}$ , и нахождение классификатора на каждом шаге будет равносильно нахождению классификатора $f$ , минимизирующего взвешенную ошибку.

Методы голосования как частный случай AnyBoost

Алгоритм	Функция потерь	Размер шага
AdaBoost	$e^{-yF(x)}$	Линейный поиск
ARC-X4	${(1-yF(x))}^5$	$1/t$
ConfidenceBoost	$e^{-yF(x)}$	Линейный поиск
LogitBoost	${\ln(1+e^{-yF(x)})$	Метод Ньютона

Особенности алгоритма

Алгоритм в значительной доле случаев устойчив к переобучению, даже при использовании большого числа классификаторов.
Проявляет нестойкость к переобучению в случае экспоненциальных функций потерь, но она может быть устранен путем использования близких по значению к функции $C(F)=\frac{1}{m}\sum^{m}_{i=1}{1-\tanh(\lambda y_iF(x_i))}$ . В качестве выходного значения будут получаться только выпуклые линейные комбинации классификаторов.
Возможно использование модификаций метода - AnyBoost.L₁ (с применением нормализации линейной комбинации) и AnyBoost.L₂ (метод градиентного спуска используется в выборе коэффициента при норме линейной комбинации, входящей в функцию потерь).

См. также

Литература

К.В. Воронцов, Машинное обучение (курс лекций)
Mason L., Baxter J., Bartlett P., Frean M. Boosting algorithms as gradient descent. — Advances in Neural Information Processing Systems. — MIT Press, 2000. — T. 12. — 512--518 с.
Mason L., Baxter J., Bartlett P., Frean M. Functional Gradient Techniques for Combining Hypotheses. — Advances in Large Margin Classifiers. — MIT Press, 1999. — T. 12. — 221--246 с.

Ссылки

Источник — «http://www.recognition.su/wiki/index.php?title=%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC_AnyBoost»

Категории: Непроверенные учебные задания | Алгоритмические композиции | Методы голосования

@@ Строка 1: / Строка 1: @@
 {{Задание|Mordasova|Константин Воронцов|10 февраля 2010}}
-'''Алгоритм AnyBoost''' - класс алгоритмов, представляющих [[бустинг]] как процесс градиентного спуска. В основе алгоритма лежит последовательное уточнение функции, представляющей собой линейную комбинацию базовых классификаторов, с тем чтобы минимизировать функцию потерь. В класс AnyBoost входят практически все алгоритмы [[бустинга|бустинг]] как частные случаи.
+'''Алгоритм AnyBoost''' - класс алгоритмов, представляющих [[бустинг]] как процесс градиентного спуска. В основе алгоритма лежит последовательное уточнение функции, представляющей собой линейную комбинацию базовых классификаторов, с тем чтобы минимизировать функцию потерь. В класс AnyBoost входят практически все алгоритмы [[бустинг|бустинга]] как частные случаи.
 ==Описание алгоритма==
 '''Алгоритм AnyBoost'''
-Рассмотрим задачу классификации, <tex>\mathcal{F}</tex>  - множество базовых классификаторов, все их линейные комбинации содержатся в множестве <tex>\mathrm{lin}(\mathcal{F})</tex>.
+Рассмотрим задачу [[классификация|классификации]]. Пусть <tex>\mathcal{F}</tex>  - множество базовых классификаторов, а <tex>\mathrm{lin}(\mathcal{F})</tex>  - множество всех линейных комбинаций из <tex>\mathcal{F}</tex>.
-На каждом шаге алгоритма к текущему классификатору <tex>F</tex> прибавляется базовый классификатор так, чтобы значение <tex>C(F+\eps f)</tex> уменьшилось на некоторое значение <tex>\eps</tex>. То есть в терминах функционального пространства для функции <tex>f</tex> ищется направление, в котором функция <tex>C(F+\eps f)</tex> быстрее уменьшается. Наибольшее уменьшение функции потерь наблюдается в случае, когда <tex>f</tex> максимизирует <tex>-\left \langle \nabla C(F),f \right \rangle </tex>.
+На каждом шаге алгоритма к текущему классификатору <tex>F\in \mathrm{lin}(\mathcal{F})</tex> прибавляется базовый классификатор так, чтобы значение <tex>C(F+\varepsilon f)</tex> уменьшилось на некоторое значение <tex>\varepsilon</tex>. То есть в терминах функционального пространства для функции <tex>f</tex> ищется направление, в котором функция <tex>C(F+\varepsilon f)</tex> быстрее уменьшается. Наибольшее уменьшение функции потерь наблюдается в случае, когда <tex>f</tex> максимизирует величину <tex>-\left \langle \nabla C(F),f \right \rangle </tex>.
-#Инициализация <tex>F_0=0</tex>;
+# Инициализация <tex>F_0=0</tex>;
-#Для всех <tex>t=0,..,T</tex> пока не выполнено условие выхода из цикла;
+# Для всех <tex>t=0,..,T</tex> пока не выполнено условие выхода из цикла;
-##Получение нового классификатора <tex>f_{t+1}</tex>, увеличивающего значение <tex>-\left \langle \nabla C(F_t), f_{t+1}\right \rangle</tex>;
+## Получение нового классификатора <tex>f_{t+1}</tex>, увеличивающего значение <tex>-\left \langle \nabla C(F_t), f_{t+1}\right \rangle</tex>;
-##Если <tex>-\left \langle \nabla C(F_t),f_{t+1}\right \rangle \le 0</tex> выходим из цикла и возвращаем <tex>F_t</tex>;
+## Если <tex>-\left \langle \nabla C(F_t),f_{t+1}\right \rangle \le 0</tex> выходим из цикла и возвращаем <tex>F_t</tex>;
-##Выбор веса <tex>w_{t+1}</tex>
+## Выбор веса <tex>w_{t+1}</tex>
-##Уточнение классификатора <tex>F_{t+1}=F_{t}+w_{t+1}f_{t+1}</tex>
+## Уточнение классификатора <tex>F_{t+1}=F_{t}+w_{t+1}f_{t+1}</tex>
-#Возвращаем <tex>F_{T+1}</tex>
+# Возвращаем <tex>F_{T+1}</tex>
-В случае бинарного классификатора <tex>Y=\{-1;1\}</tex>. Для <tex>F,G\in\mathrm{lin}(\mathcal{F})</tex> введено скалярное умножение: <tex> \left \langle F,G\right \rangle =\frac{1}{m}\sum^{m}_{i=1}{F(x_i)G(x_i)}</tex>, где <tex>X^l =\{(x_i,y_i)\}</tex> - обучающая выборка. Функция потерь <tex> C=\frac{1}{m}\sum^{m}_{i=1}{c(y_iF(x_i))}</tex> определяется через дифференцируемую функцию выброса <tex>c:\mathbb{R} \to \mathbb{R}</tex>.
- В этом случае <tex>-\left \langle \nabla C(F),f \right \rangle = -\frac{1}{m^2}\sum^{m}_{i=1}{y_if(x_i)c'(y_iF(x_i))} </tex>.
+В случае бинарного классификатора <tex>Y=\{-1;1\}</tex>.
-Нахождение классификатора на каждом шаге будет равносильно нахождению классификатора <tex>f</tex>, минимизирующего взвешенную ошибку.
+Пусть <tex>X^l =\{(x_i,y_i)\}</tex> - обучающая выборка.
+Функция потерь <tex> C=\frac{1}{m}\sum^{m}_{i=1}{c(y_iF(x_i))}</tex> определяется через дифференцируемую функцию выброса <tex>c: \mathbb{R} \to \mathbb{R}</tex>.
+В этом случае <tex>-\left \langle \nabla C(F),f \right \rangle = -\frac{1}{m^2}\sum^{m}_{i=1}{y_if(x_i)c'(y_iF(x_i))} </tex>, и нахождение классификатора на каждом шаге будет равносильно нахождению классификатора <tex>f</tex>, минимизирующего взвешенную ошибку.
+==Методы голосования как частный случай AnyBoost==
+{| class="standard"
+ !Алгоритм
+ !Функция потерь
+ !Размер шага
+ |-
+ |AdaBoost
+ |<tex>e^{-yF(x)}</tex>
+ |Линейный поиск
+ |-
+ |ARC-X4
+ |<tex>{(1-yF(x))}^5</tex>
+ |<tex>1/t</tex>
+ |-
+ |ConfidenceBoost
+ |<tex>e^{-yF(x)}</tex>
+ |Линейный поиск
+ |-
+ |LogitBoost
+ |<tex>{\ln(1+e^{-yF(x)})</tex>
+ |Метод Ньютона
+ |}
+==Особенности алгоритма==
+*Алгоритм в значительной доле случаев устойчив к переобучению, даже при использовании большого числа классификаторов.
+*Проявляет нестойкость к переобучению в случае экспоненциальных функций потерь, но она может быть устранен путем использования близких  по значению к функции <tex>C(F)=\frac{1}{m}\sum^{m}_{i=1}{1-\tanh(\lambda y_iF(x_i))}</tex>. В качестве выходного значения будут получаться только выпуклые линейные комбинации классификаторов.
+*Возможно использование модификаций метода - AnyBoost.L<sub>1</sub> (с применением нормализации линейной комбинации) и AnyBoost.L<sub>2</sub> (метод градиентного спуска используется в выборе коэффициента при норме линейной комбинации, входящей в функцию потерь).
 ==См. также==
+*[[Алгоритм AdaBoost]]
+*[[BrownBoost]]
+*[[LogitBoost]]
+* [[Метод потенциального бустинга]]
 ==Литература==
+#''К.В. Воронцов'', [[Машинное обучение (курс лекций, К.В.Воронцов)|Машинное обучение (курс лекций)]]
 #{{книга
 |автор         = Mason L., Baxter J., Bartlett P., Frean M.
@@ Строка 31: / Строка 68: @@
 |том           = 12
 |страниц       = 512--518
+}}
+#{{книга
+|автор         = Mason L., Baxter J., Bartlett P., Frean M.
+|заглавие      = Functional Gradient Techniques for Combining  Hypotheses
+|ссылка        = http://homepages.ecs.vuw.ac.nz/~marcus/manuscripts/Mason_etal99B.ps.gz
+|издание       = Advances in Large Margin Classifiers
+|издательство  = MIT Press
+|год           = 1999
+|том           = 12
+|страниц       = 221--246
 }}

Алгоритм AnyBoost

Материал из MachineLearning.

Текущая версия

Содержание

Описание алгоритма

Методы голосования как частный случай AnyBoost

Особенности алгоритма

См. также

Литература

Ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты