Лассо Тибширани
Материал из MachineLearning.
 (Новая: скоро здесь будет статья)  | 
				 (→Пример задачи)  | 
			||
| (7 промежуточных версий не показаны.) | |||
| Строка 1: | Строка 1: | ||
| - | + | '''Лассо Тибширани''' (англ.LASSO - Least Absolute Shrinkage and Selection Operator) - это метод понижения размерности, предложенный Тибширани в 1995г. Этот метод минимизирует RSS при условии, что сумма абсолютных значений коэффициентов меньше константы. Из-за природы этих ограничений некоторый коэффициенты получаются равными нулю.  | |
| + | |||
| + | ==Пример задачи==   | ||
| + | В больнице лежит пациент, больной раком простаты. Требуется изучить корреляцию специального антигена простаты и некоторого количесива тестов. В качестве факторов берём клинические тесты, а откликом будет специальный антиген.  | ||
| + | |||
| + | ==Метод Лассо==  | ||
| + | Постановка задачи:  | ||
| + | |||
| + | <tex>||y-X\theta ||^2+\tau\sum_{j=1}^{k}|\theta_j|\to \min_{\theta}</tex>.  | ||
| + | |||
| + | Переформулируем её в таком виде.  | ||
| + | |||
| + | <tex>\left\{  | ||
| + | \begin{array}  | ||
| + | ||y-X\theta||^2\to\min_{\theta}\\  | ||
| + | \sum_{j=1}^{k}|\theta_j|<\ae\\  | ||
| + | \end{array}  | ||
| + | \right  | ||
| + | </tex>  | ||
| + | |||
| + | Если уменьшается <tex>\ae</tex>, то устойчивость увеличивается и количество ненулевых коэффициентов уменьшается, т.о. происходит отбор признаков.  | ||
| + | |||
| + | Эта задача удовлетворяет условиям теоремы Куна-Таккера. Однако тяжело думать, что алгоритм остановится толко после <tex>2^k</tex> итераций, особенно при больших <tex>k</tex>. На практике было замечено, что среднее число итераций варьируется в переделах <tex>(.5k,.75k)</tex>.  | ||
| + | |||
| + | ==Видоизменённый метод Лассо==  | ||
| + | Совершенно другой алгоритм для решения задачи предложил David Gay.  | ||
| + | |||
| + | Записываем <tex>\theta_j</tex> как  | ||
| + | <tex>\theta_j=\theta_j^{+}-\theta_j^{-}</tex>,  | ||
| + | |||
| + | где <tex>\theta_j^{+}\geq 0</tex> и <tex>\theta_j^{-}\geq 0</tex>  | ||
| + | |||
| + | <tex>|\theta_j|=\theta_j^{+}+\theta_j^{-}</tex>  | ||
| + | |||
| + | Мы перешли от основной задачи с <tex>2k</tex> переменными и <tex>2^k</tex> ограничениями к новой задаче с <tex>2k</tex> переменными и <tex>(2k+1)</tex> ограничениями.  | ||
| + | |||
| + | <tex>\left\{  | ||
| + | \begin{array}  | ||
| + | \sum_{j=1}^{k}(\theta_j^{+}+\theta_j^{-})<\ae\\  | ||
| + | ||y-X\theta||^2\to\min_{\theta}\\  | ||
| + | \theta_j^{+}\geq 0 \\  | ||
| + | \theta_j^{-}\geq 0\\  | ||
| + | \end{array}  | ||
| + | \right  | ||
| + | </tex>  | ||
| + | |||
| + | Это задача по теореме Куна-Такера   | ||
| + | <tex>\exists j:\ \theta_j^{+}=\theta_j^{-}=0</tex>. Однако решается довольно долго.  | ||
| + | |||
| + | После сравнения этих двух методов оказалось, что обычно второй работает чуть быстрее первого метода.  | ||
| + | |||
| + | ==Литература==  | ||
| + | *{{книга  | ||
| + | |автор = Robert Tibshirani  | ||
| + | |название = Regression shrinkage and selection via the lasso  | ||
| + | |журнал = Journal of the Royal Statistical Society, Series B  | ||
| + | |год = 1996  | ||
| + | |выпуск = 58  | ||
| + | |страницы = 267--288  | ||
| + | }}  | ||
| + | |||
| + | == См. также ==  | ||
| + | * [[Мультиколлинеарность]]  | ||
| + | * [[Ридж-регрессия]]   | ||
| + | * [[Лассо]]  | ||
| + | * [[LARS]]  | ||
| + | * [[Регрессионный анализ]]  | ||
| + | |||
| + | == Ссылки ==  | ||
| + | * [http://en.wikipedia.org/wiki/Regularization_(machine_learning) Regularization(mathematics)] (Wikipedia)  | ||
| + | |||
| + | |||
| + | [[Категория:Регрессионный анализ]]  | ||
| + | [[Категория: Прикладная статистика]]  | ||
Текущая версия
Лассо Тибширани (англ.LASSO - Least Absolute Shrinkage and Selection Operator) - это метод понижения размерности, предложенный Тибширани в 1995г. Этот метод минимизирует RSS при условии, что сумма абсолютных значений коэффициентов меньше константы. Из-за природы этих ограничений некоторый коэффициенты получаются равными нулю.
Содержание | 
Пример задачи
В больнице лежит пациент, больной раком простаты. Требуется изучить корреляцию специального антигена простаты и некоторого количесива тестов. В качестве факторов берём клинические тесты, а откликом будет специальный антиген.
Метод Лассо
Постановка задачи:
.
Переформулируем её в таком виде.
Если уменьшается , то устойчивость увеличивается и количество ненулевых коэффициентов уменьшается, т.о. происходит отбор признаков.
Эта задача удовлетворяет условиям теоремы Куна-Таккера. Однако тяжело думать, что алгоритм остановится толко после  итераций, особенно при больших 
. На практике было замечено, что среднее число итераций варьируется в переделах 
.
Видоизменённый метод Лассо
Совершенно другой алгоритм для решения задачи предложил David Gay.
Записываем  как
,
где  и 
Мы перешли от основной задачи с  переменными и 
 ограничениями к новой задаче с 
 переменными и 
 ограничениями.
Это задача по теореме Куна-Такера 
. Однако решается довольно долго.
После сравнения этих двух методов оказалось, что обычно второй работает чуть быстрее первого метода.
Литература
- Robert Tibshirani Regression shrinkage and selection via the lasso. — 1996. — С. 267--288.
 
См. также
Ссылки
- Regularization(mathematics) (Wikipedia)
 

