Регрессионная модель
Материал из MachineLearning.
м  (категория)  | 
				 (→Смотри также)  | 
			||
| (9 промежуточных версий не показаны.) | |||
| Строка 31: | Строка 31: | ||
Такая модель часто неинтерпретируема, но более точна.  | Такая модель часто неинтерпретируема, но более точна.  | ||
Это объясняется либо большим числом моделей-претендентов, которые используются для построения оптимальной модели, либо большой сложностью модели.  | Это объясняется либо большим числом моделей-претендентов, которые используются для построения оптимальной модели, либо большой сложностью модели.  | ||
| - | Нахождение параметров   | + | Нахождение параметров регрессионной модели называется ''обучением модели''.  | 
Недостатки регрессионного анализа: модели, имеющие слишком малую сложность, могут оказаться неточными, а модели, имеющие избыточную сложность, могут оказаться ''[[переобучение|переобученными]]''.  | Недостатки регрессионного анализа: модели, имеющие слишком малую сложность, могут оказаться неточными, а модели, имеющие избыточную сложность, могут оказаться ''[[переобучение|переобученными]]''.  | ||
| Строка 37: | Строка 37: | ||
Примеры регрессионных моделей: линейные функции, алгебраические полиномы, ряды Чебышёва, нейронные сети без обратной связи, например, однослойный персептрон Розенблатта, радиальные базисные функции и прочее.  | Примеры регрессионных моделей: линейные функции, алгебраические полиномы, ряды Чебышёва, нейронные сети без обратной связи, например, однослойный персептрон Розенблатта, радиальные базисные функции и прочее.  | ||
| - | И регрессионная, и математическая модель   | + | И регрессионная, и математическая модель, как правило, задают непрерывное отображение.  | 
Требование непрерывности обусловлено классом решаемых задач: чаще всего это описание физических, химических и других явлений,  | Требование непрерывности обусловлено классом решаемых задач: чаще всего это описание физических, химических и других явлений,  | ||
где требование непрерывности выставляется естественным образом.  | где требование непрерывности выставляется естественным образом.  | ||
Иногда на отображение <tex>f</tex> накладываться ограничения монотонности, гладкости, измеримости, и некоторые другие.  | Иногда на отображение <tex>f</tex> накладываться ограничения монотонности, гладкости, измеримости, и некоторые другие.  | ||
| - | Теоретически, никто не запрещает работать с функциями произвольного вида, и допускать в моделях существование не только точек разрыва, но и задавать конечное,  | + | Теоретически, никто не запрещает работать с функциями произвольного вида, и допускать в моделях существование не только точек разрыва, но и задавать конечное, неупорядоченное множество значений свободной переменной, то есть, превращать задачи регрессии в задачи классификации.  | 
| - | неупорядоченное множество значений свободной переменной, то есть, превращать задачи регрессии в задачи классификации.  | + | |
При решении задач регрессионного анализа встают следующие вопросы.  | При решении задач регрессионного анализа встают следующие вопросы.  | ||
| Строка 48: | Строка 47: | ||
* Какова гипотеза порождения данных, каково распределение случайной переменной?  | * Какова гипотеза порождения данных, каково распределение случайной переменной?  | ||
* Какой целевой функцией оценить качество аппроксимации?  | * Какой целевой функцией оценить качество аппроксимации?  | ||
| - | * Каким способом отыскать параметры модели, каков должен быть алгоритм оптимизации параметров?  | + | * Каким способом отыскать параметры модели, каков должен быть [[алгоритм]] оптимизации параметров?  | 
== Смотри также ==  | == Смотри также ==  | ||
| Строка 54: | Строка 53: | ||
* [[Модель зависимости]]  | * [[Модель зависимости]]  | ||
* [[Регрессионный анализ]]  | * [[Регрессионный анализ]]  | ||
| - | * [[  | + | * [[Анализ регрессионных остатков]]  | 
| + | * [[Символьная регрессия]]  | ||
| + | * [[Линейная регрессия (пример)]]  | ||
| + | * [[Алгоритмы выбора линейных регрессионных моделей (практика)]]  | ||
| + | * [[Регрессионный анализ (рекомендуемые обозначения)]]  | ||
| + | |||
| + | == Литература ==  | ||
| + | * Дрейпер Н., Смит Г. Прикладной регрессионный анализ. М.: Издательский дом «Вильямс». 2007.  | ||
| + | * Стрижов В. В. Методы индуктивного порождения регрессионных моделей. М.: ВЦ РАН. 2008. 55 с. [[Media:strijov08ln.pdf|Брошюра, PDF]].  | ||
| + | * Стрижов В.В., Крымова Е.А. Методы выбора регрессионных моделей. М.: ВЦ РАН, 2010. 60 с. [[Media:Strijov-Krymova10Model-Selection.pdf|Брошюра, PDF]].  | ||
== Литература ==  | == Литература ==  | ||
| Строка 64: | Строка 72: | ||
* Burnham, K., Anderson, D. R. Model Selection and Multimodel Inference. Springer. 2002.  | * Burnham, K., Anderson, D. R. Model Selection and Multimodel Inference. Springer. 2002.  | ||
* Grunwald, P D., Myung, I. J. (eds.) Advances In Minimum Description Length: Theory And Applications. Springer. 2005.  | * Grunwald, P D., Myung, I. J. (eds.) Advances In Minimum Description Length: Theory And Applications. Springer. 2005.  | ||
| + | * Стрижов В. В. Методы индуктивного порождения регрессионных моделей. М.: ВЦ РАН. 2008. 55 с. [[Media:strijov08ln.pdf|Брошюра, PDF]].  | ||
[[Категория:Регрессионный анализ]]  | [[Категория:Регрессионный анализ]]  | ||
[[Категория:Энциклопедия анализа данных]]  | [[Категория:Энциклопедия анализа данных]]  | ||
| + | [[Категория:Популярные и обзорные статьи]]  | ||
Текущая версия
Термину регрессионная модель, используемому в регрессионном анализе, можно сопоставить синонимы: «теория», «гипотеза». Эти термины пришли из статистики, в частности из раздела «проверка статистических гипотез». Регрессионная модель есть прежде всего гипотеза, которая должна быть подвергнута статистической проверке, после чего она принимается или отвергается.
Регрессионная модель  — это параметрическое семейство функций, задающее отображение
где  — пространтсво параметров, 
 — пространство свободных переменных,
 — пространство зависимых переменных.
Так как регрессионный анализ предполагает поиск зависимости матожидания случайной величины от свободных переменных
, то в её состав входит аддитивная случайная величина 
:
Предположение о характере распределения случайной величины  называются гипотезой порождения данных.
Эта гипотеза играет центральную роль в выборе критерия оценки качества модели и, как следствие, в способе настройки параметров модели.
Модель является настроенной (обученной) когда зафиксированы её параметры, то есть модель задаёт отображение
для фиксированного значения .
Различают математическую модель и регрессионную модель. Математическая модель предполагает участие аналитика в конструировании функции, которая описывает некоторую известную закономерность. Математическая модель является интерпретируемой — объясняемой в рамках исследуемой закономерности. При построении математической модели сначала создаётся параметрическое семейство функций, затем с помощью измеряемых данных выполняется идентификация модели — нахождение её параметров. Известная функциональная зависимость объясняющей переменной и переменной отклика — основное отличие математического моделирования от регрессионного анализа. Недостаток математического моделирования состоит в том, что измеряемые данные используются для верификации, но не для построения модели, вследствие чего можно получить неадекватную модель. Также затруднительно получить модель сложного явления, в котором взаимосвязано большое число различных факторов.
Регрессионная модель объединяет широкий класс универсальных функций, которые описывают некоторую закономерность. При этом для построения модели в основном используются измеряемые данные, а не знание свойств исследуемой закономерности. Такая модель часто неинтерпретируема, но более точна. Это объясняется либо большим числом моделей-претендентов, которые используются для построения оптимальной модели, либо большой сложностью модели. Нахождение параметров регрессионной модели называется обучением модели.
Недостатки регрессионного анализа: модели, имеющие слишком малую сложность, могут оказаться неточными, а модели, имеющие избыточную сложность, могут оказаться переобученными.
Примеры регрессионных моделей: линейные функции, алгебраические полиномы, ряды Чебышёва, нейронные сети без обратной связи, например, однослойный персептрон Розенблатта, радиальные базисные функции и прочее.
И регрессионная, и математическая модель, как правило, задают непрерывное отображение.
Требование непрерывности обусловлено классом решаемых задач: чаще всего это описание физических, химических и других явлений,
где требование непрерывности выставляется естественным образом.
Иногда на отображение  накладываться ограничения монотонности, гладкости, измеримости, и некоторые другие.
Теоретически, никто не запрещает работать с функциями произвольного вида, и допускать в моделях существование не только точек разрыва, но и задавать конечное, неупорядоченное множество значений свободной переменной, то есть, превращать задачи регрессии в задачи классификации.
При решении задач регрессионного анализа встают следующие вопросы.
- Как выбрать тип и структуру модели, какому именно семейству она должна принадлежать?
 - Какова гипотеза порождения данных, каково распределение случайной переменной?
 - Какой целевой функцией оценить качество аппроксимации?
 - Каким способом отыскать параметры модели, каков должен быть алгоритм оптимизации параметров?
 
Смотри также
- Модель зависимости
 - Регрессионный анализ
 - Анализ регрессионных остатков
 - Символьная регрессия
 - Линейная регрессия (пример)
 - Алгоритмы выбора линейных регрессионных моделей (практика)
 - Регрессионный анализ (рекомендуемые обозначения)
 
Литература
- Дрейпер Н., Смит Г. Прикладной регрессионный анализ. М.: Издательский дом «Вильямс». 2007.
 - Стрижов В. В. Методы индуктивного порождения регрессионных моделей. М.: ВЦ РАН. 2008. 55 с. Брошюра, PDF.
 - Стрижов В.В., Крымова Е.А. Методы выбора регрессионных моделей. М.: ВЦ РАН, 2010. 60 с. Брошюра, PDF.
 
Литература
- Bishop, C. Pattern Recognition And Machine Learning. Springer. 2006.
 - MacKay, D. Information, inference, learning algorithms. Cambridge University Press. 2003.
 - Дрейпер Н., Смит Г. Прикладной регрессионный анализ. М.: Издательский дом «Вильямс». 2007.
 - Nabney, Yan T., Netlab: Algorithms for pattern recognition. Springer. 2004.
 - Lehmann, E. L., Romano, J. P. Testing Statistical Hypotheses. Springer. 2005.
 - Burnham, K., Anderson, D. R. Model Selection and Multimodel Inference. Springer. 2002.
 - Grunwald, P D., Myung, I. J. (eds.) Advances In Minimum Description Length: Theory And Applications. Springer. 2005.
 - Стрижов В. В. Методы индуктивного порождения регрессионных моделей. М.: ВЦ РАН. 2008. 55 с. Брошюра, PDF.
 

