Порождение линейных регрессионных моделей (постановка задачи)

Материал из MachineLearning.

Перейти к: навигация, поиск

Рассмотрим задачу восстановления линейной регрессии одной свободной переменной.

Содержание

Дано

Задана выборка \{(\xi_i, y_i)\} - множество пар значений свободной и зависимой переменной, i=1,\ldots,m. Свободная переменная \xi\in\mathbf{R}^1, зависимая переменная y\in\mathbf{R}^1. Принята модель регрессионной зависимости - параметрическое семейство функций

 y=f(\mathbf{w},\xi)+\varepsilon,

в которой аддитивная случайная величина \varepsilon\sim\mathcal{N}(0,\sigma^2_\varepsilon) имеет Гауссово распределение с нулевым математическим ожиданием и дисперсией \sigma^2_\varepsilon.

Модель f принадлежит множеству моделей F=\{f_k\}, которое задается следующим образом. Экспертно задано конечное множество функций G=\{g_1,\ldots,g_N\}. Обозначим \kappa\subseteq\mathcal{K}=\{1,\ldots,k\} некоторое подмножество множества индексов функций из G. Пусть k=k(\kappa) - порядковый номер подмножества \kappa, k=1,\ldots,2^N. Модель f_{k(\kappa)} есть линейная комбинация функций g_j\in G с индексом j\in\kappa,

 f_{k(\kappa)} = w_1 g_{\kappa_1}(\xi)+\ldots+w_l g_{\kappa_l}(\xi).

Индекс l есть мощность множества \kappa индексов функций из G, другими словами, число элементов в линейной комбинации f_{k(\kappa)}.

Найти

Заданная выборка показана крестиками, предполагаемая зависимость показана линией
Заданная выборка показана крестиками, предполагаемая зависимость показана линией

Требуется решить задачу восстановления линейной регрессии методом наименьших квадратов и выбрать такую модель f_{k(\kappa)}, которая бы доставляла минимум сумме квадратов регрессионных остатков

 k=\arg\min\limits_{\kappa\subseteq\mathcal{K}}\min\limits_{\mathbf{w\in\mathbb{R}^l}}\sum_{i=1}^m \left( f_{k(\kappa)}(\mathbf{w},\xi_i)-y_i \right).

Замечание. В данной постановке не рассматриваются вопросы сложности модели и вопросы переобучения, они рассматриваются в задаче выбора моделей.

Постановка задачи в векторной форме. Представим предыдущую задачу в виде задачи восстановления регрессии многих переменных. Обозначим множество элементов выборки как векторы \mathbf{\xi}=[\xi_1,\ldots,\xi_m]^T и \mathbf{y}=[y_1,\ldots,y_m]^T. Обозначим вектор

\mathbf{f} = \mathbf{f}(\mathbf{w},\mathbf{\xi}).

Обозначим вектор-функцию

\mathbf{f}_{k(\kappa)} = \mathbf{f}_{k(\kappa)}(\mathbf{w},\mathbf{\xi})= \left( \begin{array}{ccc}   g_{\kappa(1)}(\xi_1) & \ldots & g_{\kappa(l)}(\xi_1) \\   \vdots               & \ddots & \vdots \\   g_{\kappa(1)}(\xi_m) & \ldots & g_{\kappa(l)}(\xi_m) \\ \end{array} \right) \left( \begin{array}{c}   w_1 \\   \vdots \\   w_{\kappa(l)}\\ \end{array} \right) = X_{k(\kappa)}\mathbf{w}_{k(\kappa)}.

Матрица X_k(\kappa) состоит из векторов-столбцов \mathbf{g}_j, j\in\kappa, где

 \mathbf{g}_j= \left( \begin{array}{ccc}   g_j(\xi_1)\\  \vdots    \\   g_j(\xi_m)\\ \end{array} \right).

Требуется выбрать такую модель f_{k(\kappa)}, которая бы доставляла минимум сумме квадратов регрессионных остатков

 k=\arg\min\limits_{\kappa\subseteq\mathcal{K}}\min\limits_{\mathbf{w}s\in\mathbb{R}^l}\|\mathbf{f}_{k(\kappa)}(\mathbf{w},\mathbf{\xi})-\mathbf{y}\|_2^2.

Пример

Задана выборка \{(\xi_i, y_i)\}:

\begin{array}{c|c}     \xi &     y\\     \hline     0.10,&    0.56;\\     0.20,&    0.50;\\     0.30,&    0.50;\\     0.40,&    0.53;\\     0.50,&    0.58;\\     0.60,&    0.65;\\     0.70,&    0.72;\\     0.80,&    0.81;\\     0.90,&    0.90;\\     1.00,&    1.00.\\ \end{array}

Задано множество функций G:

 G=\left\{ \begin{array}{ccc}   g_1 &=& \xi^0,\\   g_2 &=& \xi^\frac{1}{2},\\   g_3 &=& \xi^1,\\   g_4 &=& \xi^\frac{3}{2},\\   g_5 &=& \xi\log(\xi).\\ \end{array}\right.

Множество регрессионных моделей - линейных комбинаций функций из G имеет вид:

 G=\left\{ \begin{array}{ccl}   f_1 &=& w_1 g_1,\\       &\ldots& \\   f_{30}&=&w_2 g_2+w_3 g_3+w_4 g_4+w_5 g_5,\\   f_{31}&=&w_1 g_1+w_2 g_2+w_3 g_3+w_4 g_4+w_5 g_5.\\ \end{array}\right.

Модель, доставляющая наименьшую среднеквадратичную ошибку, имеет вид

f_{28} = w_1 \xi^0 +w_2 \xi^\frac{1}{2} +w_3 \xi^1.
Синтетические данные и их аппроксимация. Показано приближение данных линейной регрессионной моделью, параметры которой получены методом наименьших квадратов. Ось абсцисс - свободная переменная , по оси ординат - зависимая переменная .
Синтетические данные и их аппроксимация. Показано приближение данных линейной регрессионной моделью, параметры которой получены методом наименьших квадратов. Ось абсцисс - свободная переменная \xi, по оси ординат - зависимая переменная y.


См. также