Сравнение временных рядов при авторегрессионном прогнозе (пример)
Материал из MachineLearning.
 (→Вычислительный эксперимент)  | 
				 (→Вычислительный эксперимент)  | 
			||
| Строка 71: | Строка 71: | ||
'''3)''' строится зависимость расстояния между последовательностями в пространстве параметров:   | '''3)''' строится зависимость расстояния между последовательностями в пространстве параметров:   | ||
| - | + | [[Изображение:KL WarpingPath Distance.png|thumb|left]]  | |
<center><tex> D_{KL} \left( \mathbf{x}(n), \mathbf{x}(m) \right)= D_{KL}\left(p(w), q(w) \right) = \sum\limits_{w\in \mathcal{W}} p(w) \ln \frac{p(w)}{q(w)} </tex>,</center> где <tex>p(w),q(w)</tex> - плотности распределений случайных величины из <tex>N(\mathbf{w}(n),A(n))</tex> и <tex>N(\mathbf{w}(m),A(m))</tex> соотвественно,  | <center><tex> D_{KL} \left( \mathbf{x}(n), \mathbf{x}(m) \right)= D_{KL}\left(p(w), q(w) \right) = \sum\limits_{w\in \mathcal{W}} p(w) \ln \frac{p(w)}{q(w)} </tex>,</center> где <tex>p(w),q(w)</tex> - плотности распределений случайных величины из <tex>N(\mathbf{w}(n),A(n))</tex> и <tex>N(\mathbf{w}(m),A(m))</tex> соотвественно,  | ||
и расстояний в пространстве значений:   | и расстояний в пространстве значений:   | ||
<center><tex>Dintance \left( \mathbf{x}(n), \mathbf{x}(m) \right)=\sum_{t=1}^{24}\left( x_t(n)-x_t(m) \right)^2 </tex></center>  | <center><tex>Dintance \left( \mathbf{x}(n), \mathbf{x}(m) \right)=\sum_{t=1}^{24}\left( x_t(n)-x_t(m) \right)^2 </tex></center>  | ||
| + | [[Изображение:KL SSE Distance.png|thumb|left]]  | ||
== Исходный код ==  | == Исходный код ==  | ||
Версия 23:02, 20 декабря 2010
Содержание | 
Аннотация
Временным рядом называется последовательность упорядоченных по времени значений некоторой вещественной переменной . Элемент последовательности называется отсчетом временного ряда.
Задача авторегрессионного прогноза заключается в нахождении модели , где 
 вектор параметров модели, которая наилучшим образом приближает следущее значение временного ряда 
.
Свертка временного ряда возникает в случае существования на множестве подпоследовательностей временного ряда некоторого инварианта. Примером инварианта является период временного ряда, который физически может означать сезонность в данных. При этом построенная модель должна учитывать наличие инварианта и сохранять данное свойство для ряда прогнозов: 
.
Постановка задачи
Пусть задан временной ряд . Предполагается, что отсчеты 
 были сделаны через равные промежутки времени, и период временного ряда равен 
, при этом 
, где 
.
Задана модель  
,где случайная величина 
 имеет нормальное распределение 
. Вектор параметров модели 
 рассматривается как многомерная случайная величина. Пусть плотность распределения параметров имеет вид многомерного нормального распределения 
 с матрицей ковариации 
. Модель некоторым образом учитывает период временного ряда.
Предполагается, модель временного ряда может меняться с течением времени, т.е. для разных подпоследовательностей длины 
 оптимальные параметры модели 
 будут отличаться. Расстояние между различными подпоследовательностями 
 и 
 измеряется как сумма квадратов отклонений: 
Расстояние между параметрами модели , настроенной на разных подпоследовательностях, можно измерить как расстояние Кульбака-Лейблера между функциями распределения 2-ух случайных величин 
:
Требуется исследовать зависимость расстояния между параметрами модели  от расстояния между подпоследовательностями, на которых эти параметры были настроены.
Алгоритм
Для настройки параметров модели  используется связный байесовский вывод
где  — функция ошибки,
 — матрица Гессе функции ошибок,
 — функция ошибки в пространстве данных.
Настройка параметрической регрессионной модели происходит в 2 этапа, сначала настраиваются параметры  при фиксированных гиперпараметрах 
, затем при вычисленных значениях параметров функция правдоподобия 
 оптимизируется по гиперпараметрам. Процедура повторяется, пока настраиваемые параметры не стабилизируется.
Для простоты вычислений, считаем, что имеет диагональный вид:
.
Вычислительный эксперимент
Вычислительный эксперимент проводился на реальных данных. Использовались временные ряды потребления электроэнергии в некотором регионе с отсчетами 1 час, период ряда равен . 
Эксперимент состоит из этапов:
1) из множества порождающих моделей:
 
была построена их суперпозиция, описывающая потребление электроэнергии за сутки:
2) модель настраивается на подпоследовательности
, 
где  - номер суток. В результате получаем набор оптимальных параметров и гиперпараметров модели, оптимальных для данной подпоследовательности: 
3) строится зависимость расстояния между последовательностями в пространстве параметров:
и расстояний в пространстве значений:
Исходный код
Смотри также
Литература
- Стрижов В.В, Пташко Г.О. Построение инвариантов на множестве временных рядов путем динамической свертки свободной переменной. — ВЦ РАН, 2009.
 - Стрижов В.В Методы выбора регрессионных моделей. — ВЦ РАН, 2010.
 

