Коррелограмма
Материал из MachineLearning.
 (Новая: здесь будет статья про корелограмму)  | 
				|||
| Строка 1: | Строка 1: | ||
| - | + | [[Image:Acf.png|thumb|right|На приведенных графиках представлена – вверху псевдохаотическая выборка из 100 элементов со скрытой синусоидальной зависимостью Внизу – график автокорреляции (Коррелограмма).]]  | |
| + | [[Image:Correlogram.png|thumb|Пример коррелограммы]]  | ||
| + | В анализе временных рядов коррелограмма, также известная как график автокорреляции, является графиком автокорреляций выборки  <tex>r_h\,</tex> , от h (временная  задержка).  | ||
| + | |||
| + | Если используется кросс-корреляция , то ее называют кросс-коррелограммой. Коррелограмма - обычно используемый инструмент для того, чтобы проверить хаотичность в наборе данных. Эта хаотичность проверяется вычислением автокорреляций значений данных с переменными временными задержками. Если данные действительно случайны, такие автокорреляции должны быть близки к нулю для любого и каждого значения сдвига по времени. Если неслучайны (имеется скрытая осциллирующая зависимость), то одна или больше автокорреляций будут значительно отличаться от нуля. Кроме того, используются на стадии идентификации моделей в методе Box-Jenkins для авторегрессивных моделей временных рядов со скользящим средним значением. Значение коэффициентов автокорреляции должно быть почти равно нулю для хаотических процессов; если аналитик не проверяет выборку на хаотичность, то законность многих его статистических заключений ставится под подозрение. Коррелограммы - превосходный способ проверки хаотичности (или напротив – взаимосвязанности измерений).  | ||
| + | |||
| + | ==Вопросы==  | ||
| + | |||
| + | Коррелограммы предназначены для того . чтобы обеспечить ответы на следующие вопросы:  | ||
| + | *Действительно ли данные случайны?   | ||
| + | *Yаблюдение связано со смежным наблюдением? наблюдение связано с вдвое удаленным наблюдением? (и т.д).  | ||
| + | *Имеет ли наблюдаемый временной ряд белый шум?   | ||
| + | *Действительно ли наблюдаемый временной ряд является синусоидальным?   | ||
| + | *Действительно ли наблюдаемыйвременной ряд авторегрессивен?  | ||
| + | *Какова соответствующая модель для наблюдаемого временного ряда?  | ||
| + | *Является ли модель <tex>Y = \mathrm{constant} + \mathrm{error }</tex> надежной и достаточной?  | ||
| + | *Является ли формула <tex>s_{\bar{Y}}=s/\sqrt{N}</tex> правильной?  | ||
| + | |||
| + | ==Важность==  | ||
| + | |||
| + | Хаотичность (наряду с неподвижной моделью, установленным изменением, и установленным распределением) является одним из четырех предположений, которые типично лежат в основе всех процессов измерения.   | ||
| + | Предположение хаотичности критически важно по следующим трем причинам:   | ||
| + | 1.Большинство стандартных статистических тестов зависит от хаотичности. Законность испытательных заключений непосредственно связана с законностью предположения хаотичности.   | ||
| + | 2.Многие обычно используемые статистические формулы зависят от предположения хаотичности. Самая общая формула стандартного отклонения серии измерений есть   | ||
| + | <tex>s_{\bar{Y}}=s/\sqrt{N}</tex>   | ||
| + | где s - стандартное отклонение единичного измерения данных. Хотя следствия из этой формулы повсеместно используются, проведенный анализ не будет представлять никакой ценности, если предположение о хаотичности не доказано.   | ||
| + | 3.Для одномерных данных модель «по умолчанию»  - <tex>Y = \mathrm{constant} + \mathrm{error }</tex>. Если данные не случайны, эта модель является неправильной и недействительной, и оценки для параметров (таких как константа) тоже становятся бессмысленными и недействительными.  | ||
| + | |||
| + | ==Оценка автокорреляций==  | ||
| + | Коэффициент автокорреляции для временной задержки h дается формулой:  | ||
| + | :<tex>r_h = c_h/c_0</tex>  | ||
| + | где ''c<sub>h</sub>'' - функция автоковариации  | ||
| + | :<tex>c_h = \frac{1}{N}\sum_{t=1}^{N-h} \left(Y_t - \bar{Y}\right)\left(Y_{t+h} - \bar{Y}\right)</tex>  | ||
| + | и ''c<sub>0</sub>'' – функция вариации  | ||
| + | :<tex>c_0 = \frac{1}{N}\sum_{t=1}^{N} \left(Y_t - \bar{Y}\right)^2</tex>  | ||
| + | Примечания:  | ||
| + | *Коэффициент автокорреляции ''r<sub>h</sub>''  всегда находится между -1 и +1.   | ||
| + | *Некоторые источники могут использовать следующую формулу для функции автоковариации:  | ||
| + | :<tex>c_h = \frac{1}{N-h}\sum_{t=1}^{N-h} \left(Y_t - \bar{Y}\right)\left(Y_{t+h} - \bar{Y}\right)</tex>  | ||
| + | |||
| + | Хотя в формуле этого определения вычисляется меньший наклон (или как еще говорят - покатость), (1/N) формулировка имеет некоторые желательные статистические свойства и является формой, обычно используемой в статистической литературе.  | ||
| + | |||
| + | ==Статистический вывод коррелограмм==  | ||
| + | На одном и том же графике можно «покачать» верхнюю и нижнюю границы автокорреляции с помощью параметра уровня значимости <tex>\alpha\,</tx>:   | ||
| + | |||
| + | :<tex>B=\pm z_{1-\alpha/2} SE(r_h)</tex> где <tex>r_h\,</tex> есть оценка автокорреляции для временного лага  <tex>h\,</tex>.  | ||
| + | |||
| + | Если автокорреляция оказывается выше (ниже) чем это верхнее (нижнее) граничное значение, нуль-гипотеза, что якобы нет никакой автокорреляции для данной временной задержки и вне ее, такая гипотеза должна быть отклонена на уровне значимости <tex>\alpha\,</tex>.   | ||
| + | |||
| + | Этот тест - приблизительный и предполагает, что временной ряд является Гауссовским. В вышеупомянутом  случае z<sub>1-α/2</sub> - квантиль нормального распределения; SE - стандартная ошибка, которая может быть вычислена по формуле Bartlett’а:  | ||
| + | |||
| + | :<tex>SE(r_1)=\frac {1} {N} </tex>   | ||
| + | :<tex> SE(r_h)=\sqrt\frac{1+2\sum_{i=1}^{h-1} r^2_i}{N}</tex> for <tex>h>1\,</tex>  | ||
| + | |||
| + | На вышеприведенных графиках мы можем отклонить нуль-гипотезу, что нет никакой автокорреляции между соседними по времени точками (для смежных точек lag=1). В течение других периодов нельзя отклонить нуль-гипотезу об отсутствии автокорреляции.   | ||
| + | |||
| + | Отметим, что есть две отличных формулы для вычисления доверительных интервалов:  | ||
| + | 1.Если коррелограмма используется для проверки на хаотичность (то есть, нет никакой временной зависимости в данных), рекомендуется следующая формула:   | ||
| + | |||
| + | :<tex>\pm \frac{z_{1-\alpha/2}}{\sqrt{N}} </tex>  | ||
| + | |||
| + | где N – размер выборки, z - функция квантиля стандартного нормального распределения, и α - уровень значимости. В этом случае, доверительный интервал имеет фиксированную ширину, которая зависит от размера выборки.  | ||
| + | |||
| + | 2.Коррелограммы также используются на стадии идентификации моделей при подгонке с использованием метода скользящего среднего (например, модель ARIMA). В этом случае доверительный интервал увеличивается по мере увеличения задержки (лага) k:  | ||
| + | |||
| + | :<tex>\pm z_{1-\alpha/2}\sqrt{\frac{1}{N}\left(1+2\sum_{i=1}^{k} y_i^2\right)}</tex>  | ||
| + | |||
| + | ==Внешние ссылки==  | ||
| + | *[http://www.itl.nist.gov/div898/handbook/eda/section3/eda331.htm Автокорреляционный график]  | ||
| + | |||
| + | ==Литература==  | ||
| + |     * Hanke, John E./Reitsch, Arthur G./Wichern, Dean W. (2001). Business forecasting (7th edition ed.). Prentice Hall.   | ||
| + |     * Box, G. E. P., and Jenkins, G. (1976). Time Series Analysis: Forecasting and Control. Holden-Day.   | ||
| + |     * Chatfield, C. (1989). The Analysis of Time Series: An Introduction (Fourth Edition ed.). Chapman & Hall.  | ||
Версия 06:28, 10 января 2009
В анализе временных рядов коррелограмма, также известная как график автокорреляции, является графиком автокорреляций выборки   , от h (временная  задержка).
Если используется кросс-корреляция , то ее называют кросс-коррелограммой. Коррелограмма - обычно используемый инструмент для того, чтобы проверить хаотичность в наборе данных. Эта хаотичность проверяется вычислением автокорреляций значений данных с переменными временными задержками. Если данные действительно случайны, такие автокорреляции должны быть близки к нулю для любого и каждого значения сдвига по времени. Если неслучайны (имеется скрытая осциллирующая зависимость), то одна или больше автокорреляций будут значительно отличаться от нуля. Кроме того, используются на стадии идентификации моделей в методе Box-Jenkins для авторегрессивных моделей временных рядов со скользящим средним значением. Значение коэффициентов автокорреляции должно быть почти равно нулю для хаотических процессов; если аналитик не проверяет выборку на хаотичность, то законность многих его статистических заключений ставится под подозрение. Коррелограммы - превосходный способ проверки хаотичности (или напротив – взаимосвязанности измерений).
Содержание | 
Вопросы
Коррелограммы предназначены для того . чтобы обеспечить ответы на следующие вопросы:
- Действительно ли данные случайны?
 - Yаблюдение связано со смежным наблюдением? наблюдение связано с вдвое удаленным наблюдением? (и т.д).
 - Имеет ли наблюдаемый временной ряд белый шум?
 - Действительно ли наблюдаемый временной ряд является синусоидальным?
 - Действительно ли наблюдаемыйвременной ряд авторегрессивен?
 - Какова соответствующая модель для наблюдаемого временного ряда?
 - Является ли модель 
надежной и достаточной?
 - Является ли формула 
правильной?
 
Важность
Хаотичность (наряду с неподвижной моделью, установленным изменением, и установленным распределением) является одним из четырех предположений, которые типично лежат в основе всех процессов измерения. 
Предположение хаотичности критически важно по следующим трем причинам: 
1.Большинство стандартных статистических тестов зависит от хаотичности. Законность испытательных заключений непосредственно связана с законностью предположения хаотичности. 
2.Многие обычно используемые статистические формулы зависят от предположения хаотичности. Самая общая формула стандартного отклонения серии измерений есть 
 
где s - стандартное отклонение единичного измерения данных. Хотя следствия из этой формулы повсеместно используются, проведенный анализ не будет представлять никакой ценности, если предположение о хаотичности не доказано. 
3.Для одномерных данных модель «по умолчанию»  - 
. Если данные не случайны, эта модель является неправильной и недействительной, и оценки для параметров (таких как константа) тоже становятся бессмысленными и недействительными.
Оценка автокорреляций
Коэффициент автокорреляции для временной задержки h дается формулой:
где ch - функция автоковариации
и c0 – функция вариации
Примечания:
- Коэффициент автокорреляции rh всегда находится между -1 и +1.
 - Некоторые источники могут использовать следующую формулу для функции автоковариации:
 
Хотя в формуле этого определения вычисляется меньший наклон (или как еще говорят - покатость), (1/N) формулировка имеет некоторые желательные статистические свойства и является формой, обычно используемой в статистической литературе.
Статистический вывод коррелограмм
На одном и том же графике можно «покачать» верхнюю и нижнюю границы автокорреляции с помощью параметра уровня значимости  где 
 есть оценка автокорреляции для временного лага  
.
Если автокорреляция оказывается выше (ниже) чем это верхнее (нижнее) граничное значение, нуль-гипотеза, что якобы нет никакой автокорреляции для данной временной задержки и вне ее, такая гипотеза должна быть отклонена на уровне значимости . 
Этот тест - приблизительный и предполагает, что временной ряд является Гауссовским. В вышеупомянутом случае z1-α/2 - квантиль нормального распределения; SE - стандартная ошибка, которая может быть вычислена по формуле Bartlett’а:
for
На вышеприведенных графиках мы можем отклонить нуль-гипотезу, что нет никакой автокорреляции между соседними по времени точками (для смежных точек lag=1). В течение других периодов нельзя отклонить нуль-гипотезу об отсутствии автокорреляции.
Отметим, что есть две отличных формулы для вычисления доверительных интервалов: 1.Если коррелограмма используется для проверки на хаотичность (то есть, нет никакой временной зависимости в данных), рекомендуется следующая формула:
где N – размер выборки, z - функция квантиля стандартного нормального распределения, и α - уровень значимости. В этом случае, доверительный интервал имеет фиксированную ширину, которая зависит от размера выборки.
2.Коррелограммы также используются на стадии идентификации моделей при подгонке с использованием метода скользящего среднего (например, модель ARIMA). В этом случае доверительный интервал увеличивается по мере увеличения задержки (лага) k:
Внешние ссылки
Литература
* Hanke, John E./Reitsch, Arthur G./Wichern, Dean W. (2001). Business forecasting (7th edition ed.). Prentice Hall. * Box, G. E. P., and Jenkins, G. (1976). Time Series Analysis: Forecasting and Control. Holden-Day. * Chatfield, C. (1989). The Analysis of Time Series: An Introduction (Fourth Edition ed.). Chapman & Hall.

