Статистика (функция выборки)
Материал из MachineLearning.
м  (уточнение, формулы)  | 
				м  (→Статистики, используемые для оценки моментов:  уточнение, терминология)  | 
			||
| (11 промежуточных версий не показаны.) | |||
| Строка 1: | Строка 1: | ||
{{TOCright}}  | {{TOCright}}  | ||
| - | '''Статистика''' — это измеримая функция выборки.  | + | '''Статистика''' (в узком смысле) — это измеримая числовая функция от [[выборка|выборки]], '''не зависящая от неизвестных параметров распределения'''.  | 
| - | + | В широком смысле термин [[статистика (наука)|(математическая) статистика]] обозначает область знаний (и соответствующие ей учебные дисциплины), в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных.  | |
== Определение ==  | == Определение ==  | ||
| - | Пусть задана [[выборка|случайная выборка]] <tex>x^m = (x_1,\ldots,x_m)</tex> наблюдений <tex>x_i \in X</tex>.  | + | Пусть задана [[выборка|случайная выборка]] <tex>x^m = (x_1,\ldots,x_m)</tex> наблюдений <tex>x_i \in X</tex>. Как правило, поскольку речь идет о задачах [[статистика (наука)|математической статистики]], распределение элементов этой выборки известно исследователю не полностью (например, содержит неизвестные числовые параметры).  | 
''Статистикой'' называется произвольная измеримая функция выборки  | ''Статистикой'' называется произвольная измеримая функция выборки  | ||
| - | <tex>T:\: X^m \to \mathbb{R}</tex>.  | + | <tex>T:\: X^m \to \mathbb{R}</tex>, которая не зависит от неизвестных параметров распределения.  | 
| - | + | Условие измеримости статистики означает, что эта функция является [[случайная_величина|случайной величиной]], т.е. определены вероятности ее попадания в интервалы и другие борелевские множества на прямой.  | |
| - | + | Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, т.е. исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно - основывать на этом значении [[статистическое_оценивание|оценки]] и прочие статистические выводы.   | |
| - | + | ||
| - | + | ||
| - | ==   | + | ===Пример===  | 
| + | |||
| + | Предположим, что имеется числовая выборка <tex>x^m = (x_1,\ldots,x_m)</tex>, элементы которой имеют [[нормальное распределение]] <tex>\mathcal{N}(a,\sigma)</tex>. Допустим, что значение параметра <tex>a</tex> (математического ожидания) известно, т.е. это некоторое конкретное число, а значение среднеквадратичного отклонения <tex>\sigma</tex> неизвестно (и его требуется оценить). Для этого может быть использована следующая статистика:  | ||
| + | |||
| + | <center><tex>T=\frac{1}{m}\sum_{i=1}^m(x_i-a)^2.</tex></center>  | ||
| + | |||
| + | Однако если значение параметра <tex>a</tex> также неизвестно, то данная функция не является статистикой. В этом случае ее по-прежнему можно исследовать теоретически (например, доказывать, что математическое ожидание <tex>T</tex> равно <tex>\sigma^2</tex>), однако вычислить ее числовое значение нельзя, поэтому для получения непосредственных статистических выводов она не может быть использована. В этом случае оценка параметра <tex>\sigma</tex> строится другим способом (см. ниже).  | ||
| + | |||
| + | Ниже приведены примеры некоторых часто используемых статистик.  | ||
| + | Все они предполагают, что наблюдения <tex>x_i</tex> являются числовыми, <tex>X = \mathbb{R}</tex>.  | ||
| + | |||
| + | В последние годы активно развивается также [[статистика объектов нечисловой природы]].  | ||
| + | |||
| + | == Статистики, используемые для оценки моментов (выборочные моменты) ==  | ||
=== Выборочное среднее ===  | === Выборочное среднее ===  | ||
| Строка 22: | Строка 33: | ||
=== Выборочная дисперсия ===  | === Выборочная дисперсия ===  | ||
| - | ::<tex>s^2 = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^2.</tex>  | + | ::<tex>s^2 = s_m^2 = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^2.</tex>  | 
[[Несмещённая оценка]] дисперсии:  | [[Несмещённая оценка]] дисперсии:  | ||
| - | ::<tex>s^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2.</tex>  | + | ::<tex>s^2 = s_m^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2.</tex>  | 
=== Выборочный момент ''k''-го порядка ===  | === Выборочный момент ''k''-го порядка ===  | ||
| - | ::<tex>  | + | ::<tex>M_k = \frac1m \sum_{i=1}^m x^k_i.</tex>  | 
Выборочное среднее есть момент первого порядка.  | Выборочное среднее есть момент первого порядка.  | ||
=== Выборочный центральный момент ''k''-го порядка ===  | === Выборочный центральный момент ''k''-го порядка ===  | ||
| - | ::<tex>\overset{\circ}  | + | ::<tex>\overset{\circ}M_k = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^k.</tex>  | 
Выборочная дисперсия есть центральный момент второго порядка.   | Выборочная дисперсия есть центральный момент второго порядка.   | ||
| - | Несмещённые оценки центральных моментов:  | + | [[Несмещённая оценка|Несмещённые оценки]] центральных моментов:  | 
| - | ::<tex>\overset{\bullet}  | + | ::<tex>\overset{\bullet}M_2 = \frac{m}{m-1} \overset{\circ}M_2;</tex>  | 
| - | ::<tex>\overset{\bullet}  | + | ::<tex>\overset{\bullet}M_3 = \frac{m^2}{(m-1)(m-2)} \overset{\circ}M_3;</tex>  | 
| - | ::<tex>\overset{\bullet}  | + | ::<tex>\overset{\bullet}M_4 = \frac{m(m^2-2m+3)\overset{\circ}M_4 + 3m(2m-3)\overset{\circ}M_2^2}{(m-1)(m-2)(m-3)}.</tex>  | 
=== Выборочный [[коэффициент асимметрии]] ===  | === Выборочный [[коэффициент асимметрии]] ===  | ||
| - | ::<tex>\gamma_1 = \frac{\overset{\bullet}  | + | ::<tex>\gamma_1 = \frac{\overset{\bullet}M_3}{\overset{\bullet}M_2^{3/2}} = \frac{\sqrt{m(m-1)}}{m-2} \left( \frac{\overset{\circ}M_3}{\overset{\circ}M_2^{3/2}} \right).</tex>  | 
Если плотность распределения симметрична, то <tex>\gamma_1 = 0</tex>.   | Если плотность распределения симметрична, то <tex>\gamma_1 = 0</tex>.   | ||
| Строка 48: | Строка 59: | ||
Если правый хвост распределения тяжелее, то <tex>\gamma_1 < 0</tex>.   | Если правый хвост распределения тяжелее, то <tex>\gamma_1 < 0</tex>.   | ||
| - | Выборочный коэффициент асимметрии   | + | Выборочный коэффициент асимметрии используется для проверки распределения на [[Критерии симметричности|симметричность]], а также для грубой предварительной [[Критерии нормальности|проверки на нормальность]].  | 
| + | Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.   | ||
=== Выборочный [[коэффициент эксцесса]] ===  | === Выборочный [[коэффициент эксцесса]] ===  | ||
| - | ::<tex>\gamma_2 = \frac{\overset{\bullet}  | + | ::<tex>\gamma_2 = \frac{\overset{\bullet}M_4}{\overset{\bullet}M_2^2} - 3 = \frac{m^2-1}{(m-2)(m-3)}\left( \frac{\overset{\circ}M_4}{\overset{\circ}M_2^2} - 3 + \frac6{m+1}\right).</tex>  | 
[[Нормальное распределение]] имеет нулевой эксцесс, <tex>\gamma_2 = 0</tex>.   | [[Нормальное распределение]] имеет нулевой эксцесс, <tex>\gamma_2 = 0</tex>.   | ||
| - | Если хвосты распределения «легче»   | + | Если хвосты распределения «легче», а пик острее, чем у нормального распределения, то <tex>\gamma_2 > 0</tex>.  | 
| - | Если хвосты распределения «тяжелее»   | + | Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то <tex>\gamma_2 < 0</tex>.   | 
| - | Выборочный коэффициент эксцесса часто используется для предварительной [[Критерии нормальности|проверки   | + | Выборочный коэффициент эксцесса часто используется для грубой предварительной [[Критерии нормальности|проверки на нормальность]].   | 
| + | Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.  | ||
| + | |||
| + | == Статистики, связанные с эмпирическим распределением ==  | ||
| + | [[Эмпирическое распределение]] случайной величины <tex>x</tex>, построенное по случайной выборке <tex>x^m</tex>, есть функция   | ||
| + | :<tex>\displaystyle F_m(x) = \frac1m \sum_{i=1}^m \left[ x_i<x \right].</tex>  | ||
| + | При любом фиксированном <tex>a\in\mathbb{R}</tex> значение <tex>F_m(a)</tex> можно рассматривать как статистику.   | ||
== Порядковые статистики ==  | == Порядковые статистики ==  | ||
| Строка 70: | Строка 88: | ||
Значение <tex>x^{(k)}</tex> называется ''k''-й порядковой статистикой.   | Значение <tex>x^{(k)}</tex> называется ''k''-й порядковой статистикой.   | ||
| - | ===   | + | === Выборочный квантиль ===  | 
| - | + | Выборочный <tex>\lambda</tex>-квантиль при <tex>0<\lambda < 1</tex> есть   | |
::<tex>x^{(m\lambda+1)}.</tex>  | ::<tex>x^{(m\lambda+1)}.</tex>  | ||
| Строка 79: | Строка 97: | ||
=== Выборочная медиана ===  | === Выборочная медиана ===  | ||
::<tex>\mu = \begin{cases} \frac12 \left(x^{(k)}+x^{(k+1)}\right),& m=2k;\\ x^{(k+1)},& m=2k+1.\end{cases}</tex>  | ::<tex>\mu = \begin{cases} \frac12 \left(x^{(k)}+x^{(k+1)}\right),& m=2k;\\ x^{(k+1)},& m=2k+1.\end{cases}</tex>  | ||
| + | |||
| + | == Ранговые статистики ==  | ||
| + | Значение <tex>r_i</tex> называется [[ранг]]ом элемента выборки <tex>x_i</tex>, если <tex>x_i = x^{(r_i)}</tex>.   | ||
| + | |||
| + | Ранговой статистикой называется любая статистика, которая является функцией от [[ранг|рангов]] элементов <tex>r_i</tex>, а не от их значений <tex>x_i</tex>.   | ||
| + | Переход от значений к их рангам позволяет строить [[непараметрические статистические тесты]], которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем [[параметрические статистические тесты]].   | ||
| + | |||
| + | === Средний ранг ===  | ||
| + | Аналогом выборочного среднего является средний ранг:  | ||
| + | ::<tex>R = \frac1m \sum_{i=1}^m r_i.</tex>  | ||
| + | |||
| + | === Линейные ранговые статистики ===  | ||
| + | Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при <tex>m\to\infty</tex>.  | ||
| + | [[Линейная ранговая статистика]] в общем случае имеет вид  | ||
| + | ::<tex>T = \sum_{i=1}^m a(i,r_i),</tex>  | ||
| + | где <tex>a(i,j)</tex> — произвольная заданная числовая матрица размера <tex>m \times m</tex>.  | ||
== Литература ==   | == Литература ==   | ||
| Строка 85: | Строка 119: | ||
== Ссылки ==  | == Ссылки ==  | ||
| - | * [http://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0 Википедия:Статистика]  | + | * [http://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0 Википедия:Статистика].  | 
| + | * [http://en.wikipedia.org/wiki/Skewness Skewness] — коэффициент асимметрии.   | ||
| + | * [http://en.wikipedia.org/wiki/Kurtosis Kurtosis] — коэффициент эксцесса.  | ||
| + | |||
| + | [[Категория:Математическая статистика]]  | ||
| + | [[Категория:Прикладная статистика]]  | ||
| + | [[Категория:Популярные и обзорные статьи]]  | ||
Текущая версия
 
  | 
Статистика (в узком смысле) — это измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения.
В широком смысле термин (математическая) статистика обозначает область знаний (и соответствующие ей учебные дисциплины), в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных.
Определение
Пусть задана случайная выборка  наблюдений 
. Как правило, поскольку речь идет о задачах математической статистики, распределение элементов этой выборки известно исследователю не полностью (например, содержит неизвестные числовые параметры).
Статистикой называется произвольная измеримая функция выборки
, которая не зависит от неизвестных параметров распределения.
Условие измеримости статистики означает, что эта функция является случайной величиной, т.е. определены вероятности ее попадания в интервалы и другие борелевские множества на прямой.
Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, т.е. исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно - основывать на этом значении оценки и прочие статистические выводы.
Пример
Предположим, что имеется числовая выборка , элементы которой имеют нормальное распределение 
. Допустим, что значение параметра 
 (математического ожидания) известно, т.е. это некоторое конкретное число, а значение среднеквадратичного отклонения 
 неизвестно (и его требуется оценить). Для этого может быть использована следующая статистика:
Однако если значение параметра  также неизвестно, то данная функция не является статистикой. В этом случае ее по-прежнему можно исследовать теоретически (например, доказывать, что математическое ожидание 
 равно 
), однако вычислить ее числовое значение нельзя, поэтому для получения непосредственных статистических выводов она не может быть использована. В этом случае оценка параметра 
 строится другим способом (см. ниже).
Ниже приведены примеры некоторых часто используемых статистик.
Все они предполагают, что наблюдения  являются числовыми, 
.
В последние годы активно развивается также статистика объектов нечисловой природы.
Статистики, используемые для оценки моментов (выборочные моменты)
Выборочное среднее
Выборочная дисперсия
Несмещённая оценка дисперсии:
Выборочный момент k-го порядка
Выборочное среднее есть момент первого порядка.
Выборочный центральный момент k-го порядка
Выборочная дисперсия есть центральный момент второго порядка.
Несмещённые оценки центральных моментов:
Выборочный коэффициент асимметрии
Если плотность распределения симметрична, то . 
Если левый хвост распределения тяжелее, то . 
Если правый хвост распределения тяжелее, то . 
Выборочный коэффициент асимметрии используется для проверки распределения на симметричность, а также для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.
Выборочный коэффициент эксцесса
Нормальное распределение имеет нулевой эксцесс, . 
Если хвосты распределения «легче», а пик острее, чем у нормального распределения, то .
Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то . 
Выборочный коэффициент эксцесса часто используется для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.
Статистики, связанные с эмпирическим распределением
Эмпирическое распределение случайной величины , построенное по случайной выборке 
, есть функция 
При любом фиксированном  значение 
 можно рассматривать как статистику. 
Порядковые статистики
Порядковые статистики основаны на вычислении вариационного ряда,
который получается из исходной выборки 
путём упорядочивания её элементов по возрастанию:
Значение  называется k-й порядковой статистикой. 
Выборочный квантиль
Выборочный -квантиль при 
 есть 
Размах выборки
Выборочная медиана
Ранговые статистики
Значение  называется рангом элемента выборки 
, если 
. 
Ранговой статистикой называется любая статистика, которая является функцией от рангов элементов , а не от их значений 
. 
Переход от значений к их рангам позволяет строить непараметрические статистические тесты, которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем параметрические статистические тесты. 
Средний ранг
Аналогом выборочного среднего является средний ранг:
Линейные ранговые статистики
Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при .
Линейная ранговая статистика в общем случае имеет вид
где  — произвольная заданная числовая матрица размера 
.
Литература
- Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
 - Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
 
Ссылки
- Википедия:Статистика.
 - Skewness — коэффициент асимметрии.
 - Kurtosis — коэффициент эксцесса.
 

