Стратификация
Материал из MachineLearning.
 (Новая: Метод стратификации относится к методам отбора выборки,имеющим следующие особенности: *генеральная ...)  | 
				|||
| Строка 13: | Строка 13: | ||
#Проблемы, связанные с отбором в разных частях совокупности, могут сильно разниться. При выборочных обследованиях населения людей, находящихся в таких заведениях, как гостиницы, больницы, тюрьмы, часто выделяют в отдельный слой в отличие от людей, живущих в обычных домах, поскольку к отбору в этих двух случаях требуется разный подход. При обследовании, предпринятом с целью изучения деловой активности, мы можем составить список крупных фирм, выделив в их отдельный слой. Для более мелких фирм можно применить один из видов территориального отбора.  | #Проблемы, связанные с отбором в разных частях совокупности, могут сильно разниться. При выборочных обследованиях населения людей, находящихся в таких заведениях, как гостиницы, больницы, тюрьмы, часто выделяют в отдельный слой в отличие от людей, живущих в обычных домах, поскольку к отбору в этих двух случаях требуется разный подход. При обследовании, предпринятом с целью изучения деловой активности, мы можем составить список крупных фирм, выделив в их отдельный слой. Для более мелких фирм можно применить один из видов территориального отбора.  | ||
#Расслоение может дать выигрыш в точности при оценивании характеристик всей совокупности. Иногда неоднородную совокупность удается подразделить на подсовокупности, каждая из которых внутренне однородна. Это и подразумевается под названием слой по аналогии с разделением на слои в геологии. Если каждый слой однороден в том смысле, что результаты измерений в нём очень мало изменяются, то можно получить точную оценку среднего для любого слоя по небольшой выборке в этом слое. Затем эти оценки можно объединить в одну точную оценку для всей совокупности.  | #Расслоение может дать выигрыш в точности при оценивании характеристик всей совокупности. Иногда неоднородную совокупность удается подразделить на подсовокупности, каждая из которых внутренне однородна. Это и подразумевается под названием слой по аналогии с разделением на слои в геологии. Если каждый слой однороден в том смысле, что результаты измерений в нём очень мало изменяются, то можно получить точную оценку среднего для любого слоя по небольшой выборке в этом слое. Затем эти оценки можно объединить в одну точную оценку для всей совокупности.  | ||
| + | |||
| + | Рассмотрим преимущества и недостатки по сравнению с простым случайным выбором  | ||
Преимущества   | Преимущества   | ||
| Строка 26: | Строка 28: | ||
*трудности в определении каждой страты;  | *трудности в определении каждой страты;  | ||
*чтобы проанализировать результаты потребуется больше усилий;  | *чтобы проанализировать результаты потребуется больше усилий;  | ||
| + | |||
| + | Пропорциональный и непропорциональный выбор  | ||
| + | |||
| + | Методы стратификации данных делятся на две категории (пропорциональный и непропорциональный выборы), каждый из которых имеет свои плюсы и минусы.  | ||
| + | |||
| + | Пропорциональный выбор  | ||
| + | |||
| + | Размер каждой страты в выбранной выборке получается пропорционально размеру всей страты. Это называется пропорциональным размещением, т.е. доля отбора одинакова для каждой страты.  | ||
| + | |||
| + | Объясним на примере:  | ||
| + | Рассмотрим состав работников компании  | ||
| + | {| class="standard"  | ||
| + |  !Сотрудники  | ||
| + |  !Количество  | ||
| + |  |-  | ||
| + |  |Мужчины, работающие на полный день  | ||
| + |  |90  | ||
| + |  |-  | ||
| + |  |Мужчины, работающие на неполный день  | ||
| + |  |18  | ||
| + |  |-  | ||
| + |  |Женщины, работающие на полный день  | ||
| + |  |9   | ||
| + |  |-  | ||
| + |  |Женщины, работающие на неполный день  | ||
| + |  |63  | ||
| + |  |}  | ||
| + | |||
| + | Общее число сотрудников составляет 180 человек, первая группа составляет 50 % от всех сотрудников, вторая – 10%, третья – 5%, а четвертая 35% соответственно. Допустим, нам надо набрать представительную выборку из 40 человек, тогда в ней должно быть 20 мужчин, работающих на полный рабочий день (50%),  4 мужчины, имеющих полставки и т.д.  | ||
| + | |||
| + | Плюсы:  | ||
| + | *Пропорциональный выбор в стратификации обеспечивает больший или равный уровень точности, чем при использовании простого случайного выбора.  | ||
| + | *Точность увеличивается с улучшением однородности внутри каждой страты  | ||
| + | *Улучшение точности относится ко всем параметрам исследования  | ||
Версия 11:13, 30 декабря 2009
Метод стратификации относится к методам отбора выборки,имеющим следующие особенности:
- генеральная совокупность состоит из 
элементов
 - генералльная совокупность разделена на 
групп, называемых стратами или слоями
 - каждый элемент совокупности принадлежит одной и только одной страте
 - известно количество наблюдений внутри каждой страты 
 - исследователь получает вероятность выборки из каждой страты
 
В этой статье рассматривается, что исследователь выбирает данные из каждой страты простым случайным выбором.
Стратификация – довольно распространенный приём. Это обусловлено многими причинами; перечислим основные из них.
- Если желательно получить с определенной точностью данные о некоторых подразделениях совокупности, то каждое такое подразделение рекомендуется рассматривать на правах самостоятельной «совокупности»
 - Применение расслоения может быть продиктовано организационными соображениями, например, агентство, проводящее обследование, может иметь районные отделения, каждое из которых обеспечивает проведение обследования какой-либо части совокупности
 - Проблемы, связанные с отбором в разных частях совокупности, могут сильно разниться. При выборочных обследованиях населения людей, находящихся в таких заведениях, как гостиницы, больницы, тюрьмы, часто выделяют в отдельный слой в отличие от людей, живущих в обычных домах, поскольку к отбору в этих двух случаях требуется разный подход. При обследовании, предпринятом с целью изучения деловой активности, мы можем составить список крупных фирм, выделив в их отдельный слой. Для более мелких фирм можно применить один из видов территориального отбора.
 - Расслоение может дать выигрыш в точности при оценивании характеристик всей совокупности. Иногда неоднородную совокупность удается подразделить на подсовокупности, каждая из которых внутренне однородна. Это и подразумевается под названием слой по аналогии с разделением на слои в геологии. Если каждый слой однороден в том смысле, что результаты измерений в нём очень мало изменяются, то можно получить точную оценку среднего для любого слоя по небольшой выборке в этом слое. Затем эти оценки можно объединить в одну точную оценку для всей совокупности.
 
Рассмотрим преимущества и недостатки по сравнению с простым случайным выбором
Преимущества
- стратификация может обеспечить большую точность, чем простой случайный выбор для тех же данных;
 - в силу того, что она обеспечивает большую точность, ей часто требуется меньшая по размеру выборка, что экономит средства;
 - с помощью стратификации можно избежать "непредставительной" выборки (например, выбрать только мужчин из выборки, состоящей из мужчин и женщин);
 - есть гарантия того, что мы получим достаточное значений выборки, чтобы провести исследование отдельно по каждой группе;
 
Недостатки
- административные трудности, сложно организовать на практике;
 - трудности в определении каждой страты;
 - чтобы проанализировать результаты потребуется больше усилий;
 
Пропорциональный и непропорциональный выбор
Методы стратификации данных делятся на две категории (пропорциональный и непропорциональный выборы), каждый из которых имеет свои плюсы и минусы.
Пропорциональный выбор
Размер каждой страты в выбранной выборке получается пропорционально размеру всей страты. Это называется пропорциональным размещением, т.е. доля отбора одинакова для каждой страты.
Объясним на примере: Рассмотрим состав работников компании
| Сотрудники | Количество | 
|---|---|
| Мужчины, работающие на полный день | 90 | 
| Мужчины, работающие на неполный день | 18 | 
| Женщины, работающие на полный день | 9 | 
| Женщины, работающие на неполный день | 63 | 
Общее число сотрудников составляет 180 человек, первая группа составляет 50 % от всех сотрудников, вторая – 10%, третья – 5%, а четвертая 35% соответственно. Допустим, нам надо набрать представительную выборку из 40 человек, тогда в ней должно быть 20 мужчин, работающих на полный рабочий день (50%), 4 мужчины, имеющих полставки и т.д.
Плюсы:
- Пропорциональный выбор в стратификации обеспечивает больший или равный уровень точности, чем при использовании простого случайного выбора.
 - Точность увеличивается с улучшением однородности внутри каждой страты
 - Улучшение точности относится ко всем параметрам исследования
 

