Участник:EvgSokolov/Песочница
Материал из MachineLearning.
м   | 
				м   | 
			||
| Строка 26: | Строка 26: | ||
Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению.  | Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению.  | ||
| - | В дальнейшем   | + | В дальнейшем будем называть это распределение «представительным».  | 
Непосредственная настройка модели {{eqref|1}} при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче.  | Непосредственная настройка модели {{eqref|1}} при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче.  | ||
Версия 19:48, 23 октября 2011
Содержание | 
fRMA (Frozen Robust Multi-Array Analysis)
Рассматривается следующая модель уровня экспрессии:
Здесь используются следующие обозначения:
-  
— номер партии микрочипов
. Два чипа относятся к одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
 -  
— номер микрочипа
.
 -  
— номер набора проб
. Также через
мы будем обозначать номер гена, соответствующего
-му набору проб.
 -  
— номер пробы
.
 -  
— предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы
из набора проб
микрочипа
из партии микрочипов
.
 -  
— экспрессия гена
на
-м микрочипе.
 -  
— коэффициент сродства пробы
гену
.
 -  
— случайная ошибка, вызывающая различия между партиями проб.
 -  
— случайная ошибка, вызывающая различия между пробами на чипах одной партии.
 
В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: .
Также делается предположение, что 
 — это случайная величина, дисперсия которой не зависит от партии чипов: 
.
Обучение модели
Для обучения необходимы данные с большого числа микрочипов.
Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению. В дальнейшем будем называть это распределение «представительным».
Непосредственная настройка модели (1) при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче. Рассматривается упрощенная модель
.
По обучающей выборке находятся робастные оценки параметров  и 
 для данной модели.
Затем вычисляются остатки 
, с помощью которых оцениваются дисперсии 
 и 
:
;
,
где .
Обработка новых чипов
Рассмотрим процесс обработки новых чипов. Сначала делается фоновая поправка всех чипов методом RMA-свертки, затем с помощью квантильной нормализации интенсивности новых чипов приводятся к представительному распределению, полученному на этапе обучения. Последним шагом является суммаризация, которая подробно описана ниже.
В первую очередь делается поправка интенсивностей проб для учета коэффициента сродства:
(здесь  — это индекс новой партии микрочипов).
Далее из скорректированных интенсивностей нужно получить робастную оценку для .
Это делается разными способами в зависимости от того, из скольких чипов состоит партия.
Один микрочип
В данном случае индексы  и 
 могут быть опущены опущены, так как обрабатывается один микрочип и одна партия.
Логарифмированная концентрация оценивается следующим образом:
,
где  — оценка дисперсии скорректированной интенсивности 
, а 
 — веса, соответствующие некоторой M-оценке.
Данная оценка учитывает с низкими весами выбросы (так как им соответствуют маленькие ) и пробы с большой дисперсией шума.
Партия микрочипов
В данном случае индекс  может быть опущен, так как обрабатывается одна партия микрочипов.

