Участник:EvgSokolov/Песочница
Материал из MachineLearning.
м   | 
			|||
| Строка 8: | Строка 8: | ||
Здесь используются следующие обозначения:  | Здесь используются следующие обозначения:  | ||
| - | * <tex>k</tex> — номер партии микрочипов <tex> k \in 1, \dots, K </tex>.   | + | * <tex>k</tex> — номер партии микрочипов <tex> k \in 1, \dots, K </tex>. Два чипа относятся к одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.  | 
* <tex>i</tex> — номер микрочипа <tex> i \in 1, \dots, I_k </tex>.  | * <tex>i</tex> — номер микрочипа <tex> i \in 1, \dots, I_k </tex>.  | ||
* <tex>n</tex> — номер набора проб <tex> n \in 1, \dots, N </tex>. Также через <tex>n</tex>  мы будем обозначать номер гена, соответствующего <tex>n</tex>-му набору проб.  | * <tex>n</tex> — номер набора проб <tex> n \in 1, \dots, N </tex>. Также через <tex>n</tex>  мы будем обозначать номер гена, соответствующего <tex>n</tex>-му набору проб.  | ||
| Строка 26: | Строка 26: | ||
Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению.  | Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению.  | ||
| - | В дальнейшем мы будем называть это распределение   | + | В дальнейшем мы будем называть это распределение «представительным».  | 
Непосредственная настройка модели {{eqref|1}} при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче.  | Непосредственная настройка модели {{eqref|1}} при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче.  | ||
Рассмотрим упрощенную модель  | Рассмотрим упрощенную модель  | ||
| - | ::<tex> Y_{ijn} = \theta_{in} + \phi_{jn} + \varepsilon_{ijn} </tex>  | + | ::<tex> Y_{ijn} = \theta_{in} + \phi_{jn} + \varepsilon_{ijn} </tex>.  | 
Данная модель с помощью робастного метода настраивается по обучающей выборке для получения оценок параметров <tex>\hat \theta_{in} </tex> и <tex> \hat \phi_{jn} </tex>.  | Данная модель с помощью робастного метода настраивается по обучающей выборке для получения оценок параметров <tex>\hat \theta_{in} </tex> и <tex> \hat \phi_{jn} </tex>.  | ||
Версия 18:15, 22 октября 2011
fRMA (Frozen Robust Multi-Array Analysis)
Рассматривается следующая модель уровня экспрессии:
Здесь используются следующие обозначения:
-  
— номер партии микрочипов
. Два чипа относятся к одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
 -  
— номер микрочипа
.
 -  
— номер набора проб
. Также через
мы будем обозначать номер гена, соответствующего
-му набору проб.
 -  
— номер пробы
.
 -  
— предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы
из набора проб
микрочипа
из партии микрочипов
.
 -  
— экспрессия гена
на
-м микрочипе.
 -  
— коэффициент сродства пробы
гену
.
 -  
— поправка к коэффициенту сродства, учитывающая различия между партиями проб.
 -  
— случайная ошибка с нулевым средним.
 
В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: .
Также делается предположение, что 
 — это случайная величина, дисперсия которой не зависит от партии чипов: 
.
Обучение модели
Для обучения необходимы данные с большого числа микрочипов.
Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению. В дальнейшем мы будем называть это распределение «представительным».
Непосредственная настройка модели (1) при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче. Рассмотрим упрощенную модель
.
Данная модель с помощью робастного метода настраивается по обучающей выборке для получения оценок параметров  и 
.
Затем вычисляются остатки 
, с помощью которых оцениваются дисперсии 
 и 
:
;
,
где .

