Участник:EvgSokolov/Песочница

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Версия 18:15, 22 октября 2011

fRMA (Frozen Robust Multi-Array Analysis)

Рассматривается следующая модель уровня экспрессии:

(1)

$Y_{ijkn} = \theta_{in} + \phi_{jn} + \gamma_{jkn} + \varepsilon_{ijkn}$

Здесь используются следующие обозначения:

$k$ — номер партии микрочипов $k \in 1, \dots, K$ . Два чипа относятся к одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
$i$ — номер микрочипа $i \in 1, \dots, I_k$ .
$n$ — номер набора проб $n \in 1, \dots, N$ . Также через $n$ мы будем обозначать номер гена, соответствующего $n$ -му набору проб.
$j$ — номер пробы $i \in 1, \dots, J_n$ .
$Y_{ijkn}$ — предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы $j$ из набора проб $n$ микрочипа $i$ из партии микрочипов $k$ .
$\theta_{in}$ — экспрессия гена $n$ на $i$ -м микрочипе.
$\phi_{jn}$ — коэффициент сродства пробы $j$ гену $n$ .
$\gamma_{jkn}$ — поправка к коэффициенту сродства, учитывающая различия между партиями проб.
$\varepsilon_{ijkn}$ — случайная ошибка с нулевым средним.

В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: $\mathbb{D} \varepsilon_{ijkn} = \sigma_{jn}^2$ . Также делается предположение, что $\gamma_{jkn}$ — это случайная величина, дисперсия которой не зависит от партии чипов: $\mathbb{D} \gamma_{jkn} = \tau_{jn}^2$ .

Обучение модели

Для обучения необходимы данные с большого числа микрочипов.

Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению. В дальнейшем мы будем называть это распределение «представительным».

Непосредственная настройка модели (1) при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче. Рассмотрим упрощенную модель

$Y_{ijn} = \theta_{in} + \phi_{jn} + \varepsilon_{ijn}$ .

Данная модель с помощью робастного метода настраивается по обучающей выборке для получения оценок параметров $\hat \theta_{in}$ и $\hat \phi_{jn}$ . Затем вычисляются остатки $r_{ijkn} = Y_{ijkn} - \left( \hat \theta_{in} + \hat \phi_{jn} \right)$ , с помощью которых оцениваются дисперсии $\sigma_{jn}^2$ и $\tau_{jn}^n$ :

$\hat \sigma_{jn}^2 = \frac{1}{K} \sum_{k = 1}^{K} \left( \bar r_{.jkn} - \bar r_{.j.n} \right)^2$ ;

$\hat \tau_{jn}^2 = \frac{1}{K} \sum_{k = 1}^{K} \frac{1}{I_k} \sum_{i = 1}^{I_k} \left( r_{ijkn} - \bar r_{.jkn} \right)^2$ ,

где $\bar r_{.jkn} = \frac{1}{I_k} \sum_{i = 1}^{I_k} r_{ijkn},\; \bar r_{.j.n} = \frac{1}{K} \sum_{k = 1}^{K} \frac{1}{I_k} \sum_{i = 1}^{I_k} r_{ijkn}$ .

Источник — «http://www.recognition.su/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:EvgSokolov/%D0%9F%D0%B5%D1%81%D0%BE%D1%87%D0%BD%D0%B8%D1%86%D0%B0»

@@ Строка 8: / Строка 8: @@
 Здесь используются следующие обозначения:
-* <tex>k</tex> — номер партии микрочипов <tex> k \in 1, \dots, K </tex>. Говорят, что два чипа принадлежат одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
+* <tex>k</tex> — номер партии микрочипов <tex> k \in 1, \dots, K </tex>. Два чипа относятся к одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
 * <tex>i</tex> — номер микрочипа <tex> i \in 1, \dots, I_k </tex>.
 * <tex>n</tex> — номер набора проб <tex> n \in 1, \dots, N </tex>. Также через <tex>n</tex>  мы будем обозначать номер гена, соответствующего <tex>n</tex>-му набору проб.
@@ Строка 26: / Строка 26: @@
 Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению.
-В дальнейшем мы будем называть это распределение <<представительным>>.
+В дальнейшем мы будем называть это распределение «представительным».
 Непосредственная настройка модели {{eqref|1}} при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче.
 Рассмотрим упрощенную модель
-::<tex> Y_{ijn} = \theta_{in} + \phi_{jn} + \varepsilon_{ijn} </tex>
+::<tex> Y_{ijn} = \theta_{in} + \phi_{jn} + \varepsilon_{ijn} </tex>.
 Данная модель с помощью робастного метода настраивается по обучающей выборке для получения оценок параметров <tex>\hat \theta_{in} </tex> и <tex> \hat \phi_{jn} </tex>.

Участник:EvgSokolov/Песочница

Материал из MachineLearning.

Версия 18:15, 22 октября 2011

fRMA (Frozen Robust Multi-Array Analysis)

Обучение модели

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты