Участник:EvgSokolov/Песочница
Материал из MachineLearning.
| Строка 68: | Строка 68: | ||
Введем следующие обозначения:  | Введем следующие обозначения:  | ||
| - | * <tex> {\mathbf X} = 1_{J_n \times 1} \otimes \mathbf{E}_{I \times I  | + | * <tex> {\mathbf X} = 1_{J_n \times 1} \otimes \mathbf{E}_{I \times I} </tex> — индикаторная матрица (<tex> 1_{m \times n} </tex> — матрица из единиц размера <tex> m \times n </tex>; <tex> {\mathbf E}_{n \times n} </tex> — единичная матрица размера <tex> n \times n </tex>; <tex> \otimes </tex> — [http://ru.wikipedia.org/wiki/Произведение_Кронекера произведение Кронекера]).  | 
* <tex> {\mathbf \theta} = \left( \theta_{1 n}, \dots, \theta_{I n} \right) </tex> — вектор экспрессий.  | * <tex> {\mathbf \theta} = \left( \theta_{1 n}, \dots, \theta_{I n} \right) </tex> — вектор экспрессий.  | ||
* <tex> {\mathbf Y_{jn}^*} = \left( Y_{ijn}^* \right)_{i = 1}^{I} \in \mathbb{R}^I </tex> — вектор интенсивностей пробы <tex>j</tex> набора <tex>n</tex> на всех чипах партии.  | * <tex> {\mathbf Y_{jn}^*} = \left( Y_{ijn}^* \right)_{i = 1}^{I} \in \mathbb{R}^I </tex> — вектор интенсивностей пробы <tex>j</tex> набора <tex>n</tex> на всех чипах партии.  | ||
| Строка 76: | Строка 76: | ||
Тогда модель {{eqref|2}} можно записать в матричном виде:  | Тогда модель {{eqref|2}} можно записать в матричном виде:  | ||
::<tex> \mathbf Y_n^* = X \theta + \delta </tex>  | ::<tex> \mathbf Y_n^* = X \theta + \delta </tex>  | ||
| + | |||
| + | Матрица ковариации вектора случайных ошибок <tex> \mathbf \delta </tex> задается следующим образом:  | ||
| + | ::<tex> {\mathbf \delta}_{i_1 j_1, i_2 j_2} = cov \left( Y_{i_1 j_1 n}^*,\; Y_{i_2 j_2 n}^* \right) = \begin{cases} \tau_{jn}^2 + \sigma_{jn}^2, & \text{if } j_1 = j_2 = j, \; i_1 = i_2, \\ \tau_{jn}^2, & \text{if } j_1 = j_2 = j, \; i_1 \neq i_2, \\ 0, & \text{otherwise} \end{cases} </tex>  | ||
| + | |||
| + | С учетом данного выражения ковариационную матрицу вектора <tex> \mathbf \delta </tex> можно записать следующим образом:  | ||
| + | ::<tex> {\mathbf \Sigma} = diag \left( \tau_{1n}^2, \dots, \tau_{J_n, n}^2 \right) \otimes 1_{I \times I} + diag \left( \sigma_{1n}^2, \dots, \sigma_{J_n, n}^2 \right) \otimes {\mathbf E}_{I \times I} </tex>  | ||
| + | |||
| + | Для параметров <tex> \tau_{jn}^2 </tex> И <tex> \sigma_{jn}^2 </tex> уже получены оценки, поэтому матрицу <tex> \mathbf \Sigma </tex> можно считать известной.  | ||
| + | Значит, с помощью преобразования <tex> \mathbf Z_n^* = \Sigma^{-\frac{1}{2}} Y_n^* </tex> можно добиться независимости случайных ошибок.  | ||
| + | Тогда робастную оценку для <tex> \mathbf \theta </tex> можно получить из следующей задачи взвешенных наименьших квадратов:  | ||
| + | ::<tex> W \left\| {\mathbf  \left( \Sigma^{-\frac{1}{2}} Y_n^* - \Sigma^{-\frac{1}{2}} X \theta \right) } \right\|^2 \rightarrow \min_{\mathbf \theta} </tex>,  | ||
| + | где <tex> \mathbf W </tex> — диагональная матрица весов, соответствующих некоторой M-оценке.  | ||
| + | |||
| + | Решение записывается следующим образом:  | ||
| + | ::<tex> {\mathbf \hat \theta} = \left( {\mathbf X^T \Sigma^{-\frac{1}{2}} W \Sigma^{-\frac{1}{2}} X} \right)^{-1} {\mathbf X^T \Sigma^{-\frac{1}{2}} W \Sigma^{-\frac{1}{2}} Y_n^* } </tex>.  | ||
Версия 08:26, 24 октября 2011
Содержание | 
fRMA (Frozen Robust Multi-Array Analysis)
Рассматривается следующая модель уровня экспрессии:
Здесь используются следующие обозначения:
-  
— номер партии микрочипов
. Два чипа относятся к одной партии, если эксперименты с ними были проведены в одной лаборатории в одно и то же время.
 -  
— номер микрочипа
.
 -  
— номер набора проб
. Также через
мы будем обозначать номер гена, соответствующего
-му набору проб.
 -  
— номер пробы
.
 -  
— предобработанная (с вычтенным фоном и нормализованная) логарифмированная интенсивность пробы
из набора проб
микрочипа
из партии микрочипов
.
 -  
— экспрессия гена
на
-м микрочипе.
 -  
— коэффициент сродства пробы
гену
.
 -  
— случайная ошибка, вызывающая различия между партиями проб.
 -  
— случайная ошибка, вызывающая различия между пробами на чипах одной партии.
 
В данной модели предполагается, что пробы на разных чипах имеют одинаковую дисперсию случайной ошибки: .
Также делается предположение, что 
 — это случайная величина, дисперсия которой не зависит от партии чипов: 
.
Обучение модели
Для обучения необходимы данные с большого числа микрочипов.
Сначала ко всем микрочипам применяется метод квантильной нормализации, приводящий все данные к одному распределению. В дальнейшем будем называть это распределение «представительным».
Непосредственная настройка модели (1) при наличии выбросов в обучающей выборке крайне сложна, поэтому предлагается перейти к более простой задаче. Рассматривается упрощенная модель
.
По обучающей выборке находятся робастные оценки параметров  и 
 для данной модели.
Затем вычисляются остатки 
, с помощью которых оцениваются дисперсии 
 и 
:
;
,
где .
Обработка новых чипов
Рассмотрим процесс обработки новых чипов. Сначала делается фоновая поправка всех чипов методом RMA-свертки, затем с помощью квантильной нормализации интенсивности новых чипов приводятся к представительному распределению, полученному на этапе обучения. Последним шагом является суммаризация, которая подробно описана ниже.
В первую очередь делается поправка интенсивностей проб для учета коэффициента сродства:
(здесь  — это индекс новой партии микрочипов).
Далее из скорректированных интенсивностей нужно получить робастную оценку для .
Это делается разными способами в зависимости от того, из скольких чипов состоит партия.
Один микрочип
В данном случае индексы  и 
 могут быть опущены опущены, так как обрабатывается один микрочип и одна партия.
Логарифмированная концентрация оценивается следующим образом:
,
где  — оценка дисперсии скорректированной интенсивности 
, а 
 — веса, соответствующие некоторой M-оценке.
Данная оценка учитывает с низкими весами выбросы (так как им соответствуют маленькие ) и пробы с большой дисперсией шума.
Партия микрочипов
В данном случае индекс  может быть опущен, так как обрабатывается одна партия микрочипов. Число чипов в новой партии будем обозначать через 
Введем следующие обозначения:
-  
— индикаторная матрица (
— матрица из единиц размера
;
— единичная матрица размера
;
— произведение Кронекера).
 -  
— вектор экспрессий.
 -  
— вектор интенсивностей пробы
набора
на всех чипах партии.
 -  
— вектор интенсивностей всех проб к гену
на всех чипах партии.
 -  
— вектор случайных ошибок, соответствующих интенсивностям из
.
 
Тогда модель (2) можно записать в матричном виде:
Матрица ковариации вектора случайных ошибок  задается следующим образом:
С учетом данного выражения ковариационную матрицу вектора  можно записать следующим образом:
Для параметров  И 
 уже получены оценки, поэтому матрицу 
 можно считать известной.
Значит, с помощью преобразования 
 можно добиться независимости случайных ошибок.
Тогда робастную оценку для 
 можно получить из следующей задачи взвешенных наименьших квадратов:
,
где  — диагональная матрица весов, соответствующих некоторой M-оценке.
Решение записывается следующим образом:
.

