Предобработка данных ДНК-микрочипов
Материал из MachineLearning.
Предобработка данных - необходимый этап анализа данных, полученных в ходе эксперимента с ДНК-микрочипом. Выделяют три основных подэтапа предобработки:
- Фоновая поправка
 
Фоновая поправка в анализе ДНК-микрочипов
- Нормализация
 
- Суммаризация
 
Суммаризация - этап предобработки данных, в ходе которого суммируются интенсивности нескольких ДНК-микрочипов, использованных на одной стадии эксперимента, с целью получить финальные значения интенсивностей проб. Как правило, суммаризация является составной частью алгоритма, реализующего комплекс методов предобработки данных.
Содержание | 
Факторный анализ для робастной суммаризации микрочипов (Factor Analysis For Robust Microarray Summarization (FARMS))
Данный подход к суммаризации интенсивностей микрочипов базируется на линейной модели с гауссовским шумом.
Модель
Обозначим  нормализованный логарифм наблюдаемой интенсивности (с нулевым матожиданием) 
, а 
 - нормализованный логарифм концентрации РНК в исследуемом препарате. Будем предполагать, что между логарифмом наблюдаемой интенсивности и логарифмом концентрации РНК существует связь вида
, где
и
.
 это многомерное нормальное распределение с вектором матожидания 
 и ковариационной матрицей 
. 
 обычно называют фактором. 
 это диагональная матрица ковариаций шума. 
 и 
 статистически независимы. Согласно принятой модели, наблюдаемый вектор 
 распределён нормально со следующими параметрами:
Следовательно, интенсивности (PM проб) логарифмически нормально распределены.  это параметры формы логарифмически нормального распределения для каждой пробы 
.
Теперь рассмотрим отдельный ген, множество микрочипов , на каждом из которых 
 проб 
, соответствующих этому гену. Обозначим 
 - истинный сигнал на микрочипе 
, то есть логарифм концентрации РНК рассматриваемого гена в препарате. Пусть 
 - сигнал 
, нормализованный так, что он имеет нулевое матожидание и дисперсию 1, то есть
.
Теперь предположим, что для каждой пробы  сигнал отклоняется на 
 и 
 от истинных значений 
 и 
 соответственно. Таким образом,
,
где предполагается, что  и 
 распределены с нулевым матожиданием. Величина 
 определяет дисперсию 
-го измерения 
, а 
 - его матожидание. Таким образом, мы предполагаем, что каждый олигонуклеотид, соответствующий 
, имеет свои характеристики (например, эффективность гибридизации). Добавляя к измерениям 
 шум 
, получим
,
где  - гауссовский шум с нулевым матожиданием. Значения 
 и стандартного отклонения 
 могут зависеть от интенсивностей экспрессии гена на разных микрочипах. В некоторых работах показано, что дисперсия шума зависит от силы сигнала. Поэтому при оценке значений необходимо принимать во внимание фактическую интенсивность экспрессии генов.
Если мы обозначим  и нормализуем наблюдение 
, чтобы оно имело нулевое матожидание, вычитая 
,
где аппроксимация возможна в сделанных предположениях о нулевых матожиданиях  и 
, мы придём к базовой модели (1). 
Согласно модели, 
, поэтому данный метод лучше всего подходит для генов с сильным нормально распределенным сигналом или для генов с низкими интенсивностями сигнала (маленькими 
). Эксперименты показали, что этот подход даёт хорошие результаты и для ненормальных распределений 
, потому что ненормальность 
 имеет сравнительно небольшое влияние на правдоподобность модели.
Оценка параметров модели и сигнала
Оценка настоящей интенсивности (сигнала) состоит из трёх шагов:
1. Нормализация наблюдений
Чтобы наблюдаемые значения  соответствовали сделанным в модели предположением, нормализуем их, вычитая 
, оцениваемое с помощью уравнения (*). Таким образом, они будут иметь нулевое матожидание.
2. Максимальный апостериорный факторный анализ
Пусть  - исходные данные. Тогда байесовская апостериорная плотность вероятности параметров 
 пропорциональна произведению правдоподобия 
 и априорной плотности вероятности 
:
.
Для априорной плотности вероятности мы предполагаем, что , то есть что априорная вероятность параметра 
 не зависит от параметра 
 и что последняя неинформативна. Априорная плотность вероятности для 
 вычисляется по формуле 
, где 
 из исправленного нормального распределения 
, для которого
 выбрана пропорционально матожиданию вариации 
 наблюдений, чтобы фактор отражал вариацию данных, то есть
Априорная плотность вероятности отражает следующие факты:
-  наблюдаемые вариации в данных часто небольшие, поэтому большие значения 
маловероятны,
 -  микрочип обычно содержит во много раз больше генов с постоянным сигналом (
), чем генов с меняющимся сигналом (большие значения
),
 -  отрицательные значения 
неправдоподобны, так как это значит, что интенсивность сигналов убывает с увеличением концентрации РНК.
 
Два гиперпараметра  и 
 позволяют определить разные аспекты априорных знаний. Например, значение 
 около нуля предполагает, что большинство генов не содержат сигналов и вносят смещение значений 
 к нулю. 
Второй множитель апостериорной плотности - это правдоподобие, которое вычисляется как
где  это плотность распределения, измеренная в 
.
Мы оцениваем параметры факторного анализа с помощью EM-алгоритма, модифицированного для максимизации байесовской апостериорной плотности вероятности. EM-алгоритм оценивает параметры  и апостериорные значения плотности вероятности для 
 для каждого 
. Аналогично EM-алгоритму, максимизирующему правдоподобие, модифицированный EM-алгоритм максимизирует нижнюю границу апостериорной плотности логарифмов
где  уже нормализован и имеет нулевое матожидание и
Отметим, что максимальный апостериорный факторный анализ позволяет выделить и ненормально распределённые сигналы. Ковариационная матрица правдоподобия равна , поэтому увеличение диагональных элементов 
 приведёт к большему уменьшению правдоподобия, чем увеличение одного собственного значения с помощью 
 (отметим, что при приведении ненормального распределения к единичной дисперсии 
 увеличивается). Причиной большего уменьшения правдоподобия в первом случае является суммарный эффект увеличения 
 собственных значений ковариационной матрицы.
3. Оценка действительной интенсивности
Наша задача - определить действительную интенсивность  с помощью оцененного значения 
, то есть нужно оценить 
 и 
. Для каждой пробы мы имеем
Мы определяем  и 
 методом наименьших квадратов. Учитывая, что и 
 и 
 взяты из распределения с нулевым матожиданием, получаем:
Действительная интенсивность в таком случае представляется в виде
где  это фактор, который компенсирует уменьшение вариации данных в ходе предобработки и факторного анализа (вариация данных в некоторой степени рассматривается как шум). Значение 
 эмпирически определено на модельных данных для разных методов нормализации: 
 для квантильной нормализации и 
 для циклической сглаживающей кривой. 
Сравнение методов предобработки данных ДНК-микрочипов
Литература
Hochreiter, S.; Clevert, D.-A.; Obermayer, K. A new summarization method for Affymetrix probe level data // Bioinformatics. — (Oxford, England): 2006 T. 22. — С. 943-9.
Kogadeeva 02:45, 4 декабря 2010 (MSK)

