Фоновая поправка в анализе ДНК-микрочипов
Материал из MachineLearning.
м  (→RMA-свёртка)  | 
				|||
| Строка 11: | Строка 11: | ||
Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины <tex>IM</tex>.  | Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины <tex>IM</tex>.  | ||
| - | == RMA ==  | + | == RMA (Robust Multichip Average) ==  | 
Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов<ref name="RMA"> Irizarry RA, Hobbs B, Collin F, et al. Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics. 2003;4(2):249-64. Available at: http://www.ncbi.nlm.nih.gov/pubmed/12925520.</ref>. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности <tex>Y</tex> представляется в виде суммы нормально распределённого шума <tex>B</tex> со средним <tex>\mu</tex> и дисперсией <tex>\sigma^2</tex> и экспоненциально распределённого  сигнала <tex>S</tex> со средним значением <tex>\alpha</tex>. Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения шума. Оценка сигнала строится согласно следующей формуле:   | Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов<ref name="RMA"> Irizarry RA, Hobbs B, Collin F, et al. Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics. 2003;4(2):249-64. Available at: http://www.ncbi.nlm.nih.gov/pubmed/12925520.</ref>. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности <tex>Y</tex> представляется в виде суммы нормально распределённого шума <tex>B</tex> со средним <tex>\mu</tex> и дисперсией <tex>\sigma^2</tex> и экспоненциально распределённого  сигнала <tex>S</tex> со средним значением <tex>\alpha</tex>. Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения шума. Оценка сигнала строится согласно следующей формуле:   | ||
| Строка 24: | Строка 24: | ||
Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, [[EM-алгоритм]] работает слишком медленно из-за большого объёма данных<ref name="bolstad"> Bolstad BM: Low Level Analysis of High-density Oligonucleotide Array Data: Background, Normalization and Summarization. Dissertation, Dept. of Statistics, University of California, Berkeley. 2004. Available at: http://www.bmbolstad.com/Dissertation/Bolstad_2004_Dissertation.pdf.</ref>. В то же время, в работе McGee, Chen, 2006<ref name="McGee"> McGee M, Chen Z: Parameter Estimation for the Exponential-Normal Convolution Model for Background Correction of Affymetrix GeneChip Data. Statistical Applications in Genetics and Molecular Biology 2006, 5:Article 24. Available at: http://www.bepress.com/sagmb/vol5/iss1/art24/.</ref> показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок.  | Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, [[EM-алгоритм]] работает слишком медленно из-за большого объёма данных<ref name="bolstad"> Bolstad BM: Low Level Analysis of High-density Oligonucleotide Array Data: Background, Normalization and Summarization. Dissertation, Dept. of Statistics, University of California, Berkeley. 2004. Available at: http://www.bmbolstad.com/Dissertation/Bolstad_2004_Dissertation.pdf.</ref>. В то же время, в работе McGee, Chen, 2006<ref name="McGee"> McGee M, Chen Z: Parameter Estimation for the Exponential-Normal Convolution Model for Background Correction of Affymetrix GeneChip Data. Statistical Applications in Genetics and Molecular Biology 2006, 5:Article 24. Available at: http://www.bepress.com/sagmb/vol5/iss1/art24/.</ref> показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок.  | ||
| - | == MAS 5.0 ==  | + | == DFCM (Distribution Free Convolution Model) ==  | 
| + | В рамках данной модели, как и в модели алгоритма RMA, предполагается, что наблюдаемая интенсивность является суммой сигнала и шума: <tex>Y=S+B</tex>; однако, в отличие от RMA, не делается никаких предположений о распределениях компонент<ref name="Chen">Chen Z, McGee M, Liu Q, et al. A Distribution-Free Convolution Model for background correction of oligonucleotide microarray data. BMC genomics. 2009;10 Suppl 1:S19. Available at: http://www.ncbi.nlm.nih.gov/pubmed/19594878.</ref>. Алгоритм учёта фоновой поправки следующий.  | ||
| + | # Выделяются наименьшие <tex>q_1</tex> процентов значений PM-интенсивностей (обычно доля <tex>q_1</tex> достаточно мала и не превышает 30%).   | ||
| + | # Выделяются наименьшие <tex>q_2</tex> процентов (обычно 90% или 95%) значений MM-интенсивностей проб, соответствующих PM-пробам, отобранным на предыдущем шаге. Отобранные значения интенсивностей MM-проб далее служат мерой фонового шума.  | ||
| + | # С использованием непараметрической [[Оценивание плотности распределения|оценки плотности распределения]] шума (как правило, ядерной оценки Епачечникова), ищется мода распределения шума <tex>\hat{\mu}</tex>.  | ||
| + | # Оценкой стандартного отклонения шума служит <tex>\hat{\sigma}</tex> — выборочное стандартное отклонения шума со значениями интенсивностей, меньших <tex>\hat{\mu}</tex>, умноженное на <tex>\sqrt{2}</tex>.   | ||
| + | # Значение интенсивности <tex>k</tex>-й пробы в <tex>i</tex>-м наборе проб, соответствующих одному гену, рассчитывается по следующей формуле:   | ||
| + | :<tex>s_{ki}=\left\{y_{ki}-\hat{\mu}, \:\:\: y_{ki}\geq\hat{\mu}+3\hat{\sigma}, \\ 1 + \left(y_{ki}-min\right) \left( \frac{3\hat{\sigma}-1}{\hat{\mu}+3\hat{\sigma}-min}\right), \:\:\: y_{ki}<\hat{\mu}+3\hat{\sigma}, \right.</tex>   | ||
| + | где <tex>min</tex> — минимальное значение интенсивности (PM или MM проб).  | ||
| + | |||
| + | Выбирая значения параметров <tex>q_1</tex> и <tex>q_2</tex>, мы хотим отобрать те значения PM-интенсивностей, которые достаточно малы для того, чтобы пренебречь неспецифической гибридизацией MM-фрагментов к PM-зондам, а затем отобрать такие соответствующие им MM-пробы, которые, скорее всего, не подвержены кросс-гибридизации. Параметр <tex>q_1</tex> может рассматриваться как мера доли PM-проб, соответствующим не экспрессированным генам. Любой MM-сигнал, соответствующий таким пробам, не может быть результатом неспецифической гибридизации, поскольку ген не экспрессирован. Значение параметра <tex>q_1</tex> выбирается таким, чтобы доля MM-проб с интенсивностью большей, чем у соответствующих им PM-проб для наименьших <tex>q_1</tex>% данных была примерно равна 50%.   | ||
| + | |||
| + | == MAS 5.0 (Affymetrix Micro Array Suite 5.0) ==  | ||
[[Изображение:MAS.PNG|thumb|250px|Схема вычисления локальной фоновой поправки и её дисперсии в методе MAS 5.0]]  | [[Изображение:MAS.PNG|thumb|250px|Схема вычисления локальной фоновой поправки и её дисперсии в методе MAS 5.0]]  | ||
Данный метод делит каждый ДНК-микрочип на <tex>K</tex> (по умолчанию 16) прямоугольных областей одинаковой площади, в каждой из которых фоновая поправка оценивается с помощью 2%-квантиля (наименьших значений) интенсивности <tex>b_k</tex>; оценивается также дисперсия наименьших 2% значений интенсивности <tex>n_k</tex>. Затем фоновая поправка для каждой пробы с координатами <tex>\left(x,y\right)</tex> рассчитывается как взвешенное среднее всех <tex>k</tex> оценок:   | Данный метод делит каждый ДНК-микрочип на <tex>K</tex> (по умолчанию 16) прямоугольных областей одинаковой площади, в каждой из которых фоновая поправка оценивается с помощью 2%-квантиля (наименьших значений) интенсивности <tex>b_k</tex>; оценивается также дисперсия наименьших 2% значений интенсивности <tex>n_k</tex>. Затем фоновая поправка для каждой пробы с координатами <tex>\left(x,y\right)</tex> рассчитывается как взвешенное среднее всех <tex>k</tex> оценок:   | ||
Версия 09:40, 17 мая 2010
Фоновая поправка - важный предварительный этап в анализе ДНК-микрочипов. Его необходимость связана с наличием таких мешающих факторов, как шум оптической системы распознавания и неспецифическая гибридизация.
Содержание | 
Ideal mismatch
Изначально для анализа фонового эффекта была разработана система так называемых PM-MM проб. Помимо нуклеотидных зондов, в точности соответствующих последовательности каждого рассматриваемого гена (Perfect Match probes), на микрочипах Affymetrix GeneChip размещались зонды, в которых средний (тринадцатый) олигонуклеотид был заменён на комплементарный (Mismatch probe). Предполагалось, что по интенсивности MM-проб можно будет оценить эффект неспецифической гибридизации и вычесть его из интенсивности PM-проб. Этот подход сразу же продемонстрировал свою несостоятельность - было показано, что в среднем для ДНК-микрочипа интенсивность около 30% MM-проб превышает интенсивность соответствующих им PM-проб[1]. Из-за этого вычитание интенсивностей MM-проб приводит к бессмысленному результату, поскольку экспрессия гена оказывается отрицательной.
Чтобы нейтрализовать этот эффект, компанией Affymetrix была разработана концепция Ideal Mismatch[1]. Идея заключается в том, чтобы делать обычную PM-MM коррекцию там, где это возможно, а в остальных случаях вычитать из интенсивности PM-проб некоторую величину, меньшую интенсивности MM-проб. Для каждого множества проб, соответствующих одному участку ДНК, вычисляется значение специфической фоновой интенсивности , представляющее собой одношаговое взвешенное среднее Тьюки по множеству логарифмов отношений PM-интенсивностей к MM-интенсивностям в каждой паре проб. Если 
 - номер пробы, а 
 - номер подмножества проб, то фоновый эффект оценивается следующим выражением: 
Здесь  и 
 - настраиваемые параметры: 
 - константа различия со значением по умолчанию 0.03, 
 - константа масштабирования со значением по умолчанию 10, 
 - одношаговое взвешенное среднее Тьюки с параметрами 
Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины .
RMA (Robust Multichip Average)
Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов[1]. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности  представляется в виде суммы нормально распределённого шума 
 со средним 
 и дисперсией 
 и экспоненциально распределённого  сигнала 
 со средним значением 
. Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения шума. Оценка сигнала строится согласно следующей формуле: 
где  
 
 и 
 — соответственно функция распределения и плотность стандартного нормального распределения. Оценки параметров в алгоритме RMA строятся следующим образом. Пусть 
 — плотность распределения интенсивностей на микрочипе, тогда 
— мода распределения интенсивностей;
— мода интенсивностей, меньших
;
— выборочное стандартное отклонение интенсивностей, меньших
, умноженное на
;
.
Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, EM-алгоритм работает слишком медленно из-за большого объёма данных[1]. В то же время, в работе McGee, Chen, 2006[1] показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок.
DFCM (Distribution Free Convolution Model)
В рамках данной модели, как и в модели алгоритма RMA, предполагается, что наблюдаемая интенсивность является суммой сигнала и шума: ; однако, в отличие от RMA, не делается никаких предположений о распределениях компонент[1]. Алгоритм учёта фоновой поправки следующий.
-  Выделяются наименьшие 
процентов значений PM-интенсивностей (обычно доля
достаточно мала и не превышает 30%).
 -  Выделяются наименьшие 
процентов (обычно 90% или 95%) значений MM-интенсивностей проб, соответствующих PM-пробам, отобранным на предыдущем шаге. Отобранные значения интенсивностей MM-проб далее служат мерой фонового шума.
 -  С использованием непараметрической оценки плотности распределения шума (как правило, ядерной оценки Епачечникова), ищется мода распределения шума 
.
 -  Оценкой стандартного отклонения шума служит 
— выборочное стандартное отклонения шума со значениями интенсивностей, меньших
, умноженное на
.
 -  Значение интенсивности 
-й пробы в
-м наборе проб, соответствующих одному гену, рассчитывается по следующей формуле:
 
где  — минимальное значение интенсивности (PM или MM проб).
Выбирая значения параметров  и 
, мы хотим отобрать те значения PM-интенсивностей, которые достаточно малы для того, чтобы пренебречь неспецифической гибридизацией MM-фрагментов к PM-зондам, а затем отобрать такие соответствующие им MM-пробы, которые, скорее всего, не подвержены кросс-гибридизации. Параметр 
 может рассматриваться как мера доли PM-проб, соответствующим не экспрессированным генам. Любой MM-сигнал, соответствующий таким пробам, не может быть результатом неспецифической гибридизации, поскольку ген не экспрессирован. Значение параметра 
 выбирается таким, чтобы доля MM-проб с интенсивностью большей, чем у соответствующих им PM-проб для наименьших 
% данных была примерно равна 50%. 
MAS 5.0 (Affymetrix Micro Array Suite 5.0)
Данный метод делит каждый ДНК-микрочип на  (по умолчанию 16) прямоугольных областей одинаковой площади, в каждой из которых фоновая поправка оценивается с помощью 2%-квантиля (наименьших значений) интенсивности 
; оценивается также дисперсия наименьших 2% значений интенсивности 
. Затем фоновая поправка для каждой пробы с координатами 
 рассчитывается как взвешенное среднее всех 
 оценок: 
.
По аналогичной формуле с заменой  на 
 рассчитывается дисперсия фоновой поправки для каждой пробы.
Веса зависят от расстояния между пробой и центрами прямоугольных областей:
где  - евклидово расстояние между пробой и центром 
-й ячейки, 
 - сглаживающий коэффициент (значение по умолчанию 100).
Скорректированное значение интенсивности рассчитывается по формуле
где  - исходное значение интенсивности, 
 - параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5).

