Фоновая поправка в анализе ДНК-микрочипов
Материал из MachineLearning.
 (→MAS 5.0)  | 
				 (→RMA-свёртка)  | 
			||
| Строка 12: | Строка 12: | ||
== RMA-свёртка ==  | == RMA-свёртка ==  | ||
| - | Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов <ref name="RMA"> Irizarry RA, Hobbs B, Collin F, et al. Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics. 2003;4(2):249-64. Available at: http://www.ncbi.nlm.nih.gov/pubmed/12925520.</ref>. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности <tex>Y</tex> представляется в виде суммы нормально распределённого шума <tex>B</tex> со средним <tex>\mu</tex> и дисперсией <tex>\sigma^2</tex> и экспоненциально распределённого  сигнала <tex>S</tex> со средним значением <tex>\alpha</tex>. Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения. Корректировка производится согласно следующей формуле:   | + | Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов<ref name="RMA"> Irizarry RA, Hobbs B, Collin F, et al. Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics. 2003;4(2):249-64. Available at: http://www.ncbi.nlm.nih.gov/pubmed/12925520.</ref>. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности <tex>Y</tex> представляется в виде суммы нормально распределённого шума <tex>B</tex> со средним <tex>\mu</tex> и дисперсией <tex>\sigma^2</tex> и экспоненциально распределённого  сигнала <tex>S</tex> со средним значением <tex>\alpha</tex>. Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения шума. Корректировка производится согласно следующей формуле:   | 
:<tex>\operatorname{E}\left(s\left|Y=y\right.\right)=a + b \frac{\phi\left(\frac{a}{b}\right)-\phi\left(\frac{y-a}{b}\right)} {\Phi\left(\frac{a}{b}\right) - \Phi\left(\frac{y-a}{b}\right) -1},</tex>  | :<tex>\operatorname{E}\left(s\left|Y=y\right.\right)=a + b \frac{\phi\left(\frac{a}{b}\right)-\phi\left(\frac{y-a}{b}\right)} {\Phi\left(\frac{a}{b}\right) - \Phi\left(\frac{y-a}{b}\right) -1},</tex>  | ||
| - | где <tex>a=  | + | где <tex>a=y-\mu-\sigma^2\alpha,\:</tex> <tex>b=\sigma,\:</tex> <tex>\Phi</tex> и <tex>\phi</tex> — соответственно функция распределения и плотность стандартного нормального распределения. В алгоритме RMA параметр <tex>alpha</tex> оценивается при помощи среднего расстояния от значений интенсивностей PM-проб, превышающих моду, до этой моды; <tex>\mu</tex> — при помощи моды интенсивностей MM-проб; <tex>\sigma^2</tex> — среднее значение квадратов расстояний от значений интенсивностей MM-проб, не превосходящих моду, до этой моды, масштабированное коэффициентом 2/0.85<sup>2</sup> <ref name="RMA_exp"> Wernisch L. Background correction in the RMA algorithm. Available at: http://www.biochem.ucl.ac.uk/~harry/MAD/rma_bg.pdf.</ref>.  | 
== MAS 5.0 ==  | == MAS 5.0 ==  | ||
Версия 07:15, 17 мая 2010
Фоновая поправка - важный предварительный этап в анализе ДНК-микрочипов. Его необходимость связана с наличием таких мешающих факторов, как шум оптической системы распознавания и неспецифическая гибридизация.
Содержание | 
Ideal mismatch
Изначально для анализа фонового эффекта была разработана система так называемых PM-MM проб. Помимо нуклеотидных зондов, в точности соответствующих последовательности каждого рассматриваемого гена (Perfect Match probes), на микрочипах Affymetrix GeneChip размещались зонды, в которых средний (тринадцатый) олигонуклеотид был заменён на комплементарный (Mismatch probe). Предполагалось, что по интенсивности MM-проб можно будет оценить эффект неспецифической гибридизации и вычесть его из интенсивности PM-проб. Этот подход сразу же продемонстрировал свою несостоятельность - было показано, что в среднем для ДНК-микрочипа интенсивность около 30% MM-проб превышает интенсивность соответствующих им PM-проб[1]. Из-за этого вычитание интенсивностей MM-проб приводит к бессмысленному результату, поскольку экспрессия гена оказывается отрицательной.
Чтобы нейтрализовать этот эффект, компанией Affymetrix была разработана концепция Ideal Mismatch[1]. Идея заключается в том, чтобы делать обычную PM-MM коррекцию там, где это возможно, а в остальных случаях вычитать из интенсивности PM-проб некоторую величину, меньшую интенсивности MM-проб. Для каждого множества проб, соответствующих одному участку ДНК, вычисляется значение специфической фоновой интенсивности , представляющее собой одношаговое взвешенное среднее Тьюки по множеству логарифмов отношений PM-интенсивностей к MM-интенсивностям в каждой паре проб. Если 
 - номер пробы, а 
 - номер подмножества проб, то фоновый эффект оценивается следующим выражением: 
Здесь  и 
 - настраиваемые параметры: 
 - константа различия со значением по умолчанию 0.03, 
 - константа масштабирования со значением по умолчанию 10, 
 - одношаговое взвешенное среднее Тьюки с параметрами 
Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины .
RMA-свёртка
Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов[1]. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности  представляется в виде суммы нормально распределённого шума 
 со средним 
 и дисперсией 
 и экспоненциально распределённого  сигнала 
 со средним значением 
. Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения шума. Корректировка производится согласно следующей формуле: 
где  
 
 и 
 — соответственно функция распределения и плотность стандартного нормального распределения. В алгоритме RMA параметр 
 оценивается при помощи среднего расстояния от значений интенсивностей PM-проб, превышающих моду, до этой моды; 
 — при помощи моды интенсивностей MM-проб; 
 — среднее значение квадратов расстояний от значений интенсивностей MM-проб, не превосходящих моду, до этой моды, масштабированное коэффициентом 2/0.852 [1].
MAS 5.0
Данный метод делит каждый ДНК-микрочип на  (по умолчанию 16) прямоугольных областей одинаковой площади, в каждой из которых фоновая поправка оценивается с помощью 2%-квантиля (наименьших значений) интенсивности 
; оценивается также дисперсия наименьших 2% значений интенсивности 
. Затем фоновая поправка для каждой пробы с координатами 
 рассчитывается как взвешенное среднее всех 
 оценок: 
.
По аналогичной формуле с заменой  на 
 рассчитывается дисперсия фоновой поправки для каждой пробы.
Веса зависят от расстояния между пробой и центрами прямоугольных областей:
где  - евклидово расстояние между пробой и центром 
-й ячейки, 
 - сглаживающий коэффициент (значение по умолчанию 100).
Скорректированное значение интенсивности рассчитывается по формуле
где  - исходное значение интенсивности, 
 - параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5).

