Фоновая поправка в анализе ДНК-микрочипов

Материал из MachineLearning.

(Различия между версиями)

Версия 08:33, 17 мая 2010

Фоновая поправка - важный предварительный этап в анализе ДНК-микрочипов. Его необходимость связана с наличием таких мешающих факторов, как шум оптической системы распознавания и неспецифическая гибридизация.

Ideal mismatch

Изначально для анализа фонового эффекта была разработана система так называемых PM-MM проб. Помимо нуклеотидных зондов, в точности соответствующих последовательности каждого рассматриваемого гена (Perfect Match probes), на микрочипах Affymetrix GeneChip размещались зонды, в которых средний (тринадцатый) олигонуклеотид был заменён на комплементарный (Mismatch probe). Предполагалось, что по интенсивности MM-проб можно будет оценить эффект неспецифической гибридизации и вычесть его из интенсивности PM-проб. Этот подход сразу же продемонстрировал свою несостоятельность - было показано, что в среднем для ДНК-микрочипа интенсивность около 30% MM-проб превышает интенсивность соответствующих им PM-проб^[1]. Из-за этого вычитание интенсивностей MM-проб приводит к бессмысленному результату, поскольку экспрессия гена оказывается отрицательной.

Чтобы нейтрализовать этот эффект, компанией Affymetrix была разработана концепция Ideal Mismatch^[1]. Идея заключается в том, чтобы делать обычную PM-MM коррекцию там, где это возможно, а в остальных случаях вычитать из интенсивности PM-проб некоторую величину, меньшую интенсивности MM-проб. Для каждого множества проб, соответствующих одному участку ДНК, вычисляется значение специфической фоновой интенсивности $SB$ , представляющее собой одношаговое взвешенное среднее Тьюки по множеству логарифмов отношений PM-интенсивностей к MM-интенсивностям в каждой паре проб. Если $i$ - номер пробы, а $k$ - номер подмножества проб, то фоновый эффект оценивается следующим выражением:

$IM_i^{(k)} = \left\{MM_i^{(k)}, \:\:\: MM_i^{(k)}<PM_i^{(k)},\\ \frac{PM_i^{(k)}}{2^{SB_k}}, \:\:\: MM_i^{(k)}\geq PM_i^{(k)}, \: SB_k>\tau_c, \\ \frac{PM_i^{(k)}}{2^{\tau_c/(1+(\tau_c-SB_k)/\tau_s)}}, \:\:\: MM_i^{(k)}\geq PM_i^{(k)}, \: SB_k\leq\tau_c, \right.$

$SB_k=T_{bk}\left(\log_2 \frac{PM_i^{(k)}}{MM_i^{(k)}}, \:\:i=1,\ldots,n_k\right).$

Здесь $\tau_c$ и $\tau_s$ - настраиваемые параметры: $\tau_c$ - константа различия со значением по умолчанию 0.03, $\tau_s$ - константа масштабирования со значением по умолчанию 10, $T_{bk}$ - одношаговое взвешенное среднее Тьюки с параметрами $c=5, \eps=0.0001.$
Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины $IM$ .

RMA-свёртка

Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов^[1]. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности $Y$ представляется в виде суммы нормально распределённого шума $B$ со средним $\mu$ и дисперсией $\sigma^2$ и экспоненциально распределённого сигнала $S$ со средним значением $\alpha$ . Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения шума. Оценка сигнала строится согласно следующей формуле:

$\hat{S}=\operatorname{E}\left(s\left|Y=y\right.\right)=a + b \frac{\phi\left(\frac{a}{b}\right)-\phi\left(\frac{y-a}{b}\right)} {\Phi\left(\frac{a}{b}\right) - \Phi\left(\frac{y-a}{b}\right) -1},$

где $a=y-\mu-\sigma^2\alpha,\:$ $b=\sigma,\:$ $\Phi$ и $\phi$ — соответственно функция распределения и плотность стандартного нормального распределения. Оценки параметров в алгоритме RMA строятся следующим образом. Пусть $f(x)$ — плотность распределения интенсивностей на микрочипе, тогда

$x_m=\arg\max(f(x))$ — мода распределения интенсивностей;

$\hat{\mu}=\arg\max\left[f\left(x\left|x<x_m\right.\right)\right]$ — мода интенсивностей, меньших $x_m$ ;

$\hat{\sigma^2}$ — выборочное стандартное отклонение интенсивностей, меньших $\hat{\mu}$ , умноженное на $\sqrt{2}$ ;

$\hat{\alpha}=1/\arg\max\left[f\left(x\left|x>x_m\right.\right)\right]$ .

Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, EM-алгоритм работает слишком медленно из-за большого объёма данных^[1]. В то же время, в работе McGee, Chen, 2006^[1] показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок.

MAS 5.0

Схема вычисления локальной фоновой поправки и её дисперсии в методе MAS 5.0

Данный метод делит каждый ДНК-микрочип на $K$ (по умолчанию 16) прямоугольных областей одинаковой площади, в каждой из которых фоновая поправка оценивается с помощью 2%-квантиля (наименьших значений) интенсивности $b_k$ ; оценивается также дисперсия наименьших 2% значений интенсивности $n_k$ . Затем фоновая поправка для каждой пробы с координатами $\left(x,y\right)$ рассчитывается как взвешенное среднее всех $k$ оценок:

$b\left(x,y\right) = \frac{1}{\sum_{k=1}^K \omega_k\left(x,y\right)} \sum_{k=1}^K \omega_k\left(x,y\right)b_k$ .

По аналогичной формуле с заменой $b_k$ на $n_k$ рассчитывается дисперсия фоновой поправки для каждой пробы.

Веса зависят от расстояния между пробой и центрами прямоугольных областей:

$\omega_k\left(x,y\right) = \frac{1}{d_k^2\left(x,y\right)+s_0},$

где $d_k\left(x,y\right)$ - евклидово расстояние между пробой и центром $k$ -й ячейки, $s_0$ - сглаживающий коэффициент (значение по умолчанию 100).

Скорректированное значение интенсивности рассчитывается по формуле

$A\left(x,y\right)=\max(\max(I(x,y),0.5)-b(x,y),\:NoiseFrac\ast n(x,y)),$

где $I(x,y)$ - исходное значение интенсивности, $NoiseFrac$ - параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5).

Примечания

Это незавершённая статья. Вы поможете проекту, исправив и дополнив её.

Источник — «http://www.recognition.su/wiki/index.php?title=%D0%A4%D0%BE%D0%BD%D0%BE%D0%B2%D0%B0%D1%8F_%D0%BF%D0%BE%D0%BF%D1%80%D0%B0%D0%B2%D0%BA%D0%B0_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B5_%D0%94%D0%9D%D0%9A-%D0%BC%D0%B8%D0%BA%D1%80%D0%BE%D1%87%D0%B8%D0%BF%D0%BE%D0%B2»

Категории: Биоинформатика | Незавершённые статьи

@@ Строка 16: / Строка 16: @@
 :<tex>\hat{S}=\operatorname{E}\left(s\left|Y=y\right.\right)=a + b \frac{\phi\left(\frac{a}{b}\right)-\phi\left(\frac{y-a}{b}\right)} {\Phi\left(\frac{a}{b}\right) - \Phi\left(\frac{y-a}{b}\right) -1},</tex>
-где <tex>a=y-\mu-\sigma^2\alpha,\:</tex> <tex>b=\sigma,\:</tex> <tex>\Phi</tex> и <tex>\phi</tex> — соответственно функция распределения и плотность стандартного нормального распределения. В алгоритме RMA параметр <tex>alpha</tex> оценивается при помощи среднего расстояния от значений интенсивностей PM-проб, превышающих моду, до этой моды; <tex>\mu</tex> — при помощи моды интенсивностей MM-проб; <tex>\sigma^2</tex> — среднее значение квадратов расстояний от значений интенсивностей MM-проб, не превосходящих моду, до этой моды, масштабированное коэффициентом 2/0.85<sup>2</sup> <ref name="RMA_exp"> Wernisch L. Background correction in the RMA algorithm. Available at: http://www.biochem.ucl.ac.uk/~harry/MAD/rma_bg.pdf.</ref>. Использование таких ad hoc оценок объясняется невозможностью построить оценки более приемлемыми методами, такими, как метод максимального правдоподобия. В работе McGee, Chen, 2006<ref name="McGee"> McGee M, Chen Z: Parameter Estimation for the Exponential-Normal Convolution Model for Background Correction of Affymetrix GeneChip Data. Statistical Applications in Genetics and Molecular Biology 2006, 5:Article 24. Available at: http://www.bepress.com/sagmb/vol5/iss1/art24/.</ref> показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложены другие способы оценки.
+где <tex>a=y-\mu-\sigma^2\alpha,\:</tex> <tex>b=\sigma,\:</tex> <tex>\Phi</tex> и <tex>\phi</tex> — соответственно функция распределения и плотность стандартного нормального распределения. Оценки параметров в алгоритме RMA строятся следующим образом. Пусть <tex> f(x)</tex> — плотность распределения интенсивностей на микрочипе, тогда
+:<tex> x_m=\arg\max(f(x))</tex> — мода распределения интенсивностей;
+:<tex>\hat{\mu}=\arg\max\left[f\left(x\left|x<x_m\right.\right)\right]</tex> — мода интенсивностей, меньших <tex>x_m</tex>;
+:<tex>\hat{\sigma^2}</tex> — выборочное стандартное отклонение интенсивностей, меньших <tex>\hat{\mu}</tex>, умноженное на <tex>\sqrt{2}</tex>;
+:<tex>\hat{\alpha}=1/\arg\max\left[f\left(x\left|x>x_m\right.\right)\right]</tex>.
+Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, [[EM-алгоритм]] работает слишком медленно из-за большого объёма данных<ref name="bolstad"> Bolstad BM: Low Level Analysis of High-density Oligonucleotide Array Data: Background, Normalization and Summarization. Dissertation, Dept. of Statistics, University of California, Berkeley. 2004. Available at: http://www.bmbolstad.com/Dissertation/Bolstad_2004_Dissertation.pdf.</ref>. В то же время, в работе McGee, Chen, 2006<ref name="McGee"> McGee M, Chen Z: Parameter Estimation for the Exponential-Normal Convolution Model for Background Correction of Affymetrix GeneChip Data. Statistical Applications in Genetics and Molecular Biology 2006, 5:Article 24. Available at: http://www.bepress.com/sagmb/vol5/iss1/art24/.</ref> показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок.
 == MAS 5.0 ==

Фоновая поправка в анализе ДНК-микрочипов

Материал из MachineLearning.

Версия 08:33, 17 мая 2010

Содержание

Ideal mismatch

RMA-свёртка

MAS 5.0

Примечания

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты