Корреляция Мэтьюса
Материал из MachineLearning.
 (Новая: Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. О...)  | 
				|||
| Строка 1: | Строка 1: | ||
Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение [-1, 1]. Результат 1  соответствует идеальному предсказанию, 0 - ситуации случайного предсказания, -1 - полностью противоположному предсказанию. В литературе так же известна как <tex> \phi </tex>-коэффициент.   | Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение [-1, 1]. Результат 1  соответствует идеальному предсказанию, 0 - ситуации случайного предсказания, -1 - полностью противоположному предсказанию. В литературе так же известна как <tex> \phi </tex>-коэффициент.   | ||
| + | |||
| + | == Определение ==  | ||
Пусть  <tex> D </tex> - бинарный вектор, соответствующий истинной классификации, а   <tex> M </tex> - предсказание некоторого алгоритма. Обозначим за <tex> \overline{M} </tex> отрицание бинарного вектора.  Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов.   | Пусть  <tex> D </tex> - бинарный вектор, соответствующий истинной классификации, а   <tex> M </tex> - предсказание некоторого алгоритма. Обозначим за <tex> \overline{M} </tex> отрицание бинарного вектора.  Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов.   | ||
| Строка 16: | Строка 18: | ||
| TN   | | TN   | ||
|}  | |}  | ||
| - | Это соответвует классическому представлению true positive, false negative, false positive, true negative в результатах классификации.   | + | Это соответвует классическому представлению true positive, false negative, false positive, true negative в результатах классификации [http://en.wikipedia.org/wiki/Template:SensSpecPPVNPV].   | 
Тогда корреляция Мэтьюса определяется следующей формулой:  | Тогда корреляция Мэтьюса определяется следующей формулой:  | ||
| Строка 31: | Строка 33: | ||
<tex>  C(D,M) = \frac {TP/N - S \times P} {\sqrt{PS(1 - S) (1 - P)}} </tex>  | <tex>  C(D,M) = \frac {TP/N - S \times P} {\sqrt{PS(1 - S) (1 - P)}} </tex>  | ||
| + | |||
| + | == Связь с хи-квадрат ==  | ||
Корреляция Мэтьюса связана со статистикой хи-квадрат:   | Корреляция Мэтьюса связана со статистикой хи-квадрат:   | ||
| Строка 36: | Строка 40: | ||
<tex> C^2(D,M)= \frac{\chi^2}{N} </tex>  | <tex> C^2(D,M)= \frac{\chi^2}{N} </tex>  | ||
| - | Пример  | + | == Пример ==  | 
| + | |||
| + | Пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0]. <tex>TP = 2, FN = 2, FP = 1, TN = 1.</tex> Тогда <tex> C(D,M) = 0 </tex>.  | ||
| + | |||
| + | == Источники ==  | ||
Первый раз иформация появилась  в статье "Comparison of the predicted and observed secondary structure of T4 phage lysozyme" в журнале "Biochim. Biophys. Acta 1975" , автор Matthews.  | Первый раз иформация появилась  в статье "Comparison of the predicted and observed secondary structure of T4 phage lysozyme" в журнале "Biochim. Biophys. Acta 1975" , автор Matthews.  | ||
| - | + | Определение: [http://bioinformatics.oxfordjournals.org/content/16/5/412.full.pdf+html  Assessing the accuracy of prediction algorithms for classification: an overview.]  | |
Реализации: [http://www.mathworks.com/matlabcentral/fileexchange/44064-matthews-correlation-coefficient Matlab] [http://rocr.bioinf.mpi-sb.mpg.de R (phi)]  | Реализации: [http://www.mathworks.com/matlabcentral/fileexchange/44064-matthews-correlation-coefficient Matlab] [http://rocr.bioinf.mpi-sb.mpg.de R (phi)]  | ||
Версия 00:01, 3 декабря 2013
Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение [-1, 1]. Результат 1  соответствует идеальному предсказанию, 0 - ситуации случайного предсказания, -1 - полностью противоположному предсказанию. В литературе так же известна как -коэффициент. 
Содержание | 
Определение
Пусть   - бинарный вектор, соответствующий истинной классификации, а   
 - предсказание некоторого алгоритма. Обозначим за 
 отрицание бинарного вектора.  Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов. 
|    |    | |
|---|---|---|
|   | TP | FN | 
|   | FP | TN | 
Это соответвует классическому представлению true positive, false negative, false positive, true negative в результатах классификации [1].
Тогда корреляция Мэтьюса определяется следующей формулой:
.
Можно записать формулу в более удобном виде, если ввести ряд обозначений.
Связь с хи-квадрат
Корреляция Мэтьюса связана со статистикой хи-квадрат:
Пример
Пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0].  Тогда 
.
Источники
Первый раз иформация появилась в статье "Comparison of the predicted and observed secondary structure of T4 phage lysozyme" в журнале "Biochim. Biophys. Acta 1975" , автор Matthews.
Определение: Assessing the accuracy of prediction algorithms for classification: an overview.

