Корреляция Мэтьюса
Материал из MachineLearning.
Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение на интервале [-1, 1]. Значение 1 соответствует идеальному предсказанию, 0 — ситуации случайного предсказания, -1 — полностью противоположному предсказанию. В литературе так же известна как –коэффициент. 
Содержание | 
Определение
Пусть   — бинарный вектор, соответствующий истинной классификации, а 
 — предсказание некоторого алгоритма. Обозначим за 
 отрицание бинарного вектора.  Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов. 
TP FN FP TN 
Это соответвует классическому представлению true positive, false negative, false positive, true negative в результатах классификации [1].
Тогда корреляция Мэтьюса определяется следующей формулой:
.
Можно записать формулу в более удобном виде, если ввести ряд обозначений:
,
,
,
.
Связь со статистикой хи-квадрат
Корреляция Мэтьюса связана со статистикой хи-квадрат для таблицы сопряжённости : 
.
Пример
Пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0].  Тогда 
.
Ссылки
- Matthews, B.W. (1975). Comparison of the predicted and observed secondary structure of T4 phage lysozyme. Biochimica et Biophysica Acta (BBA) - Protein Structure, 405(2), 442-451. http://dx.doi.org/10.1016/0005-2795(75)90109-9.
 - Baldi, P., Brunak, S., Chauvin, Y., Andersen, C.A.F., Nielsen, H. (2000). Assessing the accuracy of prediction algorithms for classification: an overview. Bioinformatics, 16(5), 412-424. http://dx.doi.org/10.1093/bioinformatics/16.5.412.
 - Реализация в Matlab.
 - Реализация в R (пакет ROCR, функция perfomance).
 

