Обсуждение:Задача предсказания отклика клиентов ОТП Банка (конкурс)
Материал из MachineLearning.
 (Новая: Задача представляется интересной и очень удачной в качестве предмета для конкурса.  Только есть неко...)  | 
				м  (→Вроде бы несоответствие:  Новая тема)  | 
			||
| (2 промежуточные версии не показаны) | |||
| Строка 2: | Строка 2: | ||
Только есть некоторая неоднозначность в критерии оценивания результата, т.е. в вычислении площади под ROC-кривой.  | Только есть некоторая неоднозначность в критерии оценивания результата, т.е. в вычислении площади под ROC-кривой.  | ||
| + | Поскольку ROC-"кривая" - это на самом деле дискретный набор точек, для вычисления площади под ней нужна аппроксимация (интерполяция).  | ||
| + | Здесь могут быть варианты: например трапециями или прямоугольниками.  | ||
| + | Немного поискав по Интернету, я так и не нашёл, какой из вариантов принят как канонический.  | ||
| + | Видимо, на такие детали не обращают внимания, поскольку в тех случаях, когда эту кривую строят, различие обычно несущественно.  | ||
| + | Но применительно к конкурсу ситуация другая.  | ||
| + | |||
В условиях конкурса не сказано, что все оценки вероятности на объектах выборки должны быть различными.  | В условиях конкурса не сказано, что все оценки вероятности на объектах выборки должны быть различными.  | ||
В частности, допустимо использовать только два значения: например 0 и 1. В этом случае ROC-кривая состоит всего из трёх точек (две из которых фиксированы - крайние, т.е. "информативная" точка всего одна).  | В частности, допустимо использовать только два значения: например 0 и 1. В этом случае ROC-кривая состоит всего из трёх точек (две из которых фиксированы - крайние, т.е. "информативная" точка всего одна).  | ||
Поскольку "кривая" на самом деле дискретна, естественно соединить её точки ломаной, т.е площадь вычислять через трапеции.  | Поскольку "кривая" на самом деле дискретна, естественно соединить её точки ломаной, т.е площадь вычислять через трапеции.  | ||
| - | Но в алгоритме, опубликованном здесь, площадь вычисляется через аппроксимацию прямоугольниками. Для описанного примера (только двух различных оценок вероятности) результат по трапециям и по прямоугольникам кардинально различается.  | + | Но в алгоритме, опубликованном здесь (в статье про ROC-кривую), площадь вычисляется через аппроксимацию прямоугольниками. Для описанного примера (только двух различных оценок вероятности) результат по трапециям и по прямоугольникам кардинально различается.  | 
Собственно, вопрос в том, какой из них будет использован.  | Собственно, вопрос в том, какой из них будет использован.  | ||
| - | |||
Кроме того, алгоритм предполагает вообще строгую упорядоченность точек по оценкам вероятности, и для других случаев приходится домысливать возможные варианты.  | Кроме того, алгоритм предполагает вообще строгую упорядоченность точек по оценкам вероятности, и для других случаев приходится домысливать возможные варианты.  | ||
| - | Желательно было бы уточнить метод вычисления площади под ROC-кривой для "вырожденных" случаев, достаточно для случая всего двух разных значений оценки.  | + | Желательно было бы уточнить метод вычисления площади под ROC-кривой для "вырожденных" случаев, достаточно для случая всего двух разных значений оценки. Или просто указать способ аппроксимации.  | 
Причём речь не идёт о "разумности" использования в данном конкурсе таких "вырожденных" методов. Скорее всего, при прочих равных, такие методы дадут худшие результаты. Но эти методы не запрещены правилами, и вопрос имеет смысл.  | Причём речь не идёт о "разумности" использования в данном конкурсе таких "вырожденных" методов. Скорее всего, при прочих равных, такие методы дадут худшие результаты. Но эти методы не запрещены правилами, и вопрос имеет смысл.  | ||
 [[Участник:Nvm|В.М. Неделько]] 13:55, 28 июля 2011 (MSD)  |  [[Участник:Nvm|В.М. Неделько]] 13:55, 28 июля 2011 (MSD)  | ||
| + | |||
| + | |||
| + | Кто-нибудь смотрел задачу?  | ||
| + | Пока не получается добиться, чтобы AUC была дольше 70%.  | ||
| + | |||
| + | Кстати, сегодня не смог зарегистрироваться на "Полигоне" - пишет "Внутренняя ошибка работы сайта".  | ||
| + | Попробую завтра...  | ||
| + |  [[Участник:Dj|Дь-ов]] 00:51, 24 августа 2011 (MSD)  | ||
| + | |||
| + | == Вроде бы несоответствие ==  | ||
| + | |||
| + | <blockquote>Для оценивания качества алгоритма на «Выборке Б» участник предоставляет csv-файл, строки которого в точности соответствуют строкам csv-файла «Выборки Б», а единственный столбец содержит вещественные оценки принадлежности клиентов классу 1.</blockquote>  | ||
| + | |||
| + | А ведь в архивах xls-файлы, а не csv...  | ||
| + | или я не прав?  | ||
| + |  [[Участник:Dj|Дь-ов]] 00:24, 27 августа 2011 (MSD)  | ||
Текущая версия
Задача представляется интересной и очень удачной в качестве предмета для конкурса.
Только есть некоторая неоднозначность в критерии оценивания результата, т.е. в вычислении площади под ROC-кривой. Поскольку ROC-"кривая" - это на самом деле дискретный набор точек, для вычисления площади под ней нужна аппроксимация (интерполяция). Здесь могут быть варианты: например трапециями или прямоугольниками. Немного поискав по Интернету, я так и не нашёл, какой из вариантов принят как канонический. Видимо, на такие детали не обращают внимания, поскольку в тех случаях, когда эту кривую строят, различие обычно несущественно. Но применительно к конкурсу ситуация другая.
В условиях конкурса не сказано, что все оценки вероятности на объектах выборки должны быть различными. В частности, допустимо использовать только два значения: например 0 и 1. В этом случае ROC-кривая состоит всего из трёх точек (две из которых фиксированы - крайние, т.е. "информативная" точка всего одна). Поскольку "кривая" на самом деле дискретна, естественно соединить её точки ломаной, т.е площадь вычислять через трапеции. Но в алгоритме, опубликованном здесь (в статье про ROC-кривую), площадь вычисляется через аппроксимацию прямоугольниками. Для описанного примера (только двух различных оценок вероятности) результат по трапециям и по прямоугольникам кардинально различается. Собственно, вопрос в том, какой из них будет использован. Кроме того, алгоритм предполагает вообще строгую упорядоченность точек по оценкам вероятности, и для других случаев приходится домысливать возможные варианты.
Желательно было бы уточнить метод вычисления площади под ROC-кривой для "вырожденных" случаев, достаточно для случая всего двух разных значений оценки. Или просто указать способ аппроксимации.
Причём речь не идёт о "разумности" использования в данном конкурсе таких "вырожденных" методов. Скорее всего, при прочих равных, такие методы дадут худшие результаты. Но эти методы не запрещены правилами, и вопрос имеет смысл.
В.М. Неделько 13:55, 28 июля 2011 (MSD)
Кто-нибудь смотрел задачу?
Пока не получается добиться, чтобы AUC была дольше 70%.
Кстати, сегодня не смог зарегистрироваться на "Полигоне" - пишет "Внутренняя ошибка работы сайта". Попробую завтра...
Дь-ов 00:51, 24 августа 2011 (MSD)
Вроде бы несоответствие
Для оценивания качества алгоритма на «Выборке Б» участник предоставляет csv-файл, строки которого в точности соответствуют строкам csv-файла «Выборки Б», а единственный столбец содержит вещественные оценки принадлежности клиентов классу 1.
А ведь в архивах xls-файлы, а не csv... или я не прав?
Дь-ов 00:24, 27 августа 2011 (MSD)

