Mam do czynienia z problemem wykrywania oszustw (podobnym do punktacji kredytowej). W związku z tym istnieje wysoce niezrównoważony stosunek między fałszywymi i nieuczciwymi obserwacjami.
http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html zapewnia doskonały przegląd różnych wskaźników klasyfikacji. Precision and Recall
lub kappa
oba wydają się być dobrym wyborem:
Jednym ze sposobów uzasadnienia wyników takich klasyfikatorów jest porównanie ich z wynikami klasyfikatorów podstawowych i wykazanie, że są one rzeczywiście lepsze niż przewidywania losowe.
O ile rozumiem, kappa
może być tutaj nieco lepszy wybór, ponieważ brana jest pod uwagę przypadkowa szansa . Z kappa Cohena w prostym języku angielskim rozumiem, że kappa
dotyczy koncepcji zdobywania informacji:
[...] zaobserwowana dokładność na poziomie 80% jest znacznie mniej imponująca z oczekiwaną dokładnością na poziomie 75% w porównaniu z oczekiwaną dokładnością na poziomie 50% [...]
Dlatego moje pytania brzmiałyby:
- Czy słusznie jest założyć,
kappa
że jest to lepsza miara klasyfikacji dla tego problemu? - Czy samo użycie
kappa
zapobiega negatywnym skutkom braku równowagi na algorytmie klasyfikacji? Czy wymagane jest ponowne (zmniejszanie / zwiększanie) pobieranie próbek lub uczenie się oparte na kosztach (patrz http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )?
źródło
Odpowiedzi:
Tak, twoje założenia dotyczące Kappa wydają się słuszne. Kappa jako pojedyncze, skalarne miary jest głównie zaletą w stosunku do innych pojedynczych, skalarnych mierników, takich jak dokładność, które nie będą odzwierciedlać wydajności prognozowania mniejszych klas (w cieniu wydajności znacznie większej klasy). Jak zauważyłeś, Kappa rozwiązuje ten problem bardziej elegancko.
Użycie pomiaru, takiego jak Kappa, do pomiaru wydajności niekoniecznie zwiększy dopasowanie modelu do danych. Można zmierzyć wydajność dowolnego modelu przy użyciu wielu wskaźników, ale sposób dopasowania modelu do danych jest określany przy użyciu innych parametrów (np. Hiperparametrów). Możesz więc użyć np. Kappa do wybrania najlepiej dopasowanego typu modelu i hiperparametryzacji spośród wielu opcji dla swojego bardzo niezrównoważonego problemu - ale samo obliczenie Kappa nie zmieni sposobu, w jaki model pasuje do niezrównoważonych danych.
Dla różnych wskaźników: oprócz Kappa i precyzji / przywołania, spójrz także na prawdziwe dodatnie i prawdziwe ujemne wskaźniki TPR / TNR oraz krzywe ROC i pole pod krzywą AUC. Które z nich są przydatne w twoim problemie, będą zależeć głównie od szczegółów twojego celu. Na przykład różne informacje odzwierciedlone w TPR / TNR i precyzji / przywołaniu: czy Twoim celem jest wysoki odsetek oszustw faktycznie wykrytych jako taki i wysoki odsetek legalnych transakcji jako takich i / lub minimalizacja udziału fałszywych alarmów (które naturalnie dostaniesz „masowo” z takimi problemami) we wszystkich alarmach?
W przypadku próbkowania w górę / w dół: myślę, że nie ma kanonicznej odpowiedzi na „jeśli są one wymagane”. Są bardziej jednym ze sposobów na dostosowanie twojego problemu. Technicznie: tak, możesz ich używać, ale używaj ich ostrożnie, szczególnie upsamplowania (możesz w końcu stworzyć nierealne próbki, nie zauważając tego) - i pamiętaj, że zmiana częstotliwości próbek obu klas na coś nierealnego „na wolności” „może mieć również negatywny wpływ na wydajność prognozowania. Przynajmniej końcowy, trzymany zestaw testowy powinien ponownie odzwierciedlać rzeczywistą częstotliwość próbek. Konkluzja: Widziałem oba przypadki, w których wykonanie próbkowania w górę lub w dół nie przyniosło lepszych wyników końcowych, więc jest to coś, co może być konieczne do wypróbowania (ale nie manipuluj zestawem testowym!) .
źródło
Uwaga: w przypadku niezbilansowanych zestawów danych najlepiej jest uśrednić makro metryki .
źródło
W przypadku niezrównoważonych zestawów danych metryka Średnia precyzja jest czasem lepszą alternatywą dla AUROC. Punktacja AP to obszar pod krzywą precyzji przywołania.
Oto dyskusja z pewnym kodem (Python)
Oto artykuł .
Zobacz także krzywe Precision-Recall-Gain Petera Flacha oraz dyskusję na temat wad krzywych AP.
źródło