Wskaźniki klasyfikacji / oceny dla wysoce niezrównoważonych danych

22

Mam do czynienia z problemem wykrywania oszustw (podobnym do punktacji kredytowej). W związku z tym istnieje wysoce niezrównoważony stosunek między fałszywymi i nieuczciwymi obserwacjami.

http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html zapewnia doskonały przegląd różnych wskaźników klasyfikacji. Precision and Recalllub kappaoba wydają się być dobrym wyborem:

Jednym ze sposobów uzasadnienia wyników takich klasyfikatorów jest porównanie ich z wynikami klasyfikatorów podstawowych i wykazanie, że są one rzeczywiście lepsze niż przewidywania losowe.

O ile rozumiem, kappamoże być tutaj nieco lepszy wybór, ponieważ brana jest pod uwagę przypadkowa szansa . Z kappa Cohena w prostym języku angielskim rozumiem, że kappadotyczy koncepcji zdobywania informacji:

[...] zaobserwowana dokładność na poziomie 80% jest znacznie mniej imponująca z oczekiwaną dokładnością na poziomie 75% w porównaniu z oczekiwaną dokładnością na poziomie 50% [...]

Dlatego moje pytania brzmiałyby:

  • Czy słusznie jest założyć, kappaże jest to lepsza miara klasyfikacji dla tego problemu?
  • Czy samo użycie kappazapobiega negatywnym skutkom braku równowagi na algorytmie klasyfikacji? Czy wymagane jest ponowne (zmniejszanie / zwiększanie) pobieranie próbek lub uczenie się oparte na kosztach (patrz http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )?
Georg Heiler
źródło
próbkowanie danych w górę / w dół jest czymś, co powinieneś zrobić, gdy dane szkoleniowe są niezrównoważone i mogą czasem pomóc w zapobieganiu ignorowaniu przez klasyfikatory klas mniejszości. Niewłaściwe (i nieco oszukańcze) wykorzystywanie danych o ponownej próbce podczas oceny klasyfikatora - będziesz zgłaszać wydajność, której Twój klasyfikator nie osiąga, gdy zostanie zastosowany w próbce identycznie rozprowadzonej na oryginalnych danych testowych.
user48956
Powiązane: stats.stackexchange.com/questions/284515/…
Anton Tarasenko

Odpowiedzi:

10

Tak, twoje założenia dotyczące Kappa wydają się słuszne. Kappa jako pojedyncze, skalarne miary jest głównie zaletą w stosunku do innych pojedynczych, skalarnych mierników, takich jak dokładność, które nie będą odzwierciedlać wydajności prognozowania mniejszych klas (w cieniu wydajności znacznie większej klasy). Jak zauważyłeś, Kappa rozwiązuje ten problem bardziej elegancko.

Użycie pomiaru, takiego jak Kappa, do pomiaru wydajności niekoniecznie zwiększy dopasowanie modelu do danych. Można zmierzyć wydajność dowolnego modelu przy użyciu wielu wskaźników, ale sposób dopasowania modelu do danych jest określany przy użyciu innych parametrów (np. Hiperparametrów). Możesz więc użyć np. Kappa do wybrania najlepiej dopasowanego typu modelu i hiperparametryzacji spośród wielu opcji dla swojego bardzo niezrównoważonego problemu - ale samo obliczenie Kappa nie zmieni sposobu, w jaki model pasuje do niezrównoważonych danych.

Dla różnych wskaźników: oprócz Kappa i precyzji / przywołania, spójrz także na prawdziwe dodatnie i prawdziwe ujemne wskaźniki TPR / TNR oraz krzywe ROC i pole pod krzywą AUC. Które z nich są przydatne w twoim problemie, będą zależeć głównie od szczegółów twojego celu. Na przykład różne informacje odzwierciedlone w TPR / TNR i precyzji / przywołaniu: czy Twoim celem jest wysoki odsetek oszustw faktycznie wykrytych jako taki i wysoki odsetek legalnych transakcji jako takich i / lub minimalizacja udziału fałszywych alarmów (które naturalnie dostaniesz „masowo” z takimi problemami) we wszystkich alarmach?

W przypadku próbkowania w górę / w dół: myślę, że nie ma kanonicznej odpowiedzi na „jeśli są one wymagane”. Są bardziej jednym ze sposobów na dostosowanie twojego problemu. Technicznie: tak, możesz ich używać, ale używaj ich ostrożnie, szczególnie upsamplowania (możesz w końcu stworzyć nierealne próbki, nie zauważając tego) - i pamiętaj, że zmiana częstotliwości próbek obu klas na coś nierealnego „na wolności” „może mieć również negatywny wpływ na wydajność prognozowania. Przynajmniej końcowy, trzymany zestaw testowy powinien ponownie odzwierciedlać rzeczywistą częstotliwość próbek. Konkluzja: Widziałem oba przypadki, w których wykonanie próbkowania w górę lub w dół nie przyniosło lepszych wyników końcowych, więc jest to coś, co może być konieczne do wypróbowania (ale nie manipuluj zestawem testowym!) .

przedawkowanie
źródło
Ale czy podejście oparte na kosztach, takie jak DOI 10.1109 / ICMLA.2014.48, jest bardziej odpowiednie, ponieważ brany jest pod uwagę ogólny wpływ na działalność?
Georg Heiler,
15

T.P.faP.faN.

  • Wynik F1 , który jest średnią harmoniczną z precyzją i wycofania .
  • G-miara , która jest średnią geometryczną z precyzją i wycofania . W porównaniu z F1 okazało się, że jest trochę lepiej w przypadku niezrównoważonych danych.
  • T.P./(T.P.+faP.+faN.)

Uwaga: w przypadku niezbilansowanych zestawów danych najlepiej jest uśrednić makro metryki .

Johnson
źródło
1
Co rozumiesz przez „lepszy”, odnosząc się do miary G i indeksu Jaccard?
Narfanar
8

W przypadku niezrównoważonych zestawów danych metryka Średnia precyzja jest czasem lepszą alternatywą dla AUROC. Punktacja AP to obszar pod krzywą precyzji przywołania.

Oto dyskusja z pewnym kodem (Python)

Oto artykuł .

Zobacz także krzywe Precision-Recall-Gain Petera Flacha oraz dyskusję na temat wad krzywych AP.

użytkownik48956
źródło