Próg prawdopodobieństwa klasyfikacji

49

Mam pytanie dotyczące klasyfikacji w ogóle. Niech f będzie klasyfikatorem, który generuje zbiór prawdopodobieństw przy danych danych D. Normalnie można by powiedzieć: cóż, jeśli P (c | D)> 0,5, przypiszemy klasę 1, w przeciwnym razie 0 (niech to będzie binarna Klasyfikacja).

Moje pytanie brzmi: co, jeśli się dowiem, że jeśli sklasyfikuję jako 1 również prawdopodobieństwo większe niż: tj. 0,2, klasyfikator będzie działał lepiej. Czy uzasadnione jest zatem stosowanie tego nowego progu podczas klasyfikacji?

Zinterpretowałbym konieczność niższej klasyfikacji związanej z danymi emitującymi mniejszy sygnał; ale nadal znaczące dla problemu klasyfikacji.

Zdaję sobie sprawę, że jest to jeden ze sposobów, aby to zrobić, ale jeśli nie jest to prawidłowe myślenie, jakie byłyby niektóre transformacje danych, które podkreślają poszczególne cechy w podobny sposób, aby próg mógł pozostać na poziomie 0,5?

sdgaw erzswer
źródło
8
Masz już doskonałą odpowiedź, więc powiem tylko: twoje „normalnie” nie jest normalne, które powinno być normalne. Nie jestem pewien, gdzie „próg 0,5” stał się standardem, i wiem, że istnieje pewne, poza tym doskonałe oprogramowanie, które zachęca do tego pomysłu, ale ogólnie jest to bardzo słaba praktyka.
Matthew Drury,
1
@MatthewDrury: chyba że wynik jest dobrze skalibrowanym odpowiednim prawdopodobieństwem tylnym, że nie popełni żadnego ważnego błędu (ten ostatni zająłby się różnymi kosztami błędnej klasyfikacji).
cbeleites obsługuje Monikę

Odpowiedzi:

68

Frank Harrell napisał o tym na swoim blogu: Klasyfikacja kontra przewidywanie , z którym całkowicie się zgadzam.

Zasadniczo jego argumentem jest to, że element statystyczny twojego ćwiczenia kończy się, gdy podajesz prawdopodobieństwo dla każdej klasy nowej próbki. Wybór progu, powyżej którego klasyfikujesz nową obserwację jako 1 do 0, nie jest już częścią statystyk . Jest to część komponentu decyzyjnego . A tutaj potrzebujesz probabilistycznych danych wyjściowych swojego modelu - ale także rozważań takich jak:

  • Jakie są konsekwencje podjęcia decyzji o potraktowaniu nowej obserwacji jako klasy 1 vs. 0? Czy następnie wysyłam tanią pocztę marketingową do wszystkich 1? Czy też stosuję inwazyjne leczenie raka z dużymi skutkami ubocznymi?
  • Jakie są konsekwencje traktowania „prawdziwej” 0 jako 1 i odwrotnie? Czy odznaczę klienta? Poddać kogoś niepotrzebnemu leczeniu?
  • Czy moje „klasy” są naprawdę dyskretne? Czy też istnieje kontinuum (np. Ciśnienie krwi), gdzie progi kliniczne są w rzeczywistości tylko skrótami poznawczymi? Jeśli tak, to jak daleko przekraczam próg w przypadku, gdy „klasyfikuję” teraz?
  • A może małe, ale dodatnie prawdopodobieństwo bycia klasą 1 oznacza „zdobądź więcej danych”, „przeprowadź kolejny test”?

Tak więc, aby odpowiedzieć na twoje pytanie: porozmawiaj z konsumentem końcowym swojej klasyfikacji i uzyskaj odpowiedzi na powyższe pytania. Lub wytłumacz swojemu probabilistycznemu wynikowi jej i jemu i pozwól jej przejść przez kolejne kroki.

S. Kolassa - Przywróć Monikę
źródło
1
Dziękuję bardzo za tę wnikliwą odpowiedź. Będę dalej badał sam problem - jestem pewien, że mogę w jakiś sposób przekonwertować tę właściwość na część dotyczącą statystycznego uczenia się.
sdgaw erzswer
Wow, chciałbym móc coś do tego dodać, ale nie mam nic, wybitna odpowiedź!
the_SJC
4
Bardzo dobra odpowiedź: pytania są na miejscu! Jednak mój zawód jest po stronie aplikacji, niezależnie od tego, czy znalezienie progu decyzyjnego nazywa się statystykami, czy nie - to w pełni wchodzi w zakres moich obowiązków zawodowych ... A dla mnie jest to część modelu, podobnie jak „przetwarzanie wstępne” jest częścią model - również z tego powodu, że wszystkie te decyzje muszą zostać uwzględnione w procesie walidacji.
cbeleites obsługuje Monikę
11

Odpowiedź Stephana jest świetna. Zasadniczo zależy od tego, co chcesz zrobić z klasyfikatorem.

Wystarczy dodać kilka przykładów.

Sposobem na znalezienie najlepszego progu jest zdefiniowanie funkcji celu. W przypadku klasyfikacji binarnej może to być na przykład dokładność lub wynik F1. W zależności od tego, który wybierzesz, najlepszy próg będzie inny. W przypadku wyniku F1 istnieje ciekawa odpowiedź: co to jest próg optymalny F1? Jak to obliczyć? . Ale powiedzenie „Chcę użyć wyniku F1” jest miejscem, w którym faktycznie dokonujesz wyboru. To, czy ten wybór jest dobry, czy nie, zależy od ostatecznego celu.

Innym sposobem, aby to zobaczyć, jest kompromis między eksploracją a eksploatacją (ostatni punkt Stephana): Wieloręki bandyta jest przykładem takiego problemu: musisz poradzić sobie z dwoma sprzecznymi celami pozyskiwania informacji i wyboru najlepszego bandyty . Jedną strategią bayesowską jest losowy wybór każdego bandyty z prawdopodobieństwem, że jest najlepszy. Nie jest to dokładnie klasyfikacja, ale podejście do prawdopodobieństw wyjściowych w podobny sposób.

Jeśli klasyfikator jest tylko jedną cegłą w algorytmie decyzyjnym, najlepszy próg będzie zależał od ostatecznego celu algorytmu. Należy to ocenić i dostroić w odniesieniu do funkcji celu całego procesu.

Benoit Sanchez
źródło
Dziękuję za kolejną świetną odpowiedź. Jeśli dobrze rozumiem, jeśli mam do czynienia z ostatnim krokiem w przygotowaniu, całkowicie uzasadniona jest bezpośrednia optymalizacja progu.
sdgaw erzswer
@sdgawerzswer: tak. I a) upewnij się, że zoptymalizowałeś odpowiedź na właściwe pytanie oraz b) upewnij się, że zweryfikowałeś tę decyzję (i ustalenie progu) wraz z resztą modelu.
cbeleites obsługuje Monikę
3

Być może istnieje pewna wartość w rozważaniu sposobu obliczania prawdopodobieństwa. Obecnie Klasyfikatory używają wektora polaryzacji, który jest mnożony przez macierz (algebra liniowa). Dopóki w wektorze są jakieś niezerowe wartości, prawdopodobieństwo (iloczyn wektora i macierzy) nigdy nie będzie wynosić 0.

To powoduje zamieszanie w prawdziwym świecie ludzi, którzy nie przyjęli algebry liniowej. Niepokoi ich fakt, że istnieją wyniki prawdopodobieństwa dla elementów, które ich zdaniem powinny mieć 0. Innymi słowy, mylą dane statystyczne z decyzji opartej na tych danych wejściowych. Jako ludzie możemy powiedzieć, że coś z prawdopodobieństwem 0,0002234 jest takie samo jak 0, w większości „praktycznych” przypadków użycia. W dyskusjach na temat wyższych nauk kognitywnych może być ciekawa dyskusja na temat tego, dlaczego wektor stronniczości to robi, a raczej jest tak ważny w zastosowaniach poznawczych.

Kameron Cole
źródło
2

Nie ma złego progu. Próg, który wybierzesz, zależy od celu w Twojej prognozie, a raczej od tego, co chcesz faworyzować, na przykład precyzji w porównaniu z wycofaniem (spróbuj go zobrazować i zmierzyć powiązane AUC, aby porównać różne wybrane przez ciebie modele klasyfikacji).

Podaję ten przykład precyzji vs przypominania, ponieważ mój własny problem, nad którym teraz pracuję, wybieram mój próg w zależności od minimalnej precyzji (lub dodatniej wartości predykcyjnej PPV), którą chcę mieć w swoim modelu podczas przewidywania, ale ja nie przejmują się zbytnio negatywami. Jako taki wybieram próg, który odpowiada pożądanej precyzji po wyszkoleniu mojego modelu. Precyzja jest moim ograniczeniem, a Recall to wydajność mojego modelu w porównaniu z innymi modelami klasyfikacyjnymi.

Alex F.
źródło