Mam pytanie dotyczące klasyfikacji w ogóle. Niech f będzie klasyfikatorem, który generuje zbiór prawdopodobieństw przy danych danych D. Normalnie można by powiedzieć: cóż, jeśli P (c | D)> 0,5, przypiszemy klasę 1, w przeciwnym razie 0 (niech to będzie binarna Klasyfikacja).
Moje pytanie brzmi: co, jeśli się dowiem, że jeśli sklasyfikuję jako 1 również prawdopodobieństwo większe niż: tj. 0,2, klasyfikator będzie działał lepiej. Czy uzasadnione jest zatem stosowanie tego nowego progu podczas klasyfikacji?
Zinterpretowałbym konieczność niższej klasyfikacji związanej z danymi emitującymi mniejszy sygnał; ale nadal znaczące dla problemu klasyfikacji.
Zdaję sobie sprawę, że jest to jeden ze sposobów, aby to zrobić, ale jeśli nie jest to prawidłowe myślenie, jakie byłyby niektóre transformacje danych, które podkreślają poszczególne cechy w podobny sposób, aby próg mógł pozostać na poziomie 0,5?
źródło
Odpowiedzi:
Frank Harrell napisał o tym na swoim blogu: Klasyfikacja kontra przewidywanie , z którym całkowicie się zgadzam.
Zasadniczo jego argumentem jest to, że element statystyczny twojego ćwiczenia kończy się, gdy podajesz prawdopodobieństwo dla każdej klasy nowej próbki. Wybór progu, powyżej którego klasyfikujesz nową obserwację jako 1 do 0, nie jest już częścią statystyk . Jest to część komponentu decyzyjnego . A tutaj potrzebujesz probabilistycznych danych wyjściowych swojego modelu - ale także rozważań takich jak:
Tak więc, aby odpowiedzieć na twoje pytanie: porozmawiaj z konsumentem końcowym swojej klasyfikacji i uzyskaj odpowiedzi na powyższe pytania. Lub wytłumacz swojemu probabilistycznemu wynikowi jej i jemu i pozwól jej przejść przez kolejne kroki.
źródło
Odpowiedź Stephana jest świetna. Zasadniczo zależy od tego, co chcesz zrobić z klasyfikatorem.
Wystarczy dodać kilka przykładów.
Sposobem na znalezienie najlepszego progu jest zdefiniowanie funkcji celu. W przypadku klasyfikacji binarnej może to być na przykład dokładność lub wynik F1. W zależności od tego, który wybierzesz, najlepszy próg będzie inny. W przypadku wyniku F1 istnieje ciekawa odpowiedź: co to jest próg optymalny F1? Jak to obliczyć? . Ale powiedzenie „Chcę użyć wyniku F1” jest miejscem, w którym faktycznie dokonujesz wyboru. To, czy ten wybór jest dobry, czy nie, zależy od ostatecznego celu.
Innym sposobem, aby to zobaczyć, jest kompromis między eksploracją a eksploatacją (ostatni punkt Stephana): Wieloręki bandyta jest przykładem takiego problemu: musisz poradzić sobie z dwoma sprzecznymi celami pozyskiwania informacji i wyboru najlepszego bandyty . Jedną strategią bayesowską jest losowy wybór każdego bandyty z prawdopodobieństwem, że jest najlepszy. Nie jest to dokładnie klasyfikacja, ale podejście do prawdopodobieństw wyjściowych w podobny sposób.
Jeśli klasyfikator jest tylko jedną cegłą w algorytmie decyzyjnym, najlepszy próg będzie zależał od ostatecznego celu algorytmu. Należy to ocenić i dostroić w odniesieniu do funkcji celu całego procesu.
źródło
Być może istnieje pewna wartość w rozważaniu sposobu obliczania prawdopodobieństwa. Obecnie Klasyfikatory używają wektora polaryzacji, który jest mnożony przez macierz (algebra liniowa). Dopóki w wektorze są jakieś niezerowe wartości, prawdopodobieństwo (iloczyn wektora i macierzy) nigdy nie będzie wynosić 0.
To powoduje zamieszanie w prawdziwym świecie ludzi, którzy nie przyjęli algebry liniowej. Niepokoi ich fakt, że istnieją wyniki prawdopodobieństwa dla elementów, które ich zdaniem powinny mieć 0. Innymi słowy, mylą dane statystyczne z decyzji opartej na tych danych wejściowych. Jako ludzie możemy powiedzieć, że coś z prawdopodobieństwem 0,0002234 jest takie samo jak 0, w większości „praktycznych” przypadków użycia. W dyskusjach na temat wyższych nauk kognitywnych może być ciekawa dyskusja na temat tego, dlaczego wektor stronniczości to robi, a raczej jest tak ważny w zastosowaniach poznawczych.
źródło
Nie ma złego progu. Próg, który wybierzesz, zależy od celu w Twojej prognozie, a raczej od tego, co chcesz faworyzować, na przykład precyzji w porównaniu z wycofaniem (spróbuj go zobrazować i zmierzyć powiązane AUC, aby porównać różne wybrane przez ciebie modele klasyfikacji).
Podaję ten przykład precyzji vs przypominania, ponieważ mój własny problem, nad którym teraz pracuję, wybieram mój próg w zależności od minimalnej precyzji (lub dodatniej wartości predykcyjnej PPV), którą chcę mieć w swoim modelu podczas przewidywania, ale ja nie przejmują się zbytnio negatywami. Jako taki wybieram próg, który odpowiada pożądanej precyzji po wyszkoleniu mojego modelu. Precyzja jest moim ograniczeniem, a Recall to wydajność mojego modelu w porównaniu z innymi modelami klasyfikacyjnymi.
źródło