Próbuję stworzyć detektor obiektów, które występują bardzo rzadko (na zdjęciach), planując użyć binarnego klasyfikatora CNN stosowanego w przesuwanym / zmienianym oknie. Skonstruowałem zbalansowane zestawy treningów i testów dodatnich i ujemnych 1: 1 (czy w takim przypadku dobrze jest to zrobić btw?), A klasyfikator ma się dobrze na zestawie testowym pod względem dokładności. Teraz chcę kontrolować przywołanie / precyzję mojego klasyfikatora, aby na przykład nie oznaczał on zbyt wiele większości przypadków wystąpienia klasy.
Oczywistym (jak dla mnie) rozwiązaniem jest użycie tej samej straty logistycznej, która jest teraz stosowana, ale błędy wagi typu I i typu II różnią się poprzez pomnożenie straty w jednym z dwóch przypadków na pewnej stałej, którą można dostroić. Czy to jest poprawne?
PS Z drugiej strony jest to równoważne z ważeniem niektórych próbek treningowych bardziej niż innych. Myślę, że dodanie tylko jednej klasy pozwoli osiągnąć to samo.
Odpowiedzi:
Sztuczne konstruowanie zbilansowanego zestawu treningowego jest dyskusyjne, a właściwie dość kontrowersyjne. Jeśli to zrobisz, powinieneś empirycznie sprawdzić, czy to naprawdę działa lepiej niż pozostawić zestaw treningowy niezrównoważony. Sztuczne wyważenie zestawu testowego prawie nigdy nie jest dobrym pomysłem. Zestaw testowy powinien reprezentować nowe punkty danych, gdy wchodzą bez etykiet. Oczekujesz, że będą niezrównoważone, więc musisz wiedzieć, czy Twój model może obsłużyć niezrównoważony zestaw testów. (Jeśli nie spodziewasz się, że nowe rekordy będą niezrównoważone, dlaczego wszystkie istniejące rekordy są niezrównoważone?)
Jeśli chodzi o wskaźnik wydajności, zawsze otrzymasz to, o co prosisz. Jeśli dokładność nie jest tym, czego potrzebujesz przede wszystkim w zbalansowanym zestawie, ponieważ nie tylko klasy, ale także koszty błędnej klasyfikacji są niezrównoważone, nie używaj go. Jeśli użyłeś dokładności jako metryki i wykonałeś cały wybór modelu i dostrajanie hiperparametrów, zawsze biorąc ten z najlepszą dokładnością, optymalizujesz pod kątem dokładności.
Uważam klasę mniejszości za klasę pozytywną, to konwencjonalny sposób nazywania ich. Zatem precyzja i przywołanie, jak omówiono poniżej, są precyzją i przywołaniem klasy mniejszości.
źródło
Robisz kilka założeń. Najlepiej jest pomyśleć o ostatecznym celu w kategoriach ogólnych, a następnie sformułować strategię, która spełnia ten cel. Na przykład, czy naprawdę potrzebujesz klasyfikacji wymuszonego wyboru i czy stosunek sygnału do szumu jest wystarczająco duży, aby to obsługiwać (dobre przykłady: rozpoznawanie dźwięku i obrazu)? A może stosunek sygnału do szumu jest niski, czy interesują Cię tendencje ? W tym drugim przypadku oszacowanie ryzyka jest dla Ciebie. Wybór jest kluczowy i decyduje o wybranej metodzie dokładności predykcyjnej. Więcej informacji na ten temat można znaleźć na stronie http://www.fharrell.com/2017/01/classification-vs-prediction.html i http://www.fharrell.com/2017/03/damage-caused-by-classification .html .
Większość problemów dotyczy podejmowania decyzji , a optymalne decyzje wynikają z oszacowania ryzyka w połączeniu z funkcją straty / kosztu / użyteczności.
Jednym z najlepszych aspektów metody szacowania ryzyka (prawdopodobieństwa) jest to, że obsługuje szare strefy, w których błędem byłoby dokonać klasyfikacji lub decyzji bez uzyskiwania większej ilości danych. A potem jest fakt, że oszacowanie prawdopodobieństwa nie wymaga (a nawet nie pozwala) „zbalansować” wyników poprzez sztuczne manipulowanie próbką.
źródło
źródło