PRZEDMOWA: Nie dbam o zalety zastosowania odcięcia lub nie, ani o to, jak należy wybrać odcięcie. Moje pytanie jest czysto matematyczne i wynika z ciekawości.
Regresja logistyczna modeluje prawdopodobieństwo warunkowe tylne klasy A w porównaniu z klasą B i pasuje do hiperpłaszczyzny, w której prawdopodobieństwa warunkowe tylne są równe. Teoretycznie zrozumiałem, że punkt klasyfikacji 0,5 zminimalizuje błędy całkowite niezależnie od ustawionej równowagi, ponieważ modeluje prawdopodobieństwo późniejsze (zakładając, że konsekwentnie napotykasz ten sam stosunek klas).
W moim prawdziwym przykładzie osiągam bardzo słabą dokładność, stosując P> 0,5 jako moją wartość graniczną klasyfikacji (około 51% dokładności). Jednak gdy spojrzałem na AUC, wynosi on powyżej 0,99. Spojrzałem więc na różne wartości odcięcia i stwierdziłem, że P> 0,6 daje mi 98% dokładności (90% dla mniejszej klasy i 99% dla większej klasy) - tylko 2% przypadków błędnie zaklasyfikowanych.
Klasy są mocno niezrównoważone (1: 9) i jest to problem wielowymiarowy. Jednak przypisałem klasy równo do każdego zestawu walidacji krzyżowej, aby nie było różnicy między równowagą klas między dopasowaniem modelu a prognozowaniem. Próbowałem również użyć tych samych danych z dopasowania modelu i prognoz, i wystąpił ten sam problem.
Interesuje mnie powód, dla którego 0,5 nie zminimalizuje błędów, pomyślałem, że byłoby to zgodne z projektem, jeśli model jest dopasowany przez zminimalizowanie utraty entropii.
Czy ktoś ma jakieś uwagi na temat tego, dlaczego tak się dzieje? Czy to z powodu dodania kary, czy ktoś może wyjaśnić, co się dzieje?
Odpowiedzi:
Nie musisz uzyskiwać przewidywanych kategorii z modelu regresji logistycznej. Może być dobrze pozostać z przewidywanymi prawdopodobieństwami. Jeśli dostaniesz przewidywane kategorie, należy nie używać tych informacji do niczego innego niż powiedzieć „ta obserwacja jest najlepiej klasyfikowane do tej kategorii”. Na przykład nie należy używać opcji „dokładność” / procent poprawny, aby wybrać model.
Powiedziawszy te rzeczy, rzadko będzie optymalnym punktem odcięcia dla klasyfikacji obserwacji. Aby zrozumieć intuicyjnie, jak to się mogło stać, wyobraź sobie, że masz z obserwacjami w kategorii dodatniej. Prosty model tylko przechwytujący może łatwo mieć fałszywych negatywów, gdy użyjesz jako wartości odcięcia. Z drugiej strony, jeśli po prostu nazwałeś wszystko dodatnim, miałbyś fałszywie dodatni, ale poprawny..50 N.= 100 99 49 .50 1 99 %
Mówiąc bardziej ogólnie, regresja logistyczna próbuje dopasować prawdziwe prawdopodobieństwo dodatnie do obserwacji w funkcji zmiennych objaśniających. Nie próbuje maksymalizować dokładności poprzez centrowanie przewidywanych prawdopodobieństw wokół wartości granicznej . Jeśli twoja próbka nie jest w dodatnia, nie ma po prostu powodu. maksymalizuje poprawny procent..50 50 % .50
źródło
Myślę, że może to być z wielu powodów:
Być może będziesz musiał kiedyś pobawić się wartością odcięcia, aby zmaksymalizować pożądaną wydajność, taką jak precyzja, dokładność itp. Ponieważ większość populacji nie jest bardzo jednorodna.
źródło