Dlaczego odcięcie P> 0,5 nie jest „optymalne” dla regresji logistycznej?

13

PRZEDMOWA: Nie dbam o zalety zastosowania odcięcia lub nie, ani o to, jak należy wybrać odcięcie. Moje pytanie jest czysto matematyczne i wynika z ciekawości.

Regresja logistyczna modeluje prawdopodobieństwo warunkowe tylne klasy A w porównaniu z klasą B i pasuje do hiperpłaszczyzny, w której prawdopodobieństwa warunkowe tylne są równe. Teoretycznie zrozumiałem, że punkt klasyfikacji 0,5 zminimalizuje błędy całkowite niezależnie od ustawionej równowagi, ponieważ modeluje prawdopodobieństwo późniejsze (zakładając, że konsekwentnie napotykasz ten sam stosunek klas).

W moim prawdziwym przykładzie osiągam bardzo słabą dokładność, stosując P> 0,5 jako moją wartość graniczną klasyfikacji (około 51% dokładności). Jednak gdy spojrzałem na AUC, wynosi on powyżej 0,99. Spojrzałem więc na różne wartości odcięcia i stwierdziłem, że P> 0,6 daje mi 98% dokładności (90% dla mniejszej klasy i 99% dla większej klasy) - tylko 2% przypadków błędnie zaklasyfikowanych.

Klasy są mocno niezrównoważone (1: 9) i jest to problem wielowymiarowy. Jednak przypisałem klasy równo do każdego zestawu walidacji krzyżowej, aby nie było różnicy między równowagą klas między dopasowaniem modelu a prognozowaniem. Próbowałem również użyć tych samych danych z dopasowania modelu i prognoz, i wystąpił ten sam problem.

Interesuje mnie powód, dla którego 0,5 nie zminimalizuje błędów, pomyślałem, że byłoby to zgodne z projektem, jeśli model jest dopasowany przez zminimalizowanie utraty entropii.

Czy ktoś ma jakieś uwagi na temat tego, dlaczego tak się dzieje? Czy to z powodu dodania kary, czy ktoś może wyjaśnić, co się dzieje?

felix000
źródło
2
Zobacz stats.stackexchange.com/search?q=user%3A4253+cutoff
Scortchi - Przywróć Monikę
Scortchi, czy mógłbyś być bardziej konkretny w kwestii, które pytanie dotyczące wartości granicznych uważasz za istotne? Nie widziałem odpowiedniego pytania ani odpowiedzi przed opublikowaniem, ani teraz.
felix000
Przepraszam, nie miałem na myśli, że wszyscy odpowiedzieli na twoje q., Ale pomyślałem, że wszystkie mają znaczenie, sugerując, aby nie używać dokładności przy żadnym punkcie odcięcia jako miary wydajności, a przynajmniej nie arbitralnym odcięciu nie obliczonym z narzędzia funkcjonować.
Scortchi - Przywróć Monikę

Odpowiedzi:

16

Nie musisz uzyskiwać przewidywanych kategorii z modelu regresji logistycznej. Może być dobrze pozostać z przewidywanymi prawdopodobieństwami. Jeśli dostaniesz przewidywane kategorie, należy nie używać tych informacji do niczego innego niż powiedzieć „ta obserwacja jest najlepiej klasyfikowane do tej kategorii”. Na przykład nie należy używać opcji „dokładność” / procent poprawny, aby wybrać model.

Powiedziawszy te rzeczy, rzadko będzie optymalnym punktem odcięcia dla klasyfikacji obserwacji. Aby zrozumieć intuicyjnie, jak to się mogło stać, wyobraź sobie, że masz z obserwacjami w kategorii dodatniej. Prosty model tylko przechwytujący może łatwo mieć fałszywych negatywów, gdy użyjesz jako wartości odcięcia. Z drugiej strony, jeśli po prostu nazwałeś wszystko dodatnim, miałbyś fałszywie dodatni, ale poprawny. .50N=1009949.50199%

Mówiąc bardziej ogólnie, regresja logistyczna próbuje dopasować prawdziwe prawdopodobieństwo dodatnie do obserwacji w funkcji zmiennych objaśniających. Nie próbuje maksymalizować dokładności poprzez centrowanie przewidywanych prawdopodobieństw wokół wartości granicznej . Jeśli twoja próbka nie jest w dodatnia, nie ma po prostu powodu. maksymalizuje poprawny procent..5050%.50

gung - Przywróć Monikę
źródło
Cześć, dziękuję za wyjaśnienie, jednak nie dostaję przykładu z modelem tylko przechwytywania. W modelu przechwytującym będziesz mieć 0,99 dla wszystkich przykładów, a zatem będziesz mieć 99% dokładność, przyjmując dowolną wartość progową.
abcdaire
0

Myślę, że może to być z wielu powodów:

  1. Dane mogą być nieliniowe, więc liniowe dodawanie wag może nie zawsze skutkować prawidłowymi prawdopodobieństwami
  2. Zmienne są mieszanką dobrych predyktorów i słabych predyktorów, więc populacja o wartości około 0,5 jest spowodowana słabymi predyktorami lub mniejszym wpływem silnych predyktorów. Idąc wyżej, otrzymujesz ludzi, dla których efekt predyktorów jest silny

Być może będziesz musiał kiedyś pobawić się wartością odcięcia, aby zmaksymalizować pożądaną wydajność, taką jak precyzja, dokładność itp. Ponieważ większość populacji nie jest bardzo jednorodna.

użytkownik124690
źródło