Dlaczego regresja logistyczna jest dobrze skalibrowana i jak zepsuć jej kalibrację?

9

W scikit dowiedz się, jakie dokumenty dotyczą kalibracji prawdopodobieństwa, porównują regresję logistyczną z innymi metodami i zauważają, że losowy las jest gorzej skalibrowany niż regresja logistyczna.

Dlaczego regresja logistyczna jest dobrze skalibrowana? Jak można zepsuć kalibrację regresji logistycznej (nie żeby nigdy tego nie chciał - tylko jako ćwiczenie)?

użytkownik0
źródło

Odpowiedzi:

4

Chociaż wydaje się, że to pytanie i jego pierwsza odpowiedź dotyczą teoretycznych zagadnień kalibracji modelu regresji logistycznej, kwestia:

Jak zepsuć kalibrację regresji logistycznej ...?

zasługuje na uwagę w odniesieniu do aplikacji w świecie rzeczywistym, dla przyszłych czytelników tej strony. Nie powinniśmy zapominać, że model regresji logistycznej musi być dobrze sprecyzowany i że ten problem może być szczególnie kłopotliwy w przypadku regresji logistycznej.

Po pierwsze, jeśli iloraz szans członkostwa w klasie nie jest liniowo powiązany z predyktorami zawartymi w modelu, to nie będzie dobrze skalibrowany. Rozdział 10 Harrella, dotyczący binarnej regresji logistycznej, poświęca około 20 stron „Ocenie dopasowania modelu”, aby można było wykorzystać „asymptotyczną bezstronność estymatora maksymalnego prawdopodobieństwa”, jak to ujął @whuber w praktyce.

Po drugie, specyfikacja modelu jest szczególnym problemem w regresji logistycznej, ponieważ ma nieodłączne odchylenie zmienne, które może być zaskakujące dla osób posiadających tło w zwykłej regresji liniowej. Jak to ujęła ta strona:

Pominięte zmienne będą wpływać na współczynniki uwzględnionych zmiennych, nawet jeśli pominięte zmienne nie są skorelowane z włączonymi zmiennymi.

Strona ta zawiera również przydatne wyjaśnienie, dlaczego należy się spodziewać takiego zachowania, wraz z wyjaśnieniem teoretycznym dla powiązanych, możliwych do analizy modeli probitowych. Więc jeśli nie wiesz, że podałeś wszystkie predyktory związane z członkostwem w klasie, możesz spotkać się z niebezpieczeństwem błędnej specyfikacji i niewłaściwej kalibracji w praktyce.

Jeśli chodzi o specyfikację modelu, całkiem możliwe, że metody oparte na drzewach, takie jak losowy las, które nie zakładają liniowości w całym zakresie wartości predyktorów i z natury zapewniają możliwość znalezienia i włączenia interakcji między predyktorami, zakończą się lepszym- model kalibrowany w praktyce niż model regresji logistycznej, który nie uwzględnia w wystarczającym stopniu warunków interakcji lub nieliniowości. Jeśli chodzi o stronniczość zmiennych pomijanych, nie jest dla mnie jasne, czy jakakolwiek metoda oceny prawdopodobieństwa członkostwa w klasie może odpowiednio poradzić sobie z tym problemem.

EdM
źródło
5

Regresja logistyczna to metoda klasyfikacji, która w zasadzie uczy się funkcji prawdopodobieństwa w przestrzeni wejściowej poprzez dopasowanie parametrów . Jeśli prognozowane prawdopodobieństwa zostaną poznane przy użyciu odpowiedniej funkcji straty, regresja logistyczna może potencjalnie nauczyć się obiektywnej oceny prawdopodobieństwa zdarzenia binarnego, ilekroć ma wystarczającą pojemność (cechy wejściowe).πθ(x)θ

Utrata dziennika pozwala na takie obiektywne oszacowanie. Weź pod uwagę fakt, że funkcja utraty logów jest po prostu ujemnym prawdopodobieństwem logarytmicznym rozkładu Bernoulliego . Maksymalne oszacowanie prawdopodobieństwa dla jest obiektywne, biorąc pod uwagę zestaw obserwacji dla zmiennej . W przypadku klasyfikacji na pewną przestrzeń wejściową można sobie wyobrazić, że istnieje jeden rozkład Bernoulliego dla wszystkich punktów w . Najczęściej będziesz mieć tylko 1 obserwację na rozkład Bernoulliego, który znajduje się na . Wspólne stosowanie oszacowania maksymalnego prawdopodobieństwa dla wszystkich zaobserwowanych rozkładów BernoulliegozBer(p)pzXXyjaxjayjaBer(π(xja))zastosuje kilka ograniczeń do . Ponieważ wszystkie te ograniczenia prowadzą do bezstronnych oszacowań i tak długo, jak długo funkcja jest wystarczająco elastyczna, aby pasowała do prawdziwej podstawowej funkcji prawdopodobieństwa , procedura uczenia się jest spójna i zbiegnie się do optymalnego modelu więcej danych. Zatem ograniczenie pojemności modelu (na przykład mniej funkcji) może utrudnić kalibrację regresji logistycznej poprzez zwiększenie odległości między najlepszym modelem, którego można się nauczyć, a modelem prawdziwym.πθπθπ

Zastosowanie nieprawidłowego modelu obserwacji z regresją logistyczną doprowadzi do nieskalibrowanych prawdopodobieństw. Modelowanie zdarzeń binarnych z rozkładem normalnym jest nieodpowiednie i nie powinno się go stosować w połączeniu z regresją logistyczną. Funkcją strat odpowiadającą modelowi obserwacji rozkładu normalnego jest średni błąd kwadratu. Zatem użycie straty MSE z pewnością utrudniłoby jej kalibrację.

kora
źródło
2
Ostrożnie nazywając regresję logistyczną metodą klasyfikacji na tej stronie! Dziękuję za odpowiedź - wydaje się, że sugerujesz, że przyczyną utraty logu jest przyczyna kalibracji (zakładając, że model jest odpowiednio elastyczny)?
użytkownik0
1
Kontynuacja - mówisz, że kalibracja wymaga obiektywnego oszacowania prawdopodobieństwa - stąd penalizacja rujnuje kalibrację?
użytkownik0
«LogisticRegression domyślnie zwraca dobrze skalibrowane prognozy, ponieważ bezpośrednio optymalizuje utratę logów» - scikit-learn.org/stable/modules/calibration.html
cortax
Z definicji penalizacja lub regularyzacja jest zastrzykiem uprzedzeń, który często ma na celu zmniejszenie wariancji estymatora. Ogromna regularyzacja może zdominować część danych funkcji celu i zdecydowanie zepsuć kalibrację.
kora
2
Cytat scikit-learn o „optymalizacji utraty dziennika” nie jest skutecznym wyjaśnieniem, ponieważ nie ma koniecznego związku między tym a byciem obiektywnym. Chyba że się mylę, prawidłowa odpowiedź na pytanie, trzeba będzie powołać asymptotycznej nieobciążoności o maksymalnej estymator prawdopodobieństwa zwykle stosowanych procedur logistycznych w regresji.
whuber