Dlaczego regresja logistyczna daje dobrze skalibrowane modele?

13

Rozumiem, że jednym z powodów, dla których regresja logistyczna jest często używana do przewidywania współczynników klikalności w sieci, jest fakt, że produkuje ona dobrze skalibrowane modele. Czy istnieje na to dobre matematyczne wytłumaczenie?

lsankar4033
źródło
2
regresja logistyczna wykonana w celu przewidywania prawdopodobieństw -> które prowadzą do skalibrowanych prognoz, jeśli nie są nadmierne podczas gdy większość modeli uczenia maszynowego nie przewiduje probabilitów, ale raczej klasy - i istnieje pewien zniekształcenie pochodnych pseudo-probabilitów na podstawie tych prognoz -> dlatego zauważmy, że są dobrze skalibrowane
Charles
2
Powinienem był wyjaśnić to pytanie, ale moje pytanie dotyczyło raczej tego, dlaczego LR jest tak przydatny do przewidywania prawdopodobieństw.
lsankar4033 23.04.16
Warto zauważyć, że można po prostu dopasować regresję logistyczną do wyjścia źle skalibrowanego klasyfikatora, aby uzyskać skalibrowany model. Nazywa się to Platt Scaling en.wikipedia.org/wiki/Platt_scaling
generic_user

Odpowiedzi:

15

Tak.

Przewidywany wektor prawdopodobieństwa z regresji logistycznej spełnia równanie macierzowep

Xt(p-y)=0

Gdzie jest macierzą obliczeniową, jest wektorem odpowiedzi. Można to postrzegać jako zbiór równań liniowych, wynikający z każdej kolumny macierzy wzór .y XXyX

Specjalizując się w kolumnie przechwytywania (która jest rzędem w transponowanej macierzy), powiązane równanie liniowe to

ja(pja-yja)=0

więc ogólne średnie przewidywane prawdopodobieństwo jest równe średniej odpowiedzi.

Mówiąc bardziej ogólnie, dla kolumny cech binarnych powiązane równanie liniowe toxjajot

jaxjajot(pja-yja)=jaxjajot=1(pja-yja)=0

więc suma (a zatem średnia) przewidywanych prawdopodobieństw równa się sumie odpowiedzi, nawet gdy specjalizuje się w tych rekordach, dla których .xjajot=1

Matthew Drury
źródło
1
@MatthewDrury jak mogę zinterpretować twoje pierwsze równanie? jest w postaci 1 / ( 1 + exp ( - x ) ) ? Niemniej jednak ta liniowa zależność jest zachowana? Dziękuję Ci! p1/(1+exp(-x))
Ric
1
Tak, p ma taką postać. Pierwsze równanie pochodzi od ustawienia pochodnej funkcji straty na zero.
Matthew Drury
1
Dotyczy to tylko kalibracji w dużym, co nie jest tym, czego chcemy: kalibracji w małym.
Frank Harrell,
1
@FrankHarrell Chcesz opracować? Nie słyszałem wcześniej tych warunków.
Matthew Drury,
3
Historia literatury dotyczącej prognoz prawdopodobieństwa datowana na US Weather Service 1950 ma długą historię - właśnie tam wykorzystano wynik Briera. Kalibracja w małym oznacza, że ​​jeśli spojrzymy na przewidywane ryzyko 0,01, 0,02, ..., 0,99, każde z nich jest dokładne, tj. Przez cały czas, gdy przewidywane ryzyko wynosiło 0,4, wynik miał miejsce około 0,4 czas. „Kalibrowanie w maleńkim” nazywam następnym krokiem: dla mężczyzn, u których przewidywanie wynosiło 0,4, wynik był obecny 0,4 czasu, a następnie dla kobiet.
Frank Harrell,
2

Myślę, że mogę udzielić ci łatwego do zrozumienia wyjaśnienia w następujący sposób:

Wiemy , że jego funkcję utraty można wyrazić jako następującą funkcję:

jot(θ)=-1mja=1m[y(ja)log(hθ(x(ja)))+(1-y(ja))log(1-hθ(x(ja)))]

Gdziemreprezentuje liczbę wszystkie próbki szkoleniowe,y(ja)etykieta i-tej próbki,hθ(x(ja)) przewidywane prawdopodobieństwo i-tej próbki:11+exp[-α-jotθjotxjot(ja)] . (zwróć uwagę na odchylenieαtutaj)

Ponieważ celem szkolenia jest minimalizacja funkcji straty, pozwól nam ocenić jego pochodną cząstkową względem każdego parametru θjot (szczegółowe wyprowadzenie można znaleźć tutaj ):

jot(θ)θjot=1mja=1m[hθ(x(ja))-y(ja)]xjot(ja)


ja=1mhθ(x(ja))xjot(ja)=ja=1my(ja)xjot(ja)

Oznacza to, że jeśli model jest w pełni przeszkolony, przewidywane prawdopodobieństwa, które otrzymujemy dla zestawu szkoleniowego, rozkładają się tak, że dla każdej cechy suma ważonych (wszystkich) wartości tej cechy jest równa sumie wartości tej cechy pozytywnych próbek.

αx0αθ0

ja=1mhθ(x(ja))x0(ja)=ja=1my(ja)x0(ja)
ja=1mhθ(x(ja))=ja=1my(ja)
hθ(x(ja))
ja=1mp(ja)=ja=1my(ja)

Widać oczywiście, że regresja logistyczna jest dobrze skalibrowana.

Odniesienie: Modele logarytmiczno-liniowe i warunkowe pola losowe Charlesa Elkana

Lerner Zhang
źródło