Rozumiem, że jednym z powodów, dla których regresja logistyczna jest często używana do przewidywania współczynników klikalności w sieci, jest fakt, że produkuje ona dobrze skalibrowane modele. Czy istnieje na to dobre matematyczne wytłumaczenie?
regression
logistic
lsankar4033
źródło
źródło
Odpowiedzi:
Tak.
Przewidywany wektor prawdopodobieństwa z regresji logistycznej spełnia równanie macierzowep
Gdzie jest macierzą obliczeniową, jest wektorem odpowiedzi. Można to postrzegać jako zbiór równań liniowych, wynikający z każdej kolumny macierzy wzór .y XX y X
Specjalizując się w kolumnie przechwytywania (która jest rzędem w transponowanej macierzy), powiązane równanie liniowe to
więc ogólne średnie przewidywane prawdopodobieństwo jest równe średniej odpowiedzi.
Mówiąc bardziej ogólnie, dla kolumny cech binarnych powiązane równanie liniowe toxI j
więc suma (a zatem średnia) przewidywanych prawdopodobieństw równa się sumie odpowiedzi, nawet gdy specjalizuje się w tych rekordach, dla których .xI j= 1
źródło
Myślę, że mogę udzielić ci łatwego do zrozumienia wyjaśnienia w następujący sposób:
Wiemy , że jego funkcję utraty można wyrazić jako następującą funkcję:
jot( θ ) = - 1m∑i = 1m[ y( i )log( hθ( x( i )) ) +(1- y( i )) log( 1 - godzθ( x( i )) ) ] y( i ) etykieta i-tej próbki,hθ( x( i )) przewidywane prawdopodobieństwo i-tej próbki:11 + exp[ - α - ∑jotθjotx( i )jot] . (zwróć uwagę na odchylenieα tutaj)
Gdzie
m
reprezentuje liczbę wszystkie próbki szkoleniowe,Ponieważ celem szkolenia jest minimalizacja funkcji straty, pozwól nam ocenić jego pochodną cząstkową względem każdego parametruθjot (szczegółowe wyprowadzenie można znaleźć tutaj ):
∂jot( θ )∂θjot= 1m∑i = 1m[ godzθ( x( i )) - y( i )]x( i )jot
∑i = 1mhθ( x( i )) x( i )jot= ∑i = 1my( i )x( i )jot
Oznacza to, że jeśli model jest w pełni przeszkolony, przewidywane prawdopodobieństwa, które otrzymujemy dla zestawu szkoleniowego, rozkładają się tak, że dla każdej cechy suma ważonych (wszystkich) wartości tej cechy jest równa sumie wartości tej cechy pozytywnych próbek.
Widać oczywiście, że regresja logistyczna jest dobrze skalibrowana.
Odniesienie: Modele logarytmiczno-liniowe i warunkowe pola losowe Charlesa Elkana
źródło