Tło:
Staram się śledzić ocenę Princeton dotyczącą oszacowania MLE dla GLM .
I zrozumieć podstawy szacowania MLE: likelihood
, score
, obserwowane i oczekiwane Fisher information
i Fisher scoring
technika. I wiem, jak uzasadnić prostą regresję liniową estymacją MLE .
Pytanie:
Nie rozumiem nawet pierwszego wiersza tej metody :(
Jaka intuicja kryje się za roboczymi zdefiniowanymi jako:
Dlaczego są one używane zamiast do oszacowania ?
A jaki jest ich związek z tym, response/link function
co jest związkiem między a
Jeśli ktoś ma proste wyjaśnienie lub może skierować mnie do bardziej podstawowego tekstu na ten temat, byłbym wdzięczny.
Odpowiedzi:
Kilka lat temu napisałem o tym artykuł dla moich uczniów (w języku hiszpańskim), więc mogę spróbować przepisać te wyjaśnienia tutaj. Spojrzę na IRLS (iteracyjnie przeważone najmniejsze kwadraty) przez szereg przykładów o coraz większej złożoności. W pierwszym przykładzie potrzebujemy koncepcji rodziny o skali lokalizacji. Niech będzie w pewnym sensie funkcją gęstości wyśrodkowaną na zero. Możemy zbudować rodzinę gęstości, definiując gdzie to parametr skali, a f ( x ) = f ( x ; μ , σ ) = 1f0 σ>0μf0N(μ,σ)
Teraz użyjemy IRLS na kilku prostych przykładach. Najpierw znajdziemy estymatory ML (maksymalne prawdopodobieństwo) w modelu o gęstości Cauchy rozkład rodziny lokalizacji (więc jest to rodzina lokalizacji). Ale najpierw jakiś zapis. Estymator najmniejszych kwadratów ważony jest wyrażony przez gdzie to niektóre wagi. Zobaczymy, że estymator ML można wyrazić w tej samej formie, za pomocąf ( y ) = 1
Aby obliczyć estymator ML w praktyce, potrzebujemy wartości początkowej , moglibyśmy na przykład użyć mediany. Za pomocą tej wartości obliczamy resztki i wagi Nowa wartość jest podana przez Kontynuując w ten sposób, definiujemy i Szacowana wartość na przejściu algorytmu staje sięμ^(0)
Teraz badamy ten proces z bardziej ogólną rodziną lokalizacji i skali, , z mniejszą ilością szczegółów. Niech będą niezależne od powyższej gęstości. Zdefiniuj także . Funkcja loglikelihood to Pisząc , zwróć uwagę, że i Obliczanie pochodnej logarytmuf(y)=1σf0(y−μσ) Y1,Y2,…,Yn ϵi=yi−μσ
Poniżej podajemy przykład numeryczny z wykorzystaniem R, dla modelu podwójnego wykładniczego (o znanej skali) i danych
y <- c(-5,-1,0,1,5)
. Dla tych danych prawdziwa wartość estymatora ML wynosi 0. Wartość początkowa będzie wynosićmu <- 0.5
. Jeden przebieg algorytmu toza pomocą tej funkcji możesz eksperymentować z wykonywaniem iteracji „ręcznie”. Następnie można wykonać algorytm iteracyjny
Ćwiczenie: Jeśli model jest rozkładem z parametrem skali pokaż iteracje według wagi Ćwiczenie: jeśli gęstość jest logistyczna, pokaż wagi podane przeztk σ w(ϵ)=1-eϵ
Na razie zostawię to tutaj, będę kontynuować ten post.
źródło