Jeśli naprawdę miałeś na myśli prawdopodobieństwo dziennika , odpowiedź brzmi: nie zawsze jest to zero.
Weźmy na przykład dane Poissona: . Prawdopodobieństwo dziennika dla jest określone przez:
Y = ( y 1 , … , y n ) ℓ ( μ ; Y ) = - n ∑ i = 1 μ i + n ∑ i = 1 y i log μ i - n ∑ i = 1 logyi∼Poisson(μi),i=1,…,nY=(y1,…,yn)
ℓ(μ;Y)=−∑i=1nμi+∑i=1nyilogμi−∑i=1nlog(yi!).(∗)
Zróżnicuj w względem i ustaw na (w ten sposób otrzymujemy MLE dla modelu nasyconego):
rozwiązać ten problem za uzyskać zastępując powrotem do dla daje że Log-Likelihood nasyconego modelu to:
chyba że weźmiesz specjalnego wartości.( ∗ ) μ i 0 - 1 + y iℓ(μ;Y)(∗)μi0μi μ I=Yi μ I(*)μiℓ
−1+yiμi=0.
μiμ^i=yiμ^i(∗)μiy iℓ(μ^;Y)=∑i=1nyi(logyi−1)−∑i=1nlog(yi!)≠0
yi
Na stronie pomocy R
funkcji glm
pod pozycją deviance
dokument wyjaśnia ten problem w następujący sposób:
deviance
do stałej, minus dwukrotność maksymalnego prawdopodobieństwa logarytmu. Tam, gdzie jest to uzasadnione, wybrana jest stała, aby model nasycony miał zero odchyleń.
Zauważ, że wspomniano, że odchylenie zamiast logarytmu prawdopodobieństwa modelu nasyconego jest wybrane na zero.
Prawdopodobnie tak naprawdę chciałeś potwierdzić, że „ odchylenie nasyconego modelu jest zawsze podawane jako zero”, co jest prawdą, ponieważ odchylenie jest z definicji (patrz rozdział 4.5.1 analizy jakościowej danych (wydanie 2) Alana Agresti) to statystyka stosunku prawdopodobieństwa określonego GLM do modelu nasyconego. Wyżej constant
wspomniane w dokumentacji R jest w rzeczywistości dwukrotnością maksymalnego logarytmu prawdopodobieństwa modelu nasyconego.
Jeśli chodzi o stwierdzenie „Jednak sposób, w jaki podano formułę dewiacji, sugeruje, że czasami ta liczba nie jest równa zero”, prawdopodobnie wynika to z nadużycia użycia terminu dewiacja . Na przykład, w R, statystyczny współczynnik prawdopodobieństwa porównywania dwóch dowolnych (zagnieżdżone) Modele i jest również określana jako odchyleniu, co będzie bardziej dokładnie określanej jako z różnicy pomiędzy odchyleniu od i odchyleniu od , jeżeli ściśle przestrzegał definicji podanej w książce Agresti.M 2 M 1 M 2M1M2M1M2
Wniosek
Prawdopodobieństwo logiczne nasyconego modelu jest zasadniczo niezerowe.
Odchylenie (w oryginalnej definicji) modelu nasyconego wynosi zero.
Odchyleniem wyjściowy oprogramowanie (takie jak R) jest na ogół tak niezerowych w rzeczywistości oznacza co innego (różnica pomiędzy odchyleń).
Poniżej przedstawiono pochodną dla ogólnego przypadku rodziny wykładniczej i inny konkretny przykład. Załóżmy, że dane pochodzą z rodziny wykładniczej (patrz Modern Applied Statistics with S , Rozdział ):
gdzie są znanymi wcześniejszymi wagami, a to parametr dyspersji / skali (w wielu przypadkach, takich jak dwumianowy i Poisson, ten parametr jest znany, podczas gdy w innych przypadkach, takich jak normalny i Gamma, ten parametr jest nieznany). Następnie prawdopodobieństwo logarytmu podaje:
f (7
f(yi;θi,φ)=exp[Ai(yiθi−γ(θi))/φ+τ(yi,φ/Ai)].(1)
Aiφℓ(θ,φ;Y)=∑i=1nAi(yiθi−γ(θi))/φ+∑i=1nτ(yi,φ/Ai).
Tak jak w przykładzie Poissona, parametry modelu nasyconego można oszacować, rozwiązując następującą funkcję
punktacji :
0=U(θi)=∂ℓ(θ,φ;Y)∂θi=Ai(yi−γ′(θi))φ
Oznacz rozwiązanie powyższego równania wzorem , wtedy ogólna postać logarytmu prawdopodobieństwa modelu nasyconego (traktuj parametr skali jako stałą) to:
ℓ( θθ^i
ℓ(θ^,φ;Y)=∑i=1nAi(yiθ^i−γ(θ^i))/φ+∑i=1nτ(yi,φ/Ai).(∗∗)
W mojej poprzedniej odpowiedzi błędnie stwierdziłem, że pierwszy termin po prawej stronie jest zawsze równy zero, powyższy przykład danych Poissona dowodzi, że jest on błędny. Aby uzyskać bardziej skomplikowany przykład, rozważ rozkład gamma podany w dodatku.(∗∗)Γ(α,β)
Dowód pierwszego terminu w logarytmicznym prawdopodobieństwie nasycenia modelu gamma jest niezerowy : Biorąc pod uwagę
musimy najpierw przeprowadzić ponowną parametryzację, aby miało wykładniczą postać rodziny . Można to zweryfikować, jeśli pozwalając
wówczas ma reprezentację:
gdzie
f(y;α,β)=βαΓ(α)e−βyyα−1,y>0,α>0,β>0,
f(1)φ=1α,θ=−βα,
ff(y;θ,φ)=exp[θy−(−log(−θ))φ+τ(y,φ)],
τ(y,φ)=−logφφ+(1φ−1)logy−logΓ(φ−1).
Dlatego MLE modelu nasyconego to . Stąd
chyba że przyjmą bardzo specjalne wartości.
θ^i=−1yi∑i=1n1φ[θ^iyi−(−log(−θ^i))]=∑i=1n1φ[−1−log(yi)]≠0,
yi
Odpowiedź Zhanxionga jest już świetna (+1), ale tutaj jest szybki pokaz, że prawdopodobieństwo logarytmu modelu nasyconego wynosi dla regresji logistycznej. Pomyślałem, że opublikuję, ponieważ nie widziałem tego TeX-a na tej stronie i ponieważ właśnie napisałem to na wykład.0
Prawdopodobieństwo to gdzie .L(y;X,β)=∏i=1nf(yi;xi,β)=∏i=1nπyii(1−πi)1−yi=∏i=1n(πi1−πi)yi(1−πi)(1) πi=invlogit(x⊺iβ)
Prawdopodobieństwo dziennika tologL(y;X,β)=∑i=1nyilog(πi1−πi)+log(1−πi)=∑i=1nyilogit(πi)+log(1−πi)=∑i=1nyix⊺iβ+log(1−invlogit(x⊺iβ))=∑i=1nyix⊺iβ+log(invlogit(−x⊺iβ))=∑i=1nyix⊺iβ−log(1+exp[x⊺iβ]))
Jeśli weźmiesz pochodne w odniesieniu do wszystkich współczynników, otrzymasz∇ℓ(β)=∑i=1nyixi−exp[x⊺iβ](1+exp[x⊺iβ])xi.(2)
Ustawienie tego wyrażenia na i rozwiązanie da ci odpowiedź. Zwykle nie można tego zrobić analitycznie, co tłumaczy popularność / konieczność stosowania algorytmów iteracyjnych w celu dopasowania do tego modelu, ale w przypadku modelu nasyconego jest to możliwe.0 β
Aby znaleźć model nasycony, podajemy każdy wiersz jego własny współczynnik. Więc a macierz projektowa razy wektor współczynnika toβ∈Rn Xβ=⎡⎣⎢⎢⎢⎢⎢10⋮001⋮0⋯⋯⋱⋯00⋮1⎤⎦⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢β1β2⋮βn⎤⎦⎥⎥⎥⎥.
Zwróć uwagę, że w szczególności .x⊺iβ=βi
Biorąc ty wiersz równania (2) daje namj ∑i=1nyixi,j=∑i=1nexp[x⊺iβ](1+exp[x⊺iβ])xi,j
który może być tylko prawda, jeśli dla każdej obserwacji :i
źródło
glm( cbind(k, n-k) ~ x + ...
@Alex: tak, zgadza się. przynajmniej dla dyskretnych rozkładów. dla ciągłych rozkładów sprowadzałoby się to do dopuszczenia, aby gęstość była równa 1, co niekoniecznie jest znaczące, a zatem nie jest rozsądną rzeczą do osiągnięcia. nieco bardziej ogólnie, logarytmiczne prawdopodobieństwo modelu nasyconego daje górną granicę wydajności dowolnego modelu, który jest zgodny z założeniem podstawowej rodziny dystrybucji. Innymi słowy, prawdopodobieństwo logarytmiczne nasyconego modelu dwumianowego jest „tak dobre, jak to możliwe” dla danego zestawu danych (X, Y) przy założeniu, że Y jest dwumianowy. Sensowne jest porównanie twojego modelu glm z tą górną granicą w przeciwieństwie do, powiedzmy, 100% (lub podobnego), ponieważ twój model jest z natury ograniczony przez twoje założenie dotyczące rozkładu odpowiedzi.
źródło