W słynnym artykule z 1938 r. („ Rozkład dużych próbek dla wskaźnika prawdopodobieństwa do testowania hipotez złożonych ”, Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks wyprowadził asymptotyczny rozkład (iloraz ) dla hipotez zagnieżdżonych, przy założeniu, że większa hipoteza jest poprawnie określona. Rozkład ograniczającym jest (Chi-kwadrat) w stopniach swobody, gdzie jest liczbą parametrów, w większej hipotezy i H - m H mto liczba wolnych parametrów w hipotezie zagnieżdżonej. Jednak podobno dobrze wiadomo, że wynik ten nie obowiązuje, gdy hipotezy są błędnie określone (tj. Gdy większa hipoteza nie jest prawdziwym rozkładem dla próbkowanych danych).
Czy ktoś może wyjaśnić, dlaczego? Wydaje mi się, że dowód Wilksa powinien nadal działać z niewielkimi modyfikacjami. Opiera się on na asymptotycznej normalności oszacowania maksymalnego prawdopodobieństwa (MLE), która nadal obowiązuje w przypadku błędnie określonych modeli. Jedyną różnicą jest macierz kowariancji ograniczającej wielowymiarowej normalnej: dla poprawnie określonych modeli możemy aproksymować macierz kowariancji za pomocą odwrotnej macierzy informacji Fishera , z błędną specyfikacją, możemy użyć estymacji kanapkowej macierzy kowariancji ( ). Ta ostatnia zmniejsza się do odwrotności macierzy informacji Fishera, gdy model jest poprawnie określony (ponieważ J - 1 K J - 1 J = K). AFAICT, dowód Wilksa nie obchodzi, skąd pochodzi oszacowanie macierzy kowariancji, o ile mamy odwracalną asymptotyczną macierz kowariancji wielowymiarowej normy dla MLE ( w pracy Wilksa).
Odpowiedzi:
RV Foutz i RC Srivastava szczegółowo przeanalizowali tę kwestię. W artykule z 1977 r. „Przeprowadzenie testu współczynnika wiarygodności, gdy model jest niepoprawny”, znajduje się zestawienie wyniku podziału w przypadku błędnej specyfikacji wraz z bardzo krótkim szkicem dowodu, zaś w artykule z 1978 r. „Asymptotyczny rozkład współczynnika wiarygodności, gdy model jest niepoprawny ” zawiera dowód, ale ten ostatni jest wpisany w staromodnym pisarzu (oba dokumenty używają tego samego zapisu, więc można je łączyć w czytaniu). Ponadto w odniesieniu do niektórych etapów dowodu odwołują się do dokumentu KP Roy „Nota o asymptotycznym rozkładzie współczynnika wiarygodności” z 1957 r., Który nie wydaje się być dostępny on-line, a nawet bramkowany.
W przypadku błędnej specyfikacji dystrybucji, jeśli MLE jest nadal spójny i asymptotycznie normalny (co nie zawsze ma miejsce), statystyka LR podąża asymptotycznie liniową kombinacją niezależnych kwadratów chi (każdy o jednym stopniu swobody)
gdzie . Widać „podobieństwo”: zamiast jednego chi-kwadratu z stopniami swobody mamy chi-kwadraty, każdy o jednym stopniu swobody. Ale „analogia” na tym się kończy, ponieważ liniowa kombinacja kwadratów chi nie ma gęstości w formie zamkniętej. Każdy przeskalowany chi-kwadrat jest gamma, ale z innym parametrem , który prowadzi do innego parametru skali dla gamma - i suma takich gamma nie ma postaci zamkniętej, chociaż jego wartości można obliczyć.h - m h - m c ir = h - m h - m h - m doja
Dla stałych mamy , a są to wartości własne macierzy ... która macierz? Cóż, korzystając z notacji autorów, ustaw jako hesian prawdopodobieństwa logarytmu, a jako zewnętrzny produkt gradientu logarytmu prawdopodobieństwa (w kategoriach oczekiwanych). Zatem jest asymptotyczną macierzą wariancji-kowariancji MLE.c 1 ≥ c 2 ≥ . . . c r ≥ 0 Λ C V = Λ - 1 C ( Λ ′ ) - 1doja do1≥ c2)≥ . . . dor≥ 0 Λ do V.= Λ- 1do( Λ′)- 1
Następnie zestaw być górną ukośną bloku . r × r V.M. r × r V.
Napisz także w formie blokuΛ
i ustaw ( jest ujemną wartością Schur Complement z ). W ΛW.= - Λr × r+ Λ′2)Λ- 13)Λ2) W. Λ
Zatem to wartości własne macierzy oszacowane na prawdziwych wartościach parametrów. M Wdoja M.W.
DODATEK[ 9 ] [ 9 ] jeśli specyfikacja jest poprawna, jest to po prostu suma kwadratowych standardowych normalnych zmiennych losowych, a zatem są one rozdzielone jako jeden chi-kwadrat z stopniami swobody: (notacja ogólna)h - m h - m
Odpowiadając na ważną uwagę PO w komentarzach (czasami rzeczywiście pytania stają się odskocznią do dzielenia się bardziej ogólnym wynikiem, a same mogą zostać pominięte w tym procesie), oto jak postępuje dowód Wilksa: Wilks zaczyna się od wspólnego normalny rozkład MLE i przechodzi do uzyskania funkcjonalnego wyrażenia ilorazu wiarygodności. Do jego eq. dowód może pójść naprzód, nawet jeśli założymy, że mamy błędną specyfikację dystrybucyjną: jak zauważa PO, warunki macierzy kowariancji wariancji będą różne w scenariuszu błędnej specyfikacji, ale wszystko, co robi Wilks, to pochodne i identyfikacja asymptotycznie nieistotne warunki. I tak przybywa na eq. gdzie widzimy, że statystyki prawdopodobieństwa,[ 9 ] h - m h - m
Ale jeśli mamy błędną specyfikację, wówczas terminy używane do skalowania wyśrodkowanego i powiększonego MLE nie są już terminami, które sprawią, że wariancje każdego elementu będą równe jedności, i w ten sposób przekształć każdy składnik w standardowe normalne rv, a sumę w kwadrat chi. I tak nie jest, ponieważ terminy te obejmują oczekiwane wartości drugich pochodnych prawdopodobieństwa logarytmu ... ale oczekiwanej wartości można przyjąć jedynie w odniesieniu do prawdziwego rozkładu, ponieważ MLE jest funkcją danych i dane są zgodne z rzeczywistym rozkładem, podczas gdy drugie pochodne logarytmu prawdopodobieństwa są obliczane na podstawie błędnego założenia gęstości.n--√( θ^- θ )
Więc z powodu błędnej specyfikacji mamy coś takiego jak a najlepsze, co możemy zrobić, to zmanipulować
która jest sumą skalowanych wartości kwadratowych chi-rv, nie jest już rozdzielana jako jedna wartość kwadratowa chi-kwadrat z stopni swobody. Odniesienie dostarczone przez PO jest rzeczywiście bardzo wyraźnym przedstawieniem tego bardziej ogólnego przypadku, który obejmuje wynik Wilksa jako przypadek szczególny.h - m
źródło
Dowód Wilksa z 1938 r. Nie działa, ponieważ Wilks użył jako asymptotycznej macierzy kowariancji w swoim dowodzie. jest odwrotnością Heskiego prawdopodobieństwa logarytmu ujemnego zamiast estymatora kanapkowego . Wilks odwołuje się do tego elementu jako w swoim dowodzie. Przyjmując założenie, że Wilks (1938) przyjmuje, że utrzymuje, że jest równością Macierz Informacji Fisher. Jeśli model prawdopodobieństwa jest poprawnie określony, tojot- 1 jot- 1 jot- 1K.jot- 1 I j jot doI j jot- 1K.jot- 1= J- 1 K.= J K.= J . Tak więc jedną interpretacją założenia Wilksa jest to, że przyjmuje silniejsze założenie, że model prawdopodobieństwa jest poprawnie określony.
źródło