Dlaczego dowód Wilksa z 1938 r. Nie działa na źle określone modele?

W słynnym artykule z 1938 r. („ Rozkład dużych próbek dla wskaźnika prawdopodobieństwa do testowania hipotez złożonych ”, Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks wyprowadził asymptotyczny rozkład (iloraz ) dla hipotez zagnieżdżonych, przy założeniu, że większa hipoteza jest poprawnie określona. Rozkład ograniczającym jest (Chi-kwadrat) w stopniach swobody, gdzie jest liczbą parametrów, w większej hipotezy i $2 \times LLR$ $\chi^2$ $h-m$ $h$ $m$ to liczba wolnych parametrów w hipotezie zagnieżdżonej. Jednak podobno dobrze wiadomo, że wynik ten nie obowiązuje, gdy hipotezy są błędnie określone (tj. Gdy większa hipoteza nie jest prawdziwym rozkładem dla próbkowanych danych).

Czy ktoś może wyjaśnić, dlaczego? Wydaje mi się, że dowód Wilksa powinien nadal działać z niewielkimi modyfikacjami. Opiera się on na asymptotycznej normalności oszacowania maksymalnego prawdopodobieństwa (MLE), która nadal obowiązuje w przypadku błędnie określonych modeli. Jedyną różnicą jest macierz kowariancji ograniczającej wielowymiarowej normalnej: dla poprawnie określonych modeli możemy aproksymować macierz kowariancji za pomocą odwrotnej macierzy informacji Fishera , z błędną specyfikacją, możemy użyć estymacji kanapkowej macierzy kowariancji ( ). Ta ostatnia zmniejsza się do odwrotności macierzy informacji Fishera, gdy model jest poprawnie określony (ponieważ $J^{-1}$ $J^{-1} K J^{-1}$ $J = K$ ). AFAICT, dowód Wilksa nie obchodzi, skąd pochodzi oszacowanie macierzy kowariancji, o ile mamy odwracalną asymptotyczną macierz kowariancji wielowymiarowej normy dla MLE ( w pracy Wilksa). $c^{-1}$

hypothesis-testing model-selection likelihood-ratio asymptotics misspecification ratsalad
źródło

Gdy większy model jest prawdziwy, a podmodel fałszywy, rozkład asymptotyczny nie jest już (na przykład w modelach liniowych z błędami Gaussa otrzymujemy takie rzeczy, jak dokładne niecentralne rozkłady F, więc rozkład asymptotyczny powinien być podobny do nc - zgaduję). Dlaczego więc mielibyśmy oczekiwać, że będzie to skoro zarówno większy, jak i mniejszy model są w błędzie? Czym dokładnie jest tutaj hipoteza zerowa?

χ^{2}

$\chi^2$

χ^{2}

$\chi^2$

χ^{2}

$\chi^2$

facet

W prawidłowo określonej hipotezie zerowej oba modele są „prawdziwe”, ale zagnieżdżony ma parametry ustalone na prawdziwych wartościach. W źle określonej hipotezie zerowej oba modele są „fałszywe”, ale zagnieżdżony ma parametry ustalone na wartościach pseudotrue. („Wartość pseudotrue” oznacza asymptotyczną wartość parametru, który minimalizuje odległość Kullbacka-Lieblera między błędnie określonym modelem a modelem prawdziwym). Twój przykład niecentralnego F nie jest istotny, ponieważ taki jest rozkład, gdy hipoteza zerowa jest fałszywa.

m

$m$

m

$m$

ratsalad

Przepraszam, powinienem był powiedzieć, że hipoteza zagnieżdżona ma parametry ustawione na prawdziwe wartości.

h - m

$h-m$

ratsalad

Rozumiem, że źle określony model zerowy może być błędnie określony na wiele sposobów. Na przykład: niewłaściwy rozkład reszt, dane mają heteroscedastyczność, efekty nie są addytywne itp. Zgadzam się jednak, że jeśli co najmniej jeden z „testowanych” parametrów jest ustawiony na fałszywą wartość (na przykład wartość pseudotrue) , to jest jeden przykład niepoprawnie określonego modelu zerowego.

h - m

$h - m$

rcorty

Odpowiedzi:

RV Foutz i RC Srivastava szczegółowo przeanalizowali tę kwestię. W artykule z 1977 r. „Przeprowadzenie testu współczynnika wiarygodności, gdy model jest niepoprawny”, znajduje się zestawienie wyniku podziału w przypadku błędnej specyfikacji wraz z bardzo krótkim szkicem dowodu, zaś w artykule z 1978 r. „Asymptotyczny rozkład współczynnika wiarygodności, gdy model jest niepoprawny ” zawiera dowód, ale ten ostatni jest wpisany w staromodnym pisarzu (oba dokumenty używają tego samego zapisu, więc można je łączyć w czytaniu). Ponadto w odniesieniu do niektórych etapów dowodu odwołują się do dokumentu KP Roy „Nota o asymptotycznym rozkładzie współczynnika wiarygodności” z 1957 r., Który nie wydaje się być dostępny on-line, a nawet bramkowany.

W przypadku błędnej specyfikacji dystrybucji, jeśli MLE jest nadal spójny i asymptotycznie normalny (co nie zawsze ma miejsce), statystyka LR podąża asymptotycznie liniową kombinacją niezależnych kwadratów chi (każdy o jednym stopniu swobody)

- 2 \ln λ \overset{d}{\to} \sum_{i = 1}^{r} c_{i} χ_{i}^{2}

$-2\ln \lambda \xrightarrow{d} \sum_{i=1}^{r}c_i\mathcal \chi^2_i$

gdzie . Widać „podobieństwo”: zamiast jednego chi-kwadratu z stopniami swobody mamy chi-kwadraty, każdy o jednym stopniu swobody. Ale „analogia” na tym się kończy, ponieważ liniowa kombinacja kwadratów chi nie ma gęstości w formie zamkniętej. Każdy przeskalowany chi-kwadrat jest gamma, ale z innym parametrem , który prowadzi do innego parametru skali dla gamma - i suma takich gamma nie ma postaci zamkniętej, chociaż jego wartości można obliczyć. $r=h-m$ $h-m$ $h-m$ $c_i$

Dla stałych mamy , a są to wartości własne macierzy ... która macierz? Cóż, korzystając z notacji autorów, ustaw jako hesian prawdopodobieństwa logarytmu, a jako zewnętrzny produkt gradientu logarytmu prawdopodobieństwa (w kategoriach oczekiwanych). Zatem jest asymptotyczną macierzą wariancji-kowariancji MLE. $c_i$ $c_1 \geq c_2\geq ...c_r \geq0$ $\Lambda$ $C$ $V = \Lambda^{-1} C (\Lambda')^{-1}$

Następnie zestaw być górną ukośną bloku . $M$ $r \times r$ $V$

Napisz także w formie bloku $\Lambda$

Λ = [\begin{matrix} Λ_{r \times r} & Λ_{2}^{'} \\ Λ_{2} & Λ_{3} \end{matrix}]

$\Lambda =\left [\begin {matrix} \Lambda_{r\times r} & \Lambda_2'\\ \Lambda_2 & \Lambda_3\\ \end{matrix}\right]$

i ustaw ( jest ujemną wartością Schur Complement z ). $W = -\Lambda_{r\times r}+\Lambda_2'\Lambda_3^{-1}\Lambda_2$ $W$ $\Lambda$

Zatem to wartości własne macierzy oszacowane na prawdziwych wartościach parametrów. $c_i$ $MW$

DODATEK
Odpowiadając na ważną uwagę PO w komentarzach (czasami rzeczywiście pytania stają się odskocznią do dzielenia się bardziej ogólnym wynikiem, a same mogą zostać pominięte w tym procesie), oto jak postępuje dowód Wilksa: Wilks zaczyna się od wspólnego normalny rozkład MLE i przechodzi do uzyskania funkcjonalnego wyrażenia ilorazu wiarygodności. Do jego eq. dowód może pójść naprzód, nawet jeśli założymy, że mamy błędną specyfikację dystrybucyjną: jak zauważa PO, warunki macierzy kowariancji wariancji będą różne w scenariuszu błędnej specyfikacji, ale wszystko, co robi Wilks, to pochodne i identyfikacja asymptotycznie nieistotne warunki. I tak przybywa na eq. gdzie widzimy, że statystyki prawdopodobieństwa, $[9]$ $[9]$ jeśli specyfikacja jest poprawna, jest to po prostu suma kwadratowych standardowych normalnych zmiennych losowych, a zatem są one rozdzielone jako jeden chi-kwadrat z stopniami swobody: (notacja ogólna) $h-m$ $h-m$

- 2 \ln λ = \sum_{i = 1}^{h - m} {(\sqrt{n} \frac{{\hat{θ}}_{i} - θ_{i}}{σ_{i}})}^{2} \overset{d}{\to} χ_{h - m}^{2}

$-2\ln \lambda = \sum_{i=1}^{h-m}\left(\sqrt n\frac{\hat \theta_i - \theta_i}{\sigma_i}\right)^2 \xrightarrow{d} \mathcal \chi^2_{h-m}$

Ale jeśli mamy błędną specyfikację, wówczas terminy używane do skalowania wyśrodkowanego i powiększonego MLE nie są już terminami, które sprawią, że wariancje każdego elementu będą równe jedności, i w ten sposób przekształć każdy składnik w standardowe normalne rv, a sumę w kwadrat chi. I tak nie jest, ponieważ terminy te obejmują oczekiwane wartości drugich pochodnych prawdopodobieństwa logarytmu ... ale oczekiwanej wartości można przyjąć jedynie w odniesieniu do prawdziwego rozkładu, ponieważ MLE jest funkcją danych i dane są zgodne z rzeczywistym rozkładem, podczas gdy drugie pochodne logarytmu prawdopodobieństwa są obliczane na podstawie błędnego założenia gęstości. $\sqrt n(\hat \theta -\theta)$

Więc z powodu błędnej specyfikacji mamy coś takiego jak a najlepsze, co możemy zrobić, to zmanipulować

- 2) \ln λ = \sum_{ja = 1}^{h - m} {(\sqrt{n} \frac{{\hat{θ}}_{ja} - θ_{ja}}{{za}_{ja}})}^{2)}

$-2\ln \lambda = \sum_{i=1}^{h-m}\left(\sqrt n\frac{\hat \theta_i - \theta_i}{a_i}\right)^2$

- 2) \ln λ = \sum_{ja = 1}^{h - m} \frac{σ_{ja}^{2)}}{{za}_{ja}^{2)}} {(\sqrt{n} \frac{{\hat{θ}}_{ja} - θ_{ja}}{σ_{ja}})}^{2)} = \sum_{ja = 1}^{h - m} \frac{σ_{ja}^{2)}}{{za}_{ja}^{2)}} χ_{1}^{2)}

$-2\ln \lambda = \sum_{i=1}^{h-m}\frac {\sigma_i^2}{a_i^2}\left(\sqrt n\frac{\hat \theta_i - \theta_i}{\sigma_i}\right)^2 = \sum_{i=1}^{h-m}\frac {\sigma_i^2}{a_i^2}\mathcal \chi^2_1$

która jest sumą skalowanych wartości kwadratowych chi-rv, nie jest już rozdzielana jako jedna wartość kwadratowa chi-kwadrat z stopni swobody. Odniesienie dostarczone przez PO jest rzeczywiście bardzo wyraźnym przedstawieniem tego bardziej ogólnego przypadku, który obejmuje wynik Wilksa jako przypadek szczególny. $h-m$

Alecos Papadopoulos
źródło

Jest to więc tylko powtórzenie standardowego wyniku, gdy model jest źle określony. Ten wynik został wyprowadzony i wyprowadzony wiele razy. Najczystsze i najbardziej pouczające wyprowadzenie, jakie widziałem, pochodzi z Kentu 1982 „ Solidne właściwości ilorazu prawdopodobieństwa ” (Biometrika 69:19). Nie odpowiedziałeś jednak na moje pytanie. Moje pytanie dotyczyło konkretnie dowodu Wilksa z 1938 r. I dlaczego zawodzi.

ratsalad

Dowód Wilksa z 1938 r. Nie działa, ponieważ Wilks użył jako asymptotycznej macierzy kowariancji w swoim dowodzie. jest odwrotnością Heskiego prawdopodobieństwa logarytmu ujemnego zamiast estymatora kanapkowego . Wilks odwołuje się do tego elementu jako w swoim dowodzie. Przyjmując założenie, że Wilks (1938) przyjmuje, że utrzymuje, że jest równością Macierz Informacji Fisher. Jeśli model prawdopodobieństwa jest poprawnie określony, to $J^{-1}$ $J^{-1}$ $J^{-1} K J^{-1}$ $ij$ $J$ $c_{ij}$ $J^{-1}KJ^{-1} = J^{-1}$ $K=J$ $K=J$ . Tak więc jedną interpretacją założenia Wilksa jest to, że przyjmuje silniejsze założenie, że model prawdopodobieństwa jest poprawnie określony.

Dom Generalny
źródło