Dlaczego rozkład prawdopodobieństwa rozkłada się chi-kwadrat?

34

Dlaczego statystyki testu testu prawdopodobieństwa rozkładają chi-kwadrat?

2)(ln L.zalt moremil-ln L.null moremil)χrefazalt-refanull2)

Dr Beeblebrox
źródło
3
Czy to pomaga ?
Nick Sabbe,
14
Dzięki za referencje. Oto jeden ode mnie: stats.stackexchange.com/faq#etiquette
Dr. Beeblebrox
5
Zwróć uwagę na „Wprowadź swoje poczucie humoru”. Nie chciałem być niegrzeczny, ale odpowiedź na to pytanie byłaby stosunkowo nużąca i polegałaby zasadniczo na treści tego artykułu (lub niektórych lepszych podręczników statystycznych). Jeśli podasz dokładny problem z wyjaśnieniem w jednym z nich, chętnie Ci pomogę.
Nick Sabbe,
2
Bezpośredni link do oryginalnej pracy Wilksa bez zapory.
ayorgo

Odpowiedzi:

23

Jak wspomniał @Nick, jest to konsekwencja twierdzenia Wilksa . Należy jednak pamiętać, że statystyki testowe są asymptotycznie dystrybuowane , a nie .χ 2χ2)χ2)

Jestem pod wielkim wrażeniem tego twierdzenia, ponieważ ma ono bardzo szeroki kontekst. Rozważmy model statystyczny z prawdopodobieństwa gdzie jest obserwacje wektor niezależnych obserwacji repliką rozkładu o parametr należące do podrozmaitością o o wymiarach . Niech będzie podfolderem o wymiarze . Wyobraź sobie, że jesteś zainteresowany testowaniem .y n θ B 1 R d dim ( B 1 ) = s B 0B 1 dim ( B 0 ) = m H 0l(θy)ynθb1Rredim(B1)=sB0B1dim(B0)=mH0:{θB0}

Współczynnik prawdopodobieństwa wynosi Zdefiniuj odchylenie . Następnie twierdzenie Wilksa mówi, że przy zwykłych założeniach regularności, jest asymptotycznie -podzielone z stopni swobody, gdy jest prawdziwe.d(y)=2log(lr(y))d(y)χ2s-mH0

lr(y)=łykθb1l(θy)łykθb0l(θy).
d(y)=2log(lr(y))d(y)χ2smH0

Jest to udowodnione w oryginalnym artykule Wilka wspomnianym przez @Nick. Myślę, że ten artykuł nie jest łatwy do odczytania. Wilks opublikował książkę później, być może z najłatwiejszą prezentacją swojego twierdzenia. Krótki heurystyczny dowód znajduje się w doskonałej książce Williamsa .

Stéphane Laurent
źródło
3
Smutne, że to twierdzenie nie jest wspomniane na stronie wikipedii poświęconej Samuelowi S. Wilksowi
Stéphane Laurent
5
Och, chodź Stephane. To jest Wikipedia, możesz ją edytować i ulepszać!
StasK
1
@StasK Wiem o tym, ale nigdy nie próbowałem. I już spędzam zbyt dużo czasu w swoim życiu ze statystykami i matematyką;)
Stéphane Laurent
Czy istnieje intuicja, dlaczego 2 znajduje się przed logiem w definicji dewiacji?
user56834
@ Programmer2134 Pochodzi z rozszerzenia Taylor drugiego rzędu.
Frank Vel,
25

Popieram ostry komentarz Nicka Sabbe, a moja krótka odpowiedź brzmi: nie jest . Mam na myśli, że jest to tylko normalny model liniowy. W absolutnie innych okolicznościach dokładny rozkład nie jest . W wielu sytuacjach można mieć nadzieję, że warunki twierdzenia Wilksa zostaną spełnione, a następnie asymptotycznie statystyki testu logarytmicznego prawdopodobieństwa zbiegną się w rozkładzie do χ 2 . Ograniczenia i naruszenia warunków twierdzenia Wilksa są zbyt liczne, aby je zlekceważyć.χ2χ2

  1. Twierdzenie zakłada, że ​​dane identyfikacyjne oczekują problemów z danymi zależnymi, takimi jak szeregi czasowe lub próby nierównego badania prawdopodobieństwa (dla których i tak prawdopodobieństwo jest słabo określone; „regularne” testy χ 2 , takie jak testy niezależności w tabelach awaryjnych, zaczynają się zachowywać jako suma Σ k K v k , v k ~ IID χ 2 1 ( Rao i Scott ). dla danych IID k = 1 , a suma zostaje . a niesprawnymi danych, to nie jest już tak.χ2kakvk,vki.i.d.χ12ak=1χ2
  2. Twierdzenie zakłada, że ​​prawdziwy parametr znajduje się we wnętrzu przestrzeni parametrów. Jeśli masz przestrzeń euklidesową do pracy, to nie jest problem. Jednak w niektórych problemach mogą pojawić się naturalne ograniczenia, takie jak wariancja 0 lub korelacja między -1 a 1. Jeśli prawdziwy parametr to granica, to rozkład asymptotyczny jest mieszaniną o różnych stopniach wolności, w tym sensie, że cdf testu jest sumą takich cdfs ( Andrews 2001 , plus dwa lub trzy kolejne jego artykuły z tego samego okresu, z historią sięgającą Chernoffa 1954 ).χ 2χ2
  3. Twierdzenie zakłada, że ​​wszystkie odpowiednie pochodne są niezerowe. Można to zakwestionować za pomocą niektórych nieliniowych problemów i / lub parametryzacji i / lub sytuacji, gdy parametr nie jest zidentyfikowany pod wartością zerową. Załóżmy, że masz model mieszanki Gaussa, a twoja null jest jednym składnikiem vs. alternatywa dwóch różnych składników z frakcją mieszającą . Null najwyraźniej jest zagnieżdżony alternatywnie, ale można to wyrazić na różne sposoby: jako (w którym to przypadku parametry nie są identyfikowane), (w którym to przypadkuf N ( μ 1 , σ 2 1 ) + ( 1 - f ) N ( μ 2 , σ 2 2 ) f f = 0 μ 1 , σ 2 1 f = 1 μ 2 , σ 2 2 μ 1 = μ 2 , σ 1N(μ0,σ02)fN(μ1,σ12)+(1f)N(μ2,σ22)ff=0μ1,σ12f=1μ2,σ22nie są zidentyfikowane) lub (w którym to przypadku nie zostanie zidentyfikowany). Nie możesz nawet powiedzieć, ile stopni swobody powinien mieć test, ponieważ masz różną liczbę ograniczeń w zależności od tego, jak sparametryzujesz zagnieżdżanie. Zobacz pracę Jiahua Chena na ten temat, np. CJS 2001 . fμ1=μ2,σ1=σ2f
  4. może działać OK, jeśli dystrybucja została poprawnie określona. Ale gdyby tak nie było, test znów się zepsuje. W podobszarze (w dużej mierze zaniedbanym przez statystyków) analizy wielowymiarowej znanej jako modelowanie kowariancji równania strukturalnego często zakłada się wielowymiarowy rozkład normalny, ale nawet jeśli struktura jest poprawna, test będzie źle działał, jeśli rozkład będzie inny. Satorra i Bentler 1995 pokazują, że dystrybucja stanie się , ta sama historia jak w przypadku danych niezależnych w punkcie 1, ale pokazali również, w jaki sposób y zależy od struktury modelu i czwartego momentów rozkładu.χ2kakvk,vki.i.d.χ12ak
  5. W przypadku próbek skończonych w dużej klasie sytuacji współczynnik prawdopodobieństwa jest korygowany przez Bartletta : podczas gdy dla próbka o wielkości n , a F ( x ; χ 2 d ) będąca funkcją rozkładu χ 2 dProb[d(y)x]=F(x;χd2)[1+O(n1)]nF(x;χd2)χd2rozkład, dla problemów z regularnym prawdopodobieństwem można znaleźć stałą taką, że P r o b [ d ( y ) / ( 1 + b / n ) x ] = F ( x ; χ 2 d ) [ 1 + O ( n - 2 ) ] , tj. Z większą dokładnością. Więc χ 2bProb[d(y)/(1+b/n)x]=F(x;χd2)[1+O(n2)]χ2aproksymację dla próbek skończonych można poprawić (i prawdopodobnie należy poprawić, jeśli wiesz jak). Stała zależy od struktury modelu, a czasem od parametrów pomocniczych, ale jeśli można ją konsekwentnie oszacować, działa to również w celu poprawy kolejności pokrycia.b

Przegląd tych i podobnych zagadnień ezoterycznych na podstawie wnioskowania o prawdopodobieństwie znajduje się w Smith 1989 .

StasK
źródło
1
Dzięki! Bardzo pouczające. Co rozumiesz przez „to tylko w normalnym modelu liniowym” ? W przypadku testu Fishera, gdy i B 1 są podprzestrzeniami liniowymi, dewiacja jest funkcją monotoniczną statystyki Fishera i jest tylko asymptotycznie χ 2 . b0b1 χ2)
Stéphane Laurent,
Ze znaną wariancją powinienem dodać.
StasK