Statystyka testu dla testu Hosmera-Lemeshowa (HLT) dla dobroci dopasowania (GOF) modelu regresji logistycznej jest zdefiniowana następująco:
Próbka jest następnie dzielona na decyli, , na decyl jeden oblicza następujące ilości:
- , tj. Zaobserwowana liczba pozytywnych przypadków w decylu ;
- , tj. Zaobserwowana liczba negatywnych przypadków w decylu ;
- , tj. Szacunkowa liczba pozytywnych przypadków w decylu ;
- , tj. Szacunkowa liczba negatywnych przypadków w decylu ;
gdzie to obserwowany wynik binarny dla tej obserwacji, a szacunkowe prawdopodobieństwo tej obserwacji.π I
Następnie statystyka testu jest następnie definiowana jako:
gdzie jest średnim szacowanym prawdopodobieństwem w decylu a to liczba firm w decylu.gng
Według Hosmer-Lemeshowa (patrz link ) Statystyka ta zawiera (w pewnych założeniach) ą rozkładu z stopni swobody . ( d - 2 )
Z drugiej strony , gdybym zdefiniował tabelę zdarzeń z wierszami (odpowiadającymi decylom) i 2 kolumnami (odpowiadającymi prawdziwemu / fałszywemu wynikowi binarnemu), to statystyka testu dla testu dla tej tabeli kontyngencji byłby taki sam, jak zdefiniowany powyżej, jednak w przypadku tabeli awaryjności ta statystyka testu wynosi przy stopniach swobody . A więc jeszcze jeden stopień swobody !
Jak wyjaśnić tę różnicę w liczbie stopni swobody?
EDYCJA: uzupełnienia po przeczytaniu komentarzy:
@whuber
Mówią (patrz Hosmer DW, Lemeshow S. (1980), Test dobroci dopasowania dla modelu regresji logistycznej wielokrotnej. Komunikacja w statystyce, A10, 1043-1069 ), że istnieje twierdzenie wykazane przez Moore'a i Spruilla, z których wynika z tego, że jeżeli (1) parametry są szacowane przy użyciu funkcji prawdopodobieństwa dla danych niepogrupowanych i (2) częstotliwości w tabeli 2xg zależą od oszacowanych parametrów, mianowicie komórki są losowe, a nie stałe, to wtedy, w odpowiednich warunkach prawidłowości, statystyka dobroci dopasowania w (1) i (2) to centralna chi-kwadrat ze zwykłym zmniejszeniem stopni swobody ze względu na oszacowane parametry plus suma ważonych zmiennych chi-kwadrat.
Następnie, jeśli dobrze rozumiem ich pracę, starają się znaleźć przybliżenie dla tego „terminu korekcji”, który, jeśli dobrze go rozumiem, to ta ważona suma losowych zmiennych chi-kwadrat, i robią to, wykonując symulacje, ale ja muszę przyznać, że nie do końca rozumiem, co tam mówią, stąd moje pytanie; dlaczego te komórki są losowe, jak wpływa to na stopnie swobody? Czy byłoby inaczej, jeśli naprawię granice komórek, a następnie sklasyfikuję obserwacje w ustalonych komórkach na podstawie szacunkowego wyniku, w takim przypadku komórki nie są losowe, chociaż „zawartość” komórki jest?
@Frank Harell: czy nie może być tak, że „wady” testu Hosmera-Lemeshowa, o których wspominasz w swoich komentarzach poniżej, są jedynie konsekwencją przybliżenia ważonej sumy kwadratów chi ?
rms
pakiet R.residuals.lrm
ival.prob
funkcje.Odpowiedzi:
Hosmer DW, Lemeshow S. (1980), Test dobroci dopasowania dla modelu wielokrotnej regresji logistycznej. Komunikacja w statystyce, A10, 1043-1069 pokazuje, że:
(Uwaga: niezbędne warunki nie są wyraźnie zawarte w Twierdzeniu 2 na stronie 1052, ale jeśli ktoś uważnie przeczyta artykuł i dowód, wówczas pojawią się one)
Drugi termin wynika z faktu, że grupowanie opiera się na oszacowanych - tj. Losowych - ilościach (Hosmer, Lemeshow, 1980, s. 1). 1051)∑p + 1i = 1λjaχ2)ja( 1 )
Za pomocą symulacji wykazali, że drugi termin może być (w przypadkach zastosowanych w symulacji) aproksymowany przez (Hosmer, Lemeshow, 1980, s. 1060)χ2)( p - 1 )
Zobacz także Hosmer Lemeshow (1980) Paper - Theorem 2
źródło
Twierdzenie, do którego się odwołujesz (zwykła część redukcyjna „zwykła redukcja stopni swobody ze względu na parametry szacunkowe”), zostało najczęściej poparte przez RA Fishera. W „O interpretacji Chi Square z tabel nieprzewidzianych i obliczeniu P” (1922) argumentował, aby zastosować zasadę oraz w „Dobroci dopasowania wzorów regresji” ( 1922) twierdzi, że należy zmniejszyć stopnie swobody o liczbę parametrów zastosowanych w regresji w celu uzyskania oczekiwanych wartości z danych. (Warto zauważyć, że ludzie niewłaściwie używali testu chi-kwadrat z niewłaściwym stopniem swobody przez ponad dwadzieścia lat od jego wprowadzenia w 1900 r.)( R - 1 ) ∗ ( C- 1 )
Twój przypadek jest drugiego rodzaju (regresja), a nie pierwszego rodzaju (tabela awaryjna), chociaż oba są ze sobą powiązane, ponieważ są liniowymi ograniczeniami parametrów.
Ponieważ modelujesz wartości oczekiwane na podstawie zaobserwowanych wartości i robisz to za pomocą modelu, który ma dwa parametry, „zwykłe” zmniejszenie stopni swobody wynosi dwa plus jeden (dodatkowy, ponieważ O_i należy zsumować do suma, która jest kolejnym ograniczeniem liniowym, i skutecznie kończy się redukcją dwóch, zamiast trzech, z powodu „nieefektywności” modelowanych wartości oczekiwanych).
Test chi-kwadrat wykorzystuje jako miarę odległości, aby wyrazić, jak blisko wynik jest do oczekiwanych danych. W wielu wersjach testów chi-kwadrat rozkład tej „odległości” jest związany z sumą odchyleń w normalnych zmiennych rozproszonych (co jest prawdziwe tylko w limicie i jest przybliżeniem, jeśli mamy do czynienia z nietypowymi rozproszonymi danymi) .χ2)
Dla wielowymiarowego rozkładu normalnego funkcja gęstości jest powiązana z przezχ2)
za pomocą wyznacznik macierzy kowariancjix| Σ | x
a to mahalanobi odległość, która zmniejsza się do odległości euklidesowej, jeśli .Σ = Iχ2)= ( x - μ )T.Σ- 1( x - μ ) Σ = I
W swoim artykule z 1900 r. Pearson argumentował, że poziomy są sferoidami i że może przekształcić się we współrzędne sferyczne w celu zintegrowania wartości takiej jak . Który staje się pojedynczą całką. P ( χ 2 > a )χ2) P.( χ2)> a )
To właśnie reprezentacja geometryczna, jako odległość, a także termin w funkcji gęstości, może pomóc zrozumieć zmniejszenie stopni swobody, gdy występują ograniczenia liniowe.χ2)
Pierwszy przypadek tabeli awaryjnej 2x2 . Powinieneś zauważyć, że cztery wartości nie są czterema niezależnymi normalnymi zmiennymi rozproszonymi. Zamiast tego są ze sobą powiązane i sprowadzają się do jednej zmiennej.Oja- Ejamija
Pozwala użyć tabeli
to jeśli oczekiwane wartości
gdzie ustalone wtedy byłby dystrybuowany jako rozkład chi-kwadrat o czterech stopniach swobody, ale często szacujemy na podstawie a odmiana nie przypomina czterech niezależnych zmiennych. Zamiast tego otrzymujemy, że wszystkie różnice między i są takie same eijoijoe∑ oI j- eI jmijaj miI j oI j o mi
i faktycznie są one pojedynczą zmienną, a nie czterema. Geometrycznie możesz to zobaczyć jako wartość nie zintegrowaną z czterowymiarową kulą, ale z pojedynczą linią.χ2)
Zauważ, że ten test tabeli awaryjnej nie ma zastosowania do tabeli awaryjnej w teście Hosmera-Lemeshowa (wykorzystuje inną hipotezę zerową!). Zobacz także sekcję 2.1 „Przypadek, w którym znane są i ” w artykule Hosmer i Lemshow. W ich przypadku otrzymujesz 2g-1 stopni swobody, a nie g-1 stopni swobody, jak w regule (R-1) (C-1). Ta reguła (R-1) (C-1) dotyczy w szczególności hipotezy zerowej, że zmienne wierszy i kolumn są niezależne (co stwarza ograniczenia R + C-1 dla wartości ). Test Hosmera-Lemeshowa dotyczy hipotezy, że komórki są wypełnione zgodnie z prawdopodobieństwami modelu regresji logistycznej opartej naβ _ o i - e i f o u p p + 1β0 β-- oja- eja faO U r parametry w przypadku założenia dystrybucyjnego A i parametry w przypadku założenia dystrybucyjnego B.p + 1
Drugi przypadek regresji. Regresja robi coś podobnego do różnicy jak stół awaryjny i ogranicza wymiarowości zmienności. Jest na to ładna reprezentacja geometryczna, ponieważ wartość można przedstawić jako sumę wyrażenia modelowego i wyrażenia resztkowego (nie błędu) . Każdy z tych terminów modelowych i rezydualny reprezentuje przestrzeń wymiarową, która jest do siebie prostopadła. Oznacza to, że pozostałe warunki nie mogą przyjąć żadnej możliwej wartości! Mianowicie, są one zmniejszane przez część, która rzutuje na model, a dokładniej 1 wymiar dla każdego parametru w modelu.y i β x i ϵ i ϵ io - e yja βxja ϵja ϵja
Może poniższe zdjęcia mogą trochę pomóc
Poniżej znajdują się 400 razy trzy (nieskorelowane) zmienne z rozkładów dwumianowych . Dotyczą one normalnych zmiennych rozproszonych . Na tym samym obrazie rysujemy powierzchnię izo dla . Całkując w tej przestrzeni za pomocą współrzędnych sferycznych, tak że potrzebujemy tylko pojedynczej integracji (ponieważ zmiana kąta nie zmienia gęstości), nad daje w którym ta część reprezentuje obszar kuli dwuwymiarowej. Gdybyśmy ograniczyli zmienneB ( n = 60 , p = 1 / 6 , 2 / 6 , 3 / 6 ) N.( μ = n ∗ p , σ2)= n ∗ p ∗ ( 1 - p ) ) χ2)= 1 , 2 , 6 χ ∫za0mi-12)χ2)χre- 1reχ χre- 1 χ w pewnym sensie integracja nie dotyczyłaby sfery d-wymiarowej, ale czegoś o niższym wymiarze.
Poniższy obraz można wykorzystać, aby uzyskać wyobrażenie o zmniejszeniu wymiarów w kategoriach resztkowych. Wyjaśnia metodę dopasowania najmniejszych kwadratów w ujęciu geometrycznym.
Na niebiesko masz pomiary. Na czerwono masz to, na co pozwala model. Pomiar często nie jest dokładnie równy modelowi i ma pewne odchylenia. Geometrycznie możesz to uznać za odległość od mierzonego punktu do czerwonej powierzchni.
Czerwone strzałki i mają wartości i i mogą być powiązane z jakimś modelem liniowym, ponieważ x = a + b * z + błąd lubm U1 m U2) ( 1 , 1 , 1 ) ( 0 , 1 , 2 )
więc rozpiętość tych dwóch wektorów i (czerwona płaszczyzna) są wartościami możliwymi w modelu regresji, a jest wektorem, który jest różnicą między wartość obserwowana i wartość regresji / wartości modelowanej. W metodzie najmniejszych kwadratów ten wektor jest prostopadły (najmniejsza odległość to najmniejsza suma kwadratów) do czerwonej powierzchni (a modelowana wartość jest rzutem obserwowanej wartości na czerwoną powierzchnię).( 0 , 1 , 2 ) x ϵ( 1 , 1 , 1 ) ( 0 , 1 , 2 ) x ϵ
Tak więc ta różnica między obserwowaną a (modelowaną) oczekiwaną jest sumą wektorów, które są prostopadłe do wektora modelu (i ta przestrzeń ma wymiar całkowitej przestrzeni minus liczba wektorów modelu).
W naszym prostym przykładzie. Całkowity wymiar to 3. Model ma 2 wymiary. Błąd ma wymiar 1 (więc bez względu na to, który z tych niebieskich punktów bierzesz, zielone strzałki pokazują pojedynczy przykład, terminy błędów mają zawsze ten sam stosunek, podążaj za jednym wektorem).
Mam nadzieję, że to wyjaśnienie pomoże. Nie jest to w żaden sposób rygorystyczny dowód i istnieją pewne specjalne sztuczki algebraiczne, które należy rozwiązać w tych reprezentacjach geometrycznych. Ale tak czy inaczej lubię te dwie reprezentacje geometryczne. Jeden dla Pearsona polegający na zintegrowaniu za pomocą współrzędnych sferycznych, a drugi do oglądania metody sumy metodą najmniejszych kwadratów jako rzutu na płaszczyznę (lub większą rozpiętość).χ2)
Zawsze dziwi mnie to, jak skończymy na , to z mojego punktu widzenia nie jest trywialne, ponieważ normalne przybliżenie dwumianu nie jest odchyleniem przez ale przez i w w przypadku tabel awaryjnych można to łatwo opracować, ale w przypadku regresji lub innych ograniczeń liniowych nie działa to tak łatwo, podczas gdy literatura często bardzo łatwo dowodzi, że „działa to tak samo w przypadku innych ograniczeń liniowych” . (Ciekawy przykład problemu. Jeśli wykonasz następujący test wielokrotnie „rzuć 2 razy 10 razy monetę i zarejestruj tylko przypadki, w których suma wynosi 10”, nie uzyskasz typowego rozkładu chi-kwadrat dla tego ” proste „ograniczenie liniowe) enp(1-p)o - emi mi n p ( 1 - p )
źródło