Stopnie swobody w teście Hosmera-Lemeshowa

33

Statystyka testu dla testu Hosmera-Lemeshowa (HLT) dla dobroci dopasowania (GOF) modelu regresji logistycznej jest zdefiniowana następująco:

Próbka jest następnie dzielona na decyli, , na decyl jeden oblicza następujące ilości:d=10D1,D2,,Dd

  • O1d=iDdyi , tj. Zaobserwowana liczba pozytywnych przypadków w decylu ;Dd
  • O0d=iDd(1yi) , tj. Zaobserwowana liczba negatywnych przypadków w decylu ;Dd
  • E1d=iDdπ^i , tj. Szacunkowa liczba pozytywnych przypadków w decylu ;Dd
  • E0d=iDd(1π^i) , tj. Szacunkowa liczba negatywnych przypadków w decylu ;Dd

gdzie to obserwowany wynik binarny dla tej obserwacji, a szacunkowe prawdopodobieństwo tej obserwacji.yiπ Iiπ^i

Następnie statystyka testu jest następnie definiowana jako:

X2=h=01g=1d((OhgEhg)2Ehg)=g=1d(O1gngπ^gng(1π^g)π^g)2,

gdzie jest średnim szacowanym prawdopodobieństwem w decylu a to liczba firm w decylu.gngπ^ggng

Według Hosmer-Lemeshowa (patrz link ) Statystyka ta zawiera (w pewnych założeniach) ą rozkładu z stopni swobody . ( d - 2 )χ2(d2)

Z drugiej strony , gdybym zdefiniował tabelę zdarzeń z wierszami (odpowiadającymi decylom) i 2 kolumnami (odpowiadającymi prawdziwemu / fałszywemu wynikowi binarnemu), to statystyka testu dla testu dla tej tabeli kontyngencji byłby taki sam, jak zdefiniowany powyżej, jednak w przypadku tabeli awaryjności ta statystyka testu wynosi przy stopniach swobody . A więc jeszcze jeden stopień swobody !dχ2X2χ2(d1)(21)=d1

Jak wyjaśnić tę różnicę w liczbie stopni swobody?

EDYCJA: uzupełnienia po przeczytaniu komentarzy:

@whuber

Mówią (patrz Hosmer DW, Lemeshow S. (1980), Test dobroci dopasowania dla modelu regresji logistycznej wielokrotnej. Komunikacja w statystyce, A10, 1043-1069 ), że istnieje twierdzenie wykazane przez Moore'a i Spruilla, z których wynika z tego, że jeżeli (1) parametry są szacowane przy użyciu funkcji prawdopodobieństwa dla danych niepogrupowanych i (2) częstotliwości w tabeli 2xg zależą od oszacowanych parametrów, mianowicie komórki są losowe, a nie stałe, to wtedy, w odpowiednich warunkach prawidłowości, statystyka dobroci dopasowania w (1) i (2) to centralna chi-kwadrat ze zwykłym zmniejszeniem stopni swobody ze względu na oszacowane parametry plus suma ważonych zmiennych chi-kwadrat.

Następnie, jeśli dobrze rozumiem ich pracę, starają się znaleźć przybliżenie dla tego „terminu korekcji”, który, jeśli dobrze go rozumiem, to ta ważona suma losowych zmiennych chi-kwadrat, i robią to, wykonując symulacje, ale ja muszę przyznać, że nie do końca rozumiem, co tam mówią, stąd moje pytanie; dlaczego te komórki są losowe, jak wpływa to na stopnie swobody? Czy byłoby inaczej, jeśli naprawię granice komórek, a następnie sklasyfikuję obserwacje w ustalonych komórkach na podstawie szacunkowego wyniku, w takim przypadku komórki nie są losowe, chociaż „zawartość” komórki jest?

@Frank Harell: czy nie może być tak, że „wady” testu Hosmera-Lemeshowa, o których wspominasz w swoich komentarzach poniżej, są jedynie konsekwencją przybliżenia ważonej sumy kwadratów chi ?


źródło
9
Książka zawiera szczegółowy opis tego testu i jego podstawy. Pełna odpowiedź na twoje pytanie znajduje się na stronach 145-149. Określanie stopni swobody w testach jest subtelną rzeczą, ponieważ większość z tych testów jest przybliżeniem (przede wszystkim), a te przybliżenia są dobre tylko wtedy, gdy mają zastosowanie pozornie niewielkie warunki techniczne. Omówienie tego wszystkiego można znaleźć na stronie stats.stackexchange.com/a/17148 . H&L wybrał czysto praktyczną drogę: opierają swoją rekomendację DF na „rozległym zestawie symulacji”. d - 2χ2d2
whuber
4
Ten test jest obecnie uważany za przestarzały ze względu na (1) brak mocy, (2) binowanie ciągłych prawdopodobieństw i (3) arbitralność w wyborze binowania i wyborze definicji decyli. Zaleca się test Hosmer - le Cessie 1 df lub test Spiegelhalter. Zobacz na przykład rmspakiet R. residuals.lrmi val.probfunkcje.
Frank Harrell,
2
@Frank Harell: (a) nawet czy test Hosmer-Lemeshow jest przestarzały, myślę, że nadal interesujące jest zrozumienie różnicy z i (b) czy masz odniesienie, które pokazuje, że test Spiegelhaltera ma więcej mocy niż test Hosmer-Lemeshow? χ2
2
Problemy te są bardzo małe w porównaniu z pierwotnym pytaniem.
Frank Harrell,
3
Myślę, że szczegóły pojawiają się gdzie indziej na tej stronie. W skrócie: (1) Hosmer pokazał, że test jest arbitralny - jest bardzo wrażliwy na dokładne obliczanie decyli; (2) brakuje mu mocy. Możesz zobaczyć, że opiera się on na nieprecyzyjnych wielkościach, wykreślając binowaną krzywą kalibracji (w przeciwieństwie do gładkiej krzywej kalibracji) i odnotowując skoki. Co więcej, nie wpływa to odpowiednio na ekstremalne przeregulowanie.
Frank Harrell

Odpowiedzi:

2

Hosmer DW, Lemeshow S. (1980), Test dobroci dopasowania dla modelu wielokrotnej regresji logistycznej. Komunikacja w statystyce, A10, 1043-1069 pokazuje, że:

Jeśli model jest modelem regresji logistycznej, a parametry są szacowane na podstawie maksymalnego prawdopodobieństwa, a grupy są określone na podstawie szacunkowych prawdopodobieństw, to przyjmuje, że jest asymptotycznie (Hosmer, Lemeshow, 1980, s. 1052, Twierdzenie 2).G X 2 χ 2 ( G - p - 1 ) + p + 1 i = 1 λ i χ 2 i ( 1 )pGX2χ2(Gp1)+i=1p+1λiχi2(1)

(Uwaga: niezbędne warunki nie są wyraźnie zawarte w Twierdzeniu 2 na stronie 1052, ale jeśli ktoś uważnie przeczyta artykuł i dowód, wówczas pojawią się one)

Drugi termin wynika z faktu, że grupowanie opiera się na oszacowanych - tj. Losowych - ilościach (Hosmer, Lemeshow, 1980, s. 1). 1051)i=1p+1λiχi2(1)

Za pomocą symulacji wykazali, że drugi termin może być (w przypadkach zastosowanych w symulacji) aproksymowany przez (Hosmer, Lemeshow, 1980, s. 1060)χ2(p1)

Połączenie tych dwóch faktów daje sumę dwóch zmiennych , jednej o stopniach swobody i drugiej o stopniach swobody lub G - p - 1 p - 1 X 2χ 2 ( G - p - 1 + p - 1 = G - 2 )χ2Gp1p1X2χ2(Gp1+p1=G2)

Tak więc odpowiedź na pytanie polega na występowaniu „ważonego terminu chi-kwadrat” lub na tym, że grupy są definiowane przy użyciu oszacowanych prawdopodobieństw, które same są zmiennymi losowymi.

Zobacz także Hosmer Lemeshow (1980) Paper - Theorem 2


źródło
"Tak więc odpowiedź na pytanie kłamstwa w wystąpieniu«ważonej terminu chi-kwadrat» i na tym, że grupy są definiowane przy użyciu oszacowane prawdopodobieństwo, że same są zmiennymi losowymi. ) Oszacowane prawdopodobieństwa powoduje, że masz dodatkową redukcję p + 1, co sprawia, że główną różnicę w przypadku tabeli awaryjnego (w którym tylko terminy G są szacunkowe). B ) ważona termin chi-kwadrat występuje jako oszacowanie korekcji, ponieważ nie jest prawdopodobne oszacowanie lub równie efektywny, a to sprawia, że efekt redukcji jest mniej dodatkowo niż (p + 1).
Sextus Empiryk
@Martijn Weterings: Czy mam rację, jeśli doszedłem do wniosku, że to, co mówisz w tym komentarzu, nie jest dokładnie tym samym wyjaśnieniem (żeby nie powiedzieć zupełnie innym), jak to, co mówisz w swojej odpowiedzi? Czy twój komentarz prowadzi do wniosku, że df to ? G2
Moja odpowiedź wyjaśnia intuicję stojącą za różnicą stopni swobody w porównaniu z rozumowaniem opartym na „statystyce testu dla testu dla tej tabeli kontyngencji”, wyjaśnia, dlaczego są one różne (szacowanie wielkości komórek ustalonych). Koncentruje się na „zwykłej redukcji”, z której można wywnioskować, że df to G-3. Jednak niektóre warunki „zwykłej redukcji” nie są spełnione. Z tego powodu (komórki losowe) otrzymujesz bardziej skomplikowane terminy z ważonym terminem chi-kwadrat jako korektą i skutecznie kończysz na G-2. To jest dalekie od zupełnie innych. χ2
Sextus Empiricus
@ Martijn Weterings, przepraszam, ale nie mogę przegłosować, ponieważ w twojej odpowiedzi nie widzę żadnego pojęcia takiego jak „losowe komórki”, czy masz na myśli, że wszystkie twoje ładne zdjęcia (i mam na myśli to, że są bardzo ładne) wyjaśniają coś o „losowych komórkach” czy wymyśliłeś to pojęcie po przeczytaniu mojej odpowiedzi?
Nie przepraszam Zgadzam się, że moja odpowiedź nie jest dokładną odpowiedzią pokazującą dokładnie stopnie swobody w teście HL. I przepraszam za to. To, co masz, to statystyki Chernoffa Lehmana (z losowymi komórkami), które podążają za . Obecnie nie jest dla mnie jasne, co cię niepokoi, mam nadzieję, że możesz być bardziej konstruktywny. Jeśli chcesz wszystko wyjaśnione, masz już artykuły na ten temat. Moja odpowiedź dotyczyła właśnie wyjaśniając główną różnicę w teście tabeli awaryjnej. k - s - 1 i = 1 χ 2 ( 1 )i=1ks1χ2(1)+i=ksk1λiχi2(1)i=1ks1χ2(1)
Sextus Empiricus
2

Twierdzenie, do którego się odwołujesz (zwykła część redukcyjna „zwykła redukcja stopni swobody ze względu na parametry szacunkowe”), zostało najczęściej poparte przez RA Fishera. W „O interpretacji Chi Square z tabel nieprzewidzianych i obliczeniu P” (1922) argumentował, aby zastosować zasadę oraz w „Dobroci dopasowania wzorów regresji” ( 1922) twierdzi, że należy zmniejszyć stopnie swobody o liczbę parametrów zastosowanych w regresji w celu uzyskania oczekiwanych wartości z danych. (Warto zauważyć, że ludzie niewłaściwie używali testu chi-kwadrat z niewłaściwym stopniem swobody przez ponad dwadzieścia lat od jego wprowadzenia w 1900 r.)(R1)(C1)

Twój przypadek jest drugiego rodzaju (regresja), a nie pierwszego rodzaju (tabela awaryjna), chociaż oba są ze sobą powiązane, ponieważ są liniowymi ograniczeniami parametrów.

Ponieważ modelujesz wartości oczekiwane na podstawie zaobserwowanych wartości i robisz to za pomocą modelu, który ma dwa parametry, „zwykłe” zmniejszenie stopni swobody wynosi dwa plus jeden (dodatkowy, ponieważ O_i należy zsumować do suma, która jest kolejnym ograniczeniem liniowym, i skutecznie kończy się redukcją dwóch, zamiast trzech, z powodu „nieefektywności” modelowanych wartości oczekiwanych).


Test chi-kwadrat wykorzystuje jako miarę odległości, aby wyrazić, jak blisko wynik jest do oczekiwanych danych. W wielu wersjach testów chi-kwadrat rozkład tej „odległości” jest związany z sumą odchyleń w normalnych zmiennych rozproszonych (co jest prawdziwe tylko w limicie i jest przybliżeniem, jeśli mamy do czynienia z nietypowymi rozproszonymi danymi) .χ2

Dla wielowymiarowego rozkładu normalnego funkcja gęstości jest powiązana z przezχ2

f(x1,...,xk)=e12χ2(2π)k|Σ|

za pomocą wyznacznik macierzy kowariancjix|Σ|x

a to mahalanobi odległość, która zmniejsza się do odległości euklidesowej, jeśli .Σ = Iχ2=(xμ)TΣ1(xμ)Σ=ja

W swoim artykule z 1900 r. Pearson argumentował, że poziomy są sferoidami i że może przekształcić się we współrzędne sferyczne w celu zintegrowania wartości takiej jak . Który staje się pojedynczą całką. P ( χ 2 > a )χ2)P.(χ2)>za)


To właśnie reprezentacja geometryczna, jako odległość, a także termin w funkcji gęstości, może pomóc zrozumieć zmniejszenie stopni swobody, gdy występują ograniczenia liniowe.χ2)

Pierwszy przypadek tabeli awaryjnej 2x2 . Powinieneś zauważyć, że cztery wartości nie są czterema niezależnymi normalnymi zmiennymi rozproszonymi. Zamiast tego są ze sobą powiązane i sprowadzają się do jednej zmiennej.Oja-mijamija

Pozwala użyć tabeli

Ojajot=o11o12o21o22

to jeśli oczekiwane wartości

mijajot=mi11mi12mi21mi22

gdzie ustalone wtedy byłby dystrybuowany jako rozkład chi-kwadrat o czterech stopniach swobody, ale często szacujemy na podstawie a odmiana nie przypomina czterech niezależnych zmiennych. Zamiast tego otrzymujemy, że wszystkie różnice między i są takie same eijoijoeojajot-mijajotmijajotmijajotojajotomi

(o11-mi11)=(o22-mi22)=-(o21-mi21)=-(o12-mi12)=o11-(o11+o12)(o11+o21)(o11+o12+o21+o22)

i faktycznie są one pojedynczą zmienną, a nie czterema. Geometrycznie możesz to zobaczyć jako wartość nie zintegrowaną z czterowymiarową kulą, ale z pojedynczą linią.χ2)

Zauważ, że ten test tabeli awaryjnej nie ma zastosowania do tabeli awaryjnej w teście Hosmera-Lemeshowa (wykorzystuje inną hipotezę zerową!). Zobacz także sekcję 2.1 „Przypadek, w którym znane są i ” w artykule Hosmer i Lemshow. W ich przypadku otrzymujesz 2g-1 stopni swobody, a nie g-1 stopni swobody, jak w regule (R-1) (C-1). Ta reguła (R-1) (C-1) dotyczy w szczególności hipotezy zerowej, że zmienne wierszy i kolumn są niezależne (co stwarza ograniczenia R + C-1 dla wartości ). Test Hosmera-Lemeshowa dotyczy hipotezy, że komórki są wypełnione zgodnie z prawdopodobieństwami modelu regresji logistycznej opartej naβ _ o i - e i f o u p p + 1β0β_oja-mijafaourparametry w przypadku założenia dystrybucyjnego A i parametry w przypadku założenia dystrybucyjnego B.p+1

Drugi przypadek regresji. Regresja robi coś podobnego do różnicy jak stół awaryjny i ogranicza wymiarowości zmienności. Jest na to ładna reprezentacja geometryczna, ponieważ wartość można przedstawić jako sumę wyrażenia modelowego i wyrażenia resztkowego (nie błędu) . Każdy z tych terminów modelowych i rezydualny reprezentuje przestrzeń wymiarową, która jest do siebie prostopadła. Oznacza to, że pozostałe warunki nie mogą przyjąć żadnej możliwej wartości! Mianowicie, są one zmniejszane przez część, która rzutuje na model, a dokładniej 1 wymiar dla każdego parametru w modelu.y i β x i ϵ i ϵ io-miyjaβxjaϵjaϵja


Może poniższe zdjęcia mogą trochę pomóc

Poniżej znajdują się 400 razy trzy (nieskorelowane) zmienne z rozkładów dwumianowych . Dotyczą one normalnych zmiennych rozproszonych . Na tym samym obrazie rysujemy powierzchnię izo dla . Całkując w tej przestrzeni za pomocą współrzędnych sferycznych, tak że potrzebujemy tylko pojedynczej integracji (ponieważ zmiana kąta nie zmienia gęstości), nad daje w którym ta część reprezentuje obszar kuli dwuwymiarowej. Gdybyśmy ograniczyli zmienneb(n=60,p=1/6,2)/6,3)/6)N.(μ=np,σ2)=np(1-p))χ2)=1,2),6χ0zami-12)χ2)χre-1reχχre-1χ w pewnym sensie integracja nie dotyczyłaby sfery d-wymiarowej, ale czegoś o niższym wymiarze.

graficzna reprezentacja chi ^ 2

Poniższy obraz można wykorzystać, aby uzyskać wyobrażenie o zmniejszeniu wymiarów w kategoriach resztkowych. Wyjaśnia metodę dopasowania najmniejszych kwadratów w ujęciu geometrycznym.

Na niebiesko masz pomiary. Na czerwono masz to, na co pozwala model. Pomiar często nie jest dokładnie równy modelowi i ma pewne odchylenia. Geometrycznie możesz to uznać za odległość od mierzonego punktu do czerwonej powierzchni.

Czerwone strzałki i mają wartości i i mogą być powiązane z jakimś modelem liniowym, ponieważ x = a + b * z + błąd lubmu1mu2)(1,1,1)(0,1,2))

[x1x2)x3)]=za[111]+b[012)]+[ϵ1ϵ2)ϵ3)]

więc rozpiętość tych dwóch wektorów i (czerwona płaszczyzna) są wartościami możliwymi w modelu regresji, a jest wektorem, który jest różnicą między wartość obserwowana i wartość regresji / wartości modelowanej. W metodzie najmniejszych kwadratów ten wektor jest prostopadły (najmniejsza odległość to najmniejsza suma kwadratów) do czerwonej powierzchni (a modelowana wartość jest rzutem obserwowanej wartości na czerwoną powierzchnię).( 0 , 1 , 2 ) x ϵ(1,1,1)(0,1,2))xϵ

Tak więc ta różnica między obserwowaną a (modelowaną) oczekiwaną jest sumą wektorów, które są prostopadłe do wektora modelu (i ta przestrzeń ma wymiar całkowitej przestrzeni minus liczba wektorów modelu).

W naszym prostym przykładzie. Całkowity wymiar to 3. Model ma 2 wymiary. Błąd ma wymiar 1 (więc bez względu na to, który z tych niebieskich punktów bierzesz, zielone strzałki pokazują pojedynczy przykład, terminy błędów mają zawsze ten sam stosunek, podążaj za jednym wektorem).

graficzna reprezentacja redukcji wymiaru regresji


Mam nadzieję, że to wyjaśnienie pomoże. Nie jest to w żaden sposób rygorystyczny dowód i istnieją pewne specjalne sztuczki algebraiczne, które należy rozwiązać w tych reprezentacjach geometrycznych. Ale tak czy inaczej lubię te dwie reprezentacje geometryczne. Jeden dla Pearsona polegający na zintegrowaniu za pomocą współrzędnych sferycznych, a drugi do oglądania metody sumy metodą najmniejszych kwadratów jako rzutu na płaszczyznę (lub większą rozpiętość).χ2)

Zawsze dziwi mnie to, jak skończymy na , to z mojego punktu widzenia nie jest trywialne, ponieważ normalne przybliżenie dwumianu nie jest odchyleniem przez ale przez i w w przypadku tabel awaryjnych można to łatwo opracować, ale w przypadku regresji lub innych ograniczeń liniowych nie działa to tak łatwo, podczas gdy literatura często bardzo łatwo dowodzi, że „działa to tak samo w przypadku innych ograniczeń liniowych” . (Ciekawy przykład problemu. Jeśli wykonasz następujący test wielokrotnie „rzuć 2 razy 10 razy monetę i zarejestruj tylko przypadki, w których suma wynosi 10”, nie uzyskasz typowego rozkładu chi-kwadrat dla tego ” proste „ograniczenie liniowe) enp(1-p)o-mimiminp(1-p)

Sextus Empiricus
źródło
2
Moim szczerym zdaniem ta odpowiedź ma bardzo ładne liczby i argumenty związane z testem ale nie ma tak wiele wspólnego z pytaniem dotyczącym testu Hosmera-Lemeshowa dla regresji logistycznej. Kłócisz się z regresją, w której szacuje się 1 parametry, ale test Hosmera-Lemeshowa dotyczy regresji logistycznej, w której szacuje się parametrów. Zobacz także stats.stackexchange.com/questions/296312/… p > 1χ2)p>1
... i, jak mówisz, możesz skończyć z w mianowniku, a nie z , więc to nie jest odpowiedź na to pytanie. Dlatego muszę przegłosować, przepraszam (ale wykresy są bardzo ładne :-)). n p ( 1 - p )minp(1-p)
W komentarzu prosiłeś o „zrozumienie formuły lub przynajmniej„ intuicyjne ”wyjaśnienie”. Tak właśnie otrzymujesz te interpretacje geometryczne. Dokładne obliczenie, w jaki sposób te anulują się, jeśli dodasz zarówno pozytywne, jak i negatywne przypadki, nie jest intuicyjne i nie pomaga zrozumieć wymiarów. np(1-p)
Sextus Empiricus
W mojej odpowiedzi użyłem typowych stopni swobody i założyłem, że regresja została wykonana z jednym parametrem (p = 1), co było błędem. Parametry w twoich referencjach to dwa, a i . Te dwa parametry zmniejszyłyby wymiar do d-3, gdyby spełnione były tylko odpowiednie warunki (efektywne oszacowanie) (patrz na przykład fajny artykuł Fishera) Warunki, w których chi kwadrat mierzy rozbieżność między obserwacją a hipotezą ') ....β 0 β(re-1-p)β0β
Sextus Empiricus
.... w każdym razie wyjaśniłem, dlaczego nie otrzymujemy wymiaru d-1 (i zamiast tego powinniśmy spodziewać się czegoś takiego jak d-3, jeśli umieścisz dwa parametry w regresji) i jak można sobie wyobrazić redukcję wymiarów przez efektywne oszacowanie . Jest to artykuł Moore-Spruill, który wylicza dodatkowe warunki (potencjalnie zwiększając efektywny stopień swobody) z powodu tej nieefektywności i to symulacja Hosmer-Lemeshow pokazuje, że d-2 działa najlepiej. Ta praca teoretyczna jest daleka od intuicyjnej, a symulacja daleka od dokładności. Moja odpowiedź jest tylko żądanym wyjaśnieniem różnicy w stosunku do d-1.
Sextus Empiricus