Mam SPSS
dane wyjściowe dla modelu regresji logistycznej. Dane wyjściowe zgłaszają dwie miary dopasowania modelu Cox & Snell
oraz Nagelkerke
.
Więc z reguły, które z tych mierników jako pasujące do modelu?
Lub który z tych dopasowanych wskaźników jest zwykle zgłaszany w czasopismach?
Niektóre tło: Regresja próbuje przewidzieć obecność lub nieobecność ptaka (głuszca) na podstawie niektórych zmiennych środowiskowych (np. Stromości, pokrywy roślinnej, ...). Niestety ptak nie pojawiał się zbyt często (35 trafień do 468 chybień), więc regresja działa raczej słabo. Cox & Snell to .09, Nagelkerke, .23.
Przedmiotem jest nauki o środowisku lub ekologia.
logistic
goodness-of-fit
r-squared
Henrik
źródło
źródło
Odpowiedzi:
Normalnie w ogóle nie zgłosiłbym . Hosmer i Lemeshow w swoim podręczniku Applied Logistic Regression (2nd Ed.) Wyjaśniają, dlaczego:R2
[W p. 164.]
W odniesieniu do różnych wersji ML , statystyki „pseudo ”, wspominają, że nie jest ona „zalecana do rutynowego użytku, ponieważ nie jest tak intuicyjnie łatwa do wyjaśnienia”, ale czują się zobowiązani do jej opisania, ponieważ różne zgłaszają to pakiety oprogramowania.R2 R2
Kończą dyskusję pisząc,
[W p. 167.]
Moje doświadczenia z niektórymi dużymi modelami logistycznymi (100–300 tys. Rekordów, 100–300 zmiennych objaśniających) były dokładnie takie, jak opisują H & L. Z moimi danymi mogłem osiągnąć stosunkowo wysoki , do około 0,40. Odpowiadały one poziomom błędu klasyfikacji między 3% a 15% (fałszywie ujemne i fałszywie dodatnie, zrównoważone, co potwierdzono przy użyciu zestawów danych wstrzymujących 50%). Jak wskazał H & L, musiałem poświęcić dużo czasu na dezorientację klienta (sam wyrafinowany konsultant, który był zaznajomiony z ) na temat i nakłonienie go do skupienia się na tym, co miało znaczenie w analizie (błąd klasyfikacji stawki). Mogę gorąco polecić opisanie wyników twojej analizy bez odniesienia do , która jest bardziej prawdopodobna, aby wprowadzić w błąd niż nie.R2 R2 R2 R2
źródło
Oba wskaźniki są miarami siły asocjacji (tj. Czy jakikolwiek predyktor jest powiązany z wynikiem, jak w przypadku testu LR) i mogą być stosowane do oceny zdolności predykcyjnej lub wydajności modelu. Pojedynczy predyktor może mieć znaczący wpływ na wynik, ale niekoniecznie może być tak przydatny do przewidywania indywidualnej odpowiedzi , stąd potrzeba oceny wydajności modelu jako całości (wr. Model zerowy). Nagelkerke jest użyteczny, ponieważ ma maksymalną wartość 1,0, jak powiedział Srikant. To tylko znormalizowana wersja obliczona ze współczynnika prawdopodobieństwa,R 2 R 2 LR = 1 - exp ( - LR / n )R2 R2 R2LR=1−exp(−LR/n) , który ma związek ze statystyką Walda dla ogólnego skojarzenia, jak pierwotnie zaproponowali Cox i Snell. Inne wskaźniki zdolności predykcyjnej to wynik Briera, wskaźnik C (prawdopodobieństwo zgodności lub obszar ROC) lub D Somersa, przy czym dwa ostatnie stanowią lepszą miarę dyskryminacyjnej predykcji.
Jedynymi założeniami regresji logistycznej są liniowość i addytywność (+ niezależność). Chociaż zaproponowano wiele globalnych testów dopasowania (takich jak test Hosmer & Lemeshow , ale patrz mój komentarz do @onestop), generalnie brakuje im mocy. Do oceny dopasowania modelu lepiej jest polegać na kryteriach wizualnych (szacunki warstwowe, wygładzanie nieparametryczne), które pomagają dostrzec lokalne lub globalne odstępstwo między przewidywanymi a obserwowanymi wynikami (np. Nieliniowość lub interakcja), i jest to w dużej mierze szczegółowo opisane w RMS Harrella materiały informacyjne . Na pokrewny temat (testy kalibracyjne), Steyerberg ( kliniczne modele predykcyjneχ2 , 2009) wskazuje na to samo podejście do oceny zgodności między zaobserwowanymi wynikami a przewidywanymi prawdopodobieństwami:
Sugeruje również, aby polegać na bezwzględnej różnicy między wygładzonymi zaobserwowanymi wynikami a przewidywanymi prawdopodobieństwami albo wizualnie, albo przy tak zwanej statystyce E. Harrella.
Więcej szczegółów można znaleźć w książce Harrella, Regression Modeling Strategies (str. 203-205, 230-244, 247-249). Aby zapoznać się z najnowszą dyskusją, zobacz także
Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ i Kattan, MW (2010). Ocena wydajności modeli predykcyjnych, ramy dla tradycyjnych i nowatorskich miar . Epidemiology , 21 (1) , 128-138.
źródło
Myślałem, że głównym problemem związanym z jakąkolwiek miarą regresji logistycznej jest to, że mamy do czynienia z modelem, który ma znaną wartość szumu. Jest to odmienne od standardowej regresji liniowej, w której poziom hałasu jest zwykle traktowany jako nieznany. Ponieważ możemy napisać funkcję gęstości prawdopodobieństwa glm jako:R2
Gdzie Są znanymi funkcjami, a dla funkcji odwrotnego łącza . Jeśli zdefiniujemy zwykłe wartości odchylenia GLM jakob(.), c(.), d(.;.) μi=g−1(xTiβ) g−1(.)
Gdzie jest wymiarem . Dla regresji logistycznej mamy , co jest znane. Możemy więc wykorzystać to do ustalenia określonego poziomu resztek, który jest „akceptowalny” lub „rozsądny”. Zwykle nie można tego zrobić w przypadku regresji OLS (chyba że masz wcześniejsze informacje o hałasie). Mianowicie, oczekujemy, że każde odchylenie resztkowe wyniesie około . Za dużo i prawdopodobne jest, że w modelu brakuje ważnych efektów (niedopasowanie); za dużo i prawdopodobne jest, że w modelu występują nadmiarowe lub fałszywe efekty (nadmierne dopasowanie). (może to również oznaczać nieprawidłowe określenie modelu).p β ϕ=1 1 d2i≫1 d2i≪1
Oznacza to, że problemem dla pseudo- jest to, że nie bierze on pod uwagę, że poziom zmienności dwumianowej jest przewidywalny (pod warunkiem, że struktura błędu dwumianowego nie jest kwestionowana). Dlatego nawet jeśli zakres Nagelkerke wynosi od do , nadal nie jest poprawnie skalowany. Ponadto nie rozumiem, dlaczego są one nazywane pseudo jeśli nie są one równe zwykłemu gdy dopasujesz „GLM” z łączem tożsamości i normalnym błędem. Na przykład równoważny współczynnik R-kwadratowy cox-snell dla błędu normalnego (przy użyciu oszacowania wariancji REML) jest określony przez:R2 0 1 R2 R2
Co z pewnością wygląda dziwnie.
Myślę, że lepszą miarą „dobroci dopasowania” jest suma reszt odchylenia, . Jest tak głównie dlatego, że mamy cel do osiągnięcia.χ2
źródło
Znalazłem krótki artykuł Tue Tjura „Współczynniki determinacji w modelach regresji logistycznej - nowa propozycja: współczynnik dyskryminacji” (2009, The American Statistician ) na temat różnych propozycji współczynnika determinacji w modelach logistycznych dość pouczający. Wykonuje dobrą robotę, podkreślając zalety i wady - i oczywiście oferuje nową definicję. Bardzo polecam (chociaż sam nie mam ulubionego).
źródło
Chciałem też powiedzieć „żadne z nich”, więc głosowałem za odpowiedzią Whubera.
Oprócz krytykowania R ^ 2, Hosmer i Lemeshow zaproponowali alternatywną miarę dobroci dopasowania dla regresji logistycznej, która jest czasami przydatna. Polega to na podzieleniu danych na (powiedzmy) 10 grup o jednakowej wielkości (lub tak blisko, jak to możliwe) przez uporządkowanie przewidywanego prawdopodobieństwa (lub równoważnie predyktora liniowego), a następnie porównanie zaobserwowanej z oczekiwaną liczbą pozytywnych odpowiedzi w każdej grupie i przeprowadzanie testu chi-kwadrat. Ten „test dobroci dopasowania Hosmer-Lemeshow” jest realizowany w większości statystycznych pakietów oprogramowania.
źródło
Design
pakiet Franka Harrella zawiera alternatywny test H&L 1 df.Wolałbym Nagelkerke, ponieważ ten model pasuje do 1, gdy model pasuje idealnie, dając czytelnikowi poczucie, jak daleko jest twój model od idealnego dopasowania. Cox & Shell nie osiąga 1 dla idealnego dopasowania modelu, dlatego interpretacja wartości 0,09 jest nieco trudniejsza. Zobacz ten adres, aby uzyskać dodatkowe informacje na temat Pseudo RSquared, aby uzyskać wyjaśnienie różnych rodzajów napadów .
źródło
Pomimo argumentów przeciwko używaniu pseudo-r-kwadratów, niektórzy ludzie z różnych powodów będą chcieli nadal używać ich przynajmniej w określonych momentach. To, co zinternalizowałem z moich odczytów (i przepraszam, że nie mogę w tej chwili podać cytatów), to to
jeśli oba są powyżej 0,5, Nag. będzie; a
jeśli mają ok. 5, punt.
Ponadto formuła, której wyniki często mieszczą się między nimi, wymieniona przez Scotta Menarda w Applied Logistic Regression Analysis (Sage), jest
Jest to oznaczone jako „L” na poniższej tabeli.
źródło