Pseudo-R2 Interpretacja McFaddena

29

Mam binarny model regresji logistycznej z pseudo-kwadratem McFaddena wynoszącym 0,192 ze zmienną zależną o nazwie płatność (1 = płatność i 0 = brak płatności). Jaka jest interpretacja tego pseudo R-kwadrat?

Czy jest to porównanie względne dla modeli zagnieżdżonych (np. Model 6 zmiennych ma pseudo R kwadrat McFaddena równy 0,192, podczas gdy model 5 zmiennych (po usunięciu jednej zmiennej ze wspomnianego wyżej modelu 6 zmiennych), ten model 5 zmiennych ma pseudo R - kwadrat 0,131. Czy chcielibyśmy zachować tę 6. zmienną w modelu?) czy jest to wartość bezwzględna (np. dany model z pseudo-kwadratem McFaddena równym 0,192 jest lepszy niż jakikolwiek istniejący model z pseudo McFaddena R-kwadrat z 0.180 (nawet modele nie zagnieżdżone)? To tylko możliwe sposoby spojrzenia na pseudo-kwadrat McFaddena; jednak zakładam, że te dwa poglądy są dalekie, stąd powód, dla którego zadaję to pytanie tutaj.

Przeprowadziłem wiele badań na ten temat i jeszcze nie znalazłem odpowiedzi, której szukam w zakresie interpretacji pseudo R kwadrat McFaddena równej 0,192. Wszelkie informacje i / lub referencje są bardzo mile widziane! Zanim odpowiem na to pytanie, zdaję sobie sprawę, że nie jest to najlepszy sposób na opisanie modelu regresji logistycznej, ale mimo to chciałbym lepiej zrozumieć tę statystykę!

Matt Reichenbach
źródło

Odpowiedzi:

34

Pomyślałem więc, że podsumuję to, czego się dowiedziałem o pseudo R2 McFaddena jako właściwą odpowiedź.

Najważniejsze odniesienie, jakie widzę dla pseudo R2 McFaddena, brzmi: McFadden, D. (1974) „Warunkowa analiza logitów zachowania jakościowego wyboru”. Pp. 105-142 w P. Zarembka (red.), Frontiers in Econometrics. Prasa akademicka. http://eml.berkeley.edu/~mcfadden/travel.html Rysunek 5.5 pokazuje zależność między kwadratem rho i tradycyjnymi miarami R2 z OLS. Moja interpretacja jest taka, że ​​większe wartości kwadratu rho (pseudo R2 McFaddena) są lepsze niż mniejsze.

Interpretacja pseudo R2 McFaddena między 0,2-0,4 pochodzi z rozdziału książki, do którego się przyczynił: Bahvioural Travel Modeling. Pod redakcją David Hensher i Peter Stopher. 1979. McFadden przyczynił się Ch. 15 „Ilościowe metody analizy zachowań podróżnych w odniesieniu do osób fizycznych: niektóre ostatnie zmiany”. Dyskusja na temat oceny modelu (w kontekście wielomianowych modeli logit) rozpoczyna się na stronie 306, gdzie wprowadza rho-kwadrat (pseudo R2 McFaddena). McFadden stwierdza: „chociaż indeks R2 jest bardziej znaną koncepcją dla planistów, którzy mają doświadczenie w OLS, nie jest tak dobrze zachowywany jak miara Rho-kwadrat do oszacowania ML. Tych, którzy nie znają Rho-kwadrat, należy ostrzec, że jego wartości mają tendencję być znacznie niższy niż wartości indeksu R2 ... Na przykład wartości od 0,2 do 0,4 dla kwadratu rho przedstawiają DOSKONAŁE dopasowanie.

Zasadniczo więc kwadrat rho można interpretować jak R2, ale nie oczekuj, że będzie tak duży. A wartości od 0,2-0,4 wskazują (słowami McFaddena) doskonałe dopasowanie modelu.

Chris
źródło
Dobre podsumowanie, Chris. Dziękuję za Twój wysiłek!
Matt Reichenbach
Spóźniłem się na dyskusję, ale zostawiam ten link, w którym wyjaśniają R2 MacFadden w porównaniu do innych środków dostosowawczych: statisticshorizons.com/r2logistic
sergiouribe
13

R kwadrat McFaddena definiuje się jako 1-l_mod / l_null, gdzie l_mod to wartość prawdopodobieństwa logarytmu dla dopasowanego modelu, a l_null to prawdopodobieństwo logarytmu dla modelu zerowego, który obejmuje tylko punkt przecięcia jako predyktor (tak, że każda osoba jest przewidywana z takim samym prawdopodobieństwem sukcesu').

W przypadku modelu regresji logistycznej wartość prawdopodobieństwa logarytmu jest zawsze ujemna (ponieważ udział prawdopodobieństwa z każdej obserwacji jest prawdopodobieństwem między 0 a 1). Jeśli twój model tak naprawdę nie prognozuje wyniku lepiej niż model zerowy, l_mod nie będzie znacznie większy niż l_null, a zatem l_mod / l_null wynosi około 1, a kwadrat McFaddena R jest bliski 0 (twój model nie ma wartości predykcyjnej) .

I odwrotnie, jeśli twój model był naprawdę dobry, osoby z wynikiem (1) miałyby dopasowane prawdopodobieństwo bliskie 1, i odwrotnie, dla tych z wynikiem (0). W takim przypadku, jeśli przejdziesz przez obliczenia prawdopodobieństwa, wkład prawdopodobieństwa każdego z osobna dla twojego modelu będzie bliski zeru, tak że l_mod jest bliski zeru, a kwadrat McFaddena R jest bliski 1, co wskazuje na bardzo dobrą zdolność predykcyjną.

Co do tego, co można uznać za dobrą wartość, moim osobistym poglądem jest to, że podobne pytania w statystyce (np. Co stanowi dużą korelację?), Czy nigdy nie może być ostateczną odpowiedzią. W zeszłym roku napisałem post na blogu o regresji logistycznej McFadden's R, który zawiera kilka dalszych ilustracji symulacyjnych.

Jonathan Bartlett
źródło
5

Przeprowadziłem bardziej ukierunkowane badania na ten temat i odkryłem, że interpretacje pseudo R-kwadrat McFaddena (znane również jako wskaźnik ilorazu prawdopodobieństwa) nie są jasne; może jednak wynosić od 0 do 1, ale nigdy nie osiągnie ani nie przekroczy 1 w wyniku obliczeń.

Zasadą, którą uważam za bardzo pomocną, jest to, że pseudo-kwadrat McFaddena w zakresie od 0,2 do 0,4 wskazuje na bardzo dobre dopasowanie modelu. Jako taki, wspomniany powyżej model z pseudo-kwadratem McFaddena równym 0,192, prawdopodobnie nie jest strasznym modelem, przynajmniej według tej miary, ale nie jest też szczególnie silny.

Należy również zauważyć, że pseudo-kwadrat McFaddena najlepiej nadaje się do porównywania różnych specyfikacji tego samego modelu (tj. Modeli zagnieżdżonych). W odniesieniu do wyżej wspomnianego przykładu model 6 zmiennych (pseudo-kwadrat McFaddena = 0,192) pasuje do danych lepiej niż model 5 zmiennych (pseudo-kwadrat McFaddena = 0,131), który formalnie przetestowałem za pomocą testu współczynnika logarytmu , co wskazuje, że istnieje znacząca różnica ( p <0,001) między dwoma modelami, a zatem model 6 zmiennych jest preferowany dla danego zestawu danych.

Matt Reichenbach
źródło
1
Jakie jest odniesienie, które twierdzi, że R2 McFaddena między 0,2 - 0,4 jest „bardzo dobrym” dopasowaniem?
Chris
Btw ... tutaj jest odniesienie i link do oryginalnego artykułu McFaddena, w którym definiuje swoją miarę pseudo-R2. McFadden, D. (1974) „Warunkowa analiza logitowa zachowania jakościowego wyboru”. Pp. 105-142 w P. Zarembka (red.), Frontiers in Econometrics. Prasa akademicka. elsa.berkeley.edu/reprints/mcfadden/zarembka.pdf
Chris
1
Dzięki za referencje. Wygląda na to, że wiele prac McFaddena można znaleźć na jego stronie internetowej Berkeley. Poniżej znajduje się link do całej cytowanej powyżej książki: elsa.berkeley.edu/users/mcfadden/travel.html Wszystkie rozdziały są wyświetlane w formacie PDF. Rho-kwadrat (pseudo R2 McFaddena) jest wspomniany w rozdziale 5. Strony 122 i dalej (patrz równanie 5.33 i wykres, który następuje zaraz potem). Nie widzę żadnej wzmianki o 0,2-0,4 = „Dopasowanie modelu VG”. Będę nadal poszukiwał przełomowego wyglądu tej „ogólnej zasady”. Dzięki za pomoc!
Chris
1
Nie ma problemu! Doceniam twoją ciekawość i staranność. Dokładną frazę można znaleźć na stronie lifesciencesite.com/lsj/life1002/… , gdzie autorzy stwierdzają: „Do dopasowania całego modelu użyto pseudo r-kwadrat McFaddena (ρ2). McFadden zasugerował ρ2 należy przyjąć wartości od 0,2 do 0,4, aby reprezentować bardzo dobre dopasowanie modelu (Louviere i in., 2000). ”
Matt Reichenbach
4
Moja instytucja ma elektroniczną kopię Louviere i in. (2000). „Stated Choice Methods: Analysis and Applications”. Cambridge University Press. To jest odniesienie, które Lee (Life Science Journal) cytuje dla rho-kwadrat w {0.2-0.4} = "dopasowanie VG". Na stronie 55 Louviere (związanej z równaniem 3.32) znajduje się następujący cytat: „Wartości kwadratów rho między 0,2-0,4 uważa się za wskazujące na bardzo dobre dopasowanie modelu. Symulacje Domenicha i McFaddena (1975) równoważą ten zakres z Od 0,7 do 0,9 dla funkcji liniowej ”.
Chris