Mam binarny model regresji logistycznej z pseudo-kwadratem McFaddena wynoszącym 0,192 ze zmienną zależną o nazwie płatność (1 = płatność i 0 = brak płatności). Jaka jest interpretacja tego pseudo R-kwadrat?
Czy jest to porównanie względne dla modeli zagnieżdżonych (np. Model 6 zmiennych ma pseudo R kwadrat McFaddena równy 0,192, podczas gdy model 5 zmiennych (po usunięciu jednej zmiennej ze wspomnianego wyżej modelu 6 zmiennych), ten model 5 zmiennych ma pseudo R - kwadrat 0,131. Czy chcielibyśmy zachować tę 6. zmienną w modelu?) czy jest to wartość bezwzględna (np. dany model z pseudo-kwadratem McFaddena równym 0,192 jest lepszy niż jakikolwiek istniejący model z pseudo McFaddena R-kwadrat z 0.180 (nawet modele nie zagnieżdżone)? To tylko możliwe sposoby spojrzenia na pseudo-kwadrat McFaddena; jednak zakładam, że te dwa poglądy są dalekie, stąd powód, dla którego zadaję to pytanie tutaj.
Przeprowadziłem wiele badań na ten temat i jeszcze nie znalazłem odpowiedzi, której szukam w zakresie interpretacji pseudo R kwadrat McFaddena równej 0,192. Wszelkie informacje i / lub referencje są bardzo mile widziane! Zanim odpowiem na to pytanie, zdaję sobie sprawę, że nie jest to najlepszy sposób na opisanie modelu regresji logistycznej, ale mimo to chciałbym lepiej zrozumieć tę statystykę!
źródło
R kwadrat McFaddena definiuje się jako 1-l_mod / l_null, gdzie l_mod to wartość prawdopodobieństwa logarytmu dla dopasowanego modelu, a l_null to prawdopodobieństwo logarytmu dla modelu zerowego, który obejmuje tylko punkt przecięcia jako predyktor (tak, że każda osoba jest przewidywana z takim samym prawdopodobieństwem sukcesu').
W przypadku modelu regresji logistycznej wartość prawdopodobieństwa logarytmu jest zawsze ujemna (ponieważ udział prawdopodobieństwa z każdej obserwacji jest prawdopodobieństwem między 0 a 1). Jeśli twój model tak naprawdę nie prognozuje wyniku lepiej niż model zerowy, l_mod nie będzie znacznie większy niż l_null, a zatem l_mod / l_null wynosi około 1, a kwadrat McFaddena R jest bliski 0 (twój model nie ma wartości predykcyjnej) .
I odwrotnie, jeśli twój model był naprawdę dobry, osoby z wynikiem (1) miałyby dopasowane prawdopodobieństwo bliskie 1, i odwrotnie, dla tych z wynikiem (0). W takim przypadku, jeśli przejdziesz przez obliczenia prawdopodobieństwa, wkład prawdopodobieństwa każdego z osobna dla twojego modelu będzie bliski zeru, tak że l_mod jest bliski zeru, a kwadrat McFaddena R jest bliski 1, co wskazuje na bardzo dobrą zdolność predykcyjną.
Co do tego, co można uznać za dobrą wartość, moim osobistym poglądem jest to, że podobne pytania w statystyce (np. Co stanowi dużą korelację?), Czy nigdy nie może być ostateczną odpowiedzią. W zeszłym roku napisałem post na blogu o regresji logistycznej McFadden's R, który zawiera kilka dalszych ilustracji symulacyjnych.
źródło
Przeprowadziłem bardziej ukierunkowane badania na ten temat i odkryłem, że interpretacje pseudo R-kwadrat McFaddena (znane również jako wskaźnik ilorazu prawdopodobieństwa) nie są jasne; może jednak wynosić od 0 do 1, ale nigdy nie osiągnie ani nie przekroczy 1 w wyniku obliczeń.
Zasadą, którą uważam za bardzo pomocną, jest to, że pseudo-kwadrat McFaddena w zakresie od 0,2 do 0,4 wskazuje na bardzo dobre dopasowanie modelu. Jako taki, wspomniany powyżej model z pseudo-kwadratem McFaddena równym 0,192, prawdopodobnie nie jest strasznym modelem, przynajmniej według tej miary, ale nie jest też szczególnie silny.
Należy również zauważyć, że pseudo-kwadrat McFaddena najlepiej nadaje się do porównywania różnych specyfikacji tego samego modelu (tj. Modeli zagnieżdżonych). W odniesieniu do wyżej wspomnianego przykładu model 6 zmiennych (pseudo-kwadrat McFaddena = 0,192) pasuje do danych lepiej niż model 5 zmiennych (pseudo-kwadrat McFaddena = 0,131), który formalnie przetestowałem za pomocą testu współczynnika logarytmu , co wskazuje, że istnieje znacząca różnica ( p <0,001) między dwoma modelami, a zatem model 6 zmiennych jest preferowany dla danego zestawu danych.
źródło
http://cowles.yale.edu/sites/default/files/files/pub/d04/d0474.pdf
źródło