Obecnie czytam artykuł na temat miejsca głosowania i preferencji głosowania w wyborach w 2000 i 2004 roku. Na nim znajduje się wykres przedstawiający współczynniki regresji logistycznej. Z kursów sprzed lat i trochę czytania, Rozumiem regresję logistyczną jako sposób opisania związku między wieloma zmiennymi niezależnymi a zmienną odpowiedzi binarnej. Mylę się, biorąc pod uwagę poniższą tabelę, ponieważ Południe ma współczynnik regresji logistycznej wynoszący 0,903, czy to oznacza, że 90,3% mieszkańców Południowego głosuje na republikanów? Z powodu logistycznego charakteru metryki ta bezpośrednia korelacja nie istnieje. Zamiast tego zakładam, że można tylko powiedzieć, że południe z 0,903 głosuje na republikanów bardziej niż góry / równiny, z regresją 0,550. Biorąc pod uwagę ten drugi przypadek, skąd mam wiedzieć, co jest znaczące, a co nie, i czy można ekstrapolować procent republikańskich głosów, biorąc pod uwagę ten współczynnik regresji logistycznej.
Na marginesie, proszę edytować mój post, jeśli coś jest źle podane
źródło
Odpowiedzi:
Że autor został zmuszony kogoś jak miło, jak można mieć zadać pytanie jak to jest przekonujące ilustracją dlaczego praktyka - jeszcze sposób zbyt często - umieszczanie raportowanie wyników modelu regresji do stołu, jak to jest więc nie do przyjęcia.
Jak wskazano, możesz spróbować przekształcić współczynnik logit w jakieś znaczące wskazanie szacowanego efektu dla danego predyktora, ale jest to uciążliwe i nie przekazuje informacji o precyzji prognozy, co jest zwykle bardzo ważne w model regresji logistycznej (w szczególności w przypadku głosowania).
Również użycie wielu gwiazdek do zgłaszania „poziomów” istotności wzmacnia błędne przekonanie, że wartości p są pewnym znaczącym wskaźnikiem wielkości efektu („wow - ta ma 3 gwiazdki !!”); dla głośnego wołania, w / N od 10 000 do 20 000, zupełnie trywialne różnice będą „znaczące” przy p <0,001 bla bla.
W ten sposób nie ma absolutnie żadnej potrzeby tajemniczości. Model regresji logistycznej jest równaniem, które można wykorzystać (poprzez wyznaczenie wyznacznika lub jeszcze lepszą symulację) do przewidzenia prawdopodobieństwa wyniku zależnego od określonych wartości predyktorów, z zastrzeżeniem błędu pomiaru. Tak więc badacz powinien się zgłosićjaki wpływ mają predyktory zainteresowania na prawdopodobieństwo zmiennej wyniku wyniku i związanego z nią CI, mierzone w jednostkach, których praktyczne znaczenie można łatwo uchwycić. Aby zapewnić gotowe chwytanie, wyniki powinny być wyświetlane graficznie. Tutaj, na przykład, badacz mógłby zgłosić, że bycie wiejskim w przeciwieństwie do miejskiego wyborcy zwiększa prawdopodobieństwo głosowania republikaninem, wszystko inne równym, o X punktów procentowych (zgaduję około 17 w 2000 roku; „dziel przez 4” to rozsądna heurystyka) +/- x% przy poziomie ufności 0,95 - jeśli jest to coś, co warto wiedzieć.
Zgłoszenie pseudo R ^ 2 jest również znakiem, że modelarz jest zaangażowany w statystyczny rytuał, a nie w jakąkolwiek próbę rozjaśnienia. Istnieje wiele sposobów obliczania „pseudo R ^ 2”; można narzekać, że ten użyty tutaj nie jest określony, ale po co się tym przejmować? Wszystkie są prawie bez znaczenia. Jedynym powodem, dla którego ktoś używa pseudo R ^ 2, jest to, że on lub recenzent, który ich torturuje, nauczył się (prawdopodobnie 25 lat temu), że regresja liniowa OLS to święty graal statystyk i uważa, że jedyną rzeczą, jaką kiedykolwiek próbuje się dowiedzieć to „wyjaśniona wariancja”. Istnieje wiele możliwych do obrony sposobów oceny adekwatności ogólnego dopasowania modelu do analizy logistycznej, a współczynnik wiarygodności dostarcza istotnych informacji do porównania modeli odzwierciedlających alternatywne hipotezy. King, G. Jak nie kłamać ze statystykami. Jestem. J. Pol. Sci. 30, 666-687 (1986).
Jeśli czytasz artykuł, w którym raportowanie jest mniej więcej ograniczone do tabeli takiej jak ta, nie myl się, nie zastraszaj się i zdecydowanie nie bądź pod wrażeniem; zamiast tego złość się i powiedz badaczowi, że wykonuje kiepską pracę (szczególnie jeśli zanieczyszcza lokalne środowisko intelektualne z mistycyzmem i podziwem - zdumiewające, jak wielu całkowicie przeciętnych myślicieli oszuka mądrych ludzi, którzy myślą, że wiedzą coś po prostu b) / c mogą stworzyć tabelę, której ten drugi nie może zrozumieć). Inteligentne i umiarkowane ekspozycje tych pomysłów można znaleźć w King, G., Tomz, M. & Wittenberg., J. Jak wykorzystać większość analiz statystycznych: poprawa interpretacji i prezentacji . Jestem. J. Pol. Sci. 44, 347-361 (2000); i Gelman, A., Pasarica, C. i Dodhia, R.Przećwiczmy to, co głosimy: przekształcanie tabel w wykresy . Jestem. Stat. 56, 121–130 (2002).
źródło
Chodzi o to, że w regresji logistycznej nie przewidujemy rzeczywistego prawdopodobieństwa, że, powiedzmy, południowiec głosuje na republikana, ale jego przekształcona wersja, „logarytmiczne szanse”. Zamiast prawdopodobieństwa mamy do czynienia z i znajdujemy współczynniki regresji liniowej dla szansy na log.p logp/(1−p)
Załóżmy na przykład, że miejski Northeasterner ma prawdopodobieństwo 0,3 głosowania na republikana. (Byłoby to oczywiście częścią regresji; nie widzę tego w tej tabeli, chociaż zakładam, że jest to w oryginalnej pracy.) Teraz daje ; to znaczy, , „logarytm szans” odpowiadający . Te „logarytmiczne szanse” zachowują się liniowo; logarytmiczne szanse odpowiadające wynoszą . Tak więc logarytm szans dla miejskiego republikana z południowego głosowania jest taki (co Wikipedia nazywa przecięciem, ) plus współczynnik regresji logistycznej dla południa,x=1/(1+e−z) z=logx1−x f−1(x)=logx1−x x 0.3 log0.3/0.7≈−0.85 β0 0.903 - to znaczy . Ale chcesz rzeczywistego prawdopodobieństwa, więc musimy odwrócić funkcję . To daje . Rzeczywiste szanse wzrosły z na , z na ; stosunek to , wykładniczy współczynnik regresji logistycznej.−0.85+0.904=0.05 p→logp/(1−p) f(0.05)≈1/(1+e−0.05)≈0.51 0.43 1 1.05 1 1.05/0.43 e0.903
Co więcej, wpływ, powiedzmy, na region kraju i obszar miejski / podmiejski / wiejski nie ma wpływu. Tak więc, logarytmiczne szanse wiejskiego republikana głosującego na środkowym zachodzie, powiedzmy, wynoszą zgodnie z tym modelem; prawdopodobieństwo wynosi .f ( 0,20 ) = 1 / ( 1 + e - 0,20 ) = 0,55−0.85+0.37+0.68=+0.20 f(0.20)=1/(1+e−0.20)=0.55
źródło
Współczynniki w regresji logistycznej reprezentują tendencję danego regionu / grupy demograficznej do głosowania na republikanów w porównaniu z kategorią odniesienia. Współczynnik dodatni oznacza, że region ma większe szanse na głosowanie w Republice Republikańskiej i odwrotnie za współczynnik ujemny; większa wartość bezwzględna oznacza silniejszą tendencję niż mniejsza wartość.
Kategorie referencyjne to „północny wschód” i „miejski wyborca”, więc wszystkie współczynniki reprezentują kontrasty z tym konkretnym typem wyborcy.
Zasadniczo nie ma również ograniczeń co do współczynników w regresji logistycznej, aby były w [0, 1], nawet w wartości bezwzględnej. Zauważ, że sam artykuł w Wikipedii zawiera przykład regresji logistycznej o współczynnikach -5 i 2.
źródło
Zapytałeś także „skąd mam wiedzieć, co jest ważne, a co nie”. (Zakładam, że masz na myśli statystycznie istotne, ponieważ znaczenie praktyczne lub merytoryczne to inna sprawa.) Gwiazdki w tabeli odnoszą się do przypisu: niektóre efekty odnotowano jako mające małe wartości p . Uzyskuje się je za pomocą testu Walda istotności każdego współczynnika. Zakładając losowe próbkowanie, p <0,05 oznacza, że gdyby nie było takiego efektu w większej populacji, prawdopodobieństwo zobaczenia połączenia tak silnego jak to zaobserwowane lub silniejsze w próbce tej wielkości byłoby mniejsze niż 0,05 . Na tej stronie zobaczysz wiele wątków omawiających subtelny, ale ważny powiązany punkt, którego nie robi p <0,05 oznacza, że istnieje prawdopodobieństwo .05 braku związku w większej populacji.
źródło
Chciałbym tylko podkreślić znaczenie tego, co zauważyli zarówno rolando2, jak i dmk38: znaczenie jest często błędnie odczytywane i istnieje wysokie ryzyko, że tak się stanie z tabelaryczną prezentacją wyników.
Paul Schrodt niedawno przedstawił ładny opis problemu:
(fn) Przypis informuje również o innym problemie, wspomnianym przez dmk38: „[wszechobecny Mistyczny Kult Gwiazd i Wartości P] wyparł wcześniejszy - i równie wszechobecny - Kult Najwyższego R2, zburzony… przez króla (1986) . ”
źródło