Jakie jest znaczenie współczynników regresji logistycznej?

42

Obecnie czytam artykuł na temat miejsca głosowania i preferencji głosowania w wyborach w 2000 i 2004 roku. Na nim znajduje się wykres przedstawiający współczynniki regresji logistycznej. Z kursów sprzed lat i trochę czytania, Rozumiem regresję logistyczną jako sposób opisania związku między wieloma zmiennymi niezależnymi a zmienną odpowiedzi binarnej. Mylę się, biorąc pod uwagę poniższą tabelę, ponieważ Południe ma współczynnik regresji logistycznej wynoszący 0,903, czy to oznacza, że ​​90,3% mieszkańców Południowego głosuje na republikanów? Z powodu logistycznego charakteru metryki ta bezpośrednia korelacja nie istnieje. Zamiast tego zakładam, że można tylko powiedzieć, że południe z 0,903 głosuje na republikanów bardziej niż góry / równiny, z regresją 0,550. Biorąc pod uwagę ten drugi przypadek, skąd mam wiedzieć, co jest znaczące, a co nie, i czy można ekstrapolować procent republikańskich głosów, biorąc pod uwagę ten współczynnik regresji logistycznej. Tabela przedstawiająca współczynniki regresji logistycznej

Na marginesie, proszę edytować mój post, jeśli coś jest źle podane

amccormack
źródło
Jest to raczej pytanie uzupełniające (i prawdopodobnie nie powinienem tego zamieszczać), ale czy znalazłeś dobry sposób na „czy można ekstrapolować procent”, ponieważ jest to właściwie to, czego szukam.
Stefan Andersson
2
Myślę, że byłoby lepiej dla ciebie sformułować to jako samodzielne pytanie i opublikować je osobno, niż jako odpowiedź tutaj.
kardynał
Jeśli ktoś zastanawia się nad gazetą, to SC McKee i JM Teigen's Probing the reds and blues: Sekciarstwo i lokalizacja wyborców w wyborach prezydenckich w USA w 2000 i 2004 roku (2009) Geografia polityczna
Alex Nelson

Odpowiedzi:

36

Że autor został zmuszony kogoś jak miło, jak można mieć zadać pytanie jak to jest przekonujące ilustracją dlaczego praktyka - jeszcze sposób zbyt często - umieszczanie raportowanie wyników modelu regresji do stołu, jak to jest więc nie do przyjęcia.

  1. Jak wskazano, możesz spróbować przekształcić współczynnik logit w jakieś znaczące wskazanie szacowanego efektu dla danego predyktora, ale jest to uciążliwe i nie przekazuje informacji o precyzji prognozy, co jest zwykle bardzo ważne w model regresji logistycznej (w szczególności w przypadku głosowania).

  2. Również użycie wielu gwiazdek do zgłaszania „poziomów” istotności wzmacnia błędne przekonanie, że wartości p są pewnym znaczącym wskaźnikiem wielkości efektu („wow - ta ma 3 gwiazdki !!”); dla głośnego wołania, w / N od 10 000 do 20 000, zupełnie trywialne różnice będą „znaczące” przy p <0,001 bla bla.

  3. W ten sposób nie ma absolutnie żadnej potrzeby tajemniczości. Model regresji logistycznej jest równaniem, które można wykorzystać (poprzez wyznaczenie wyznacznika lub jeszcze lepszą symulację) do przewidzenia prawdopodobieństwa wyniku zależnego od określonych wartości predyktorów, z zastrzeżeniem błędu pomiaru. Tak więc badacz powinien się zgłosićjaki wpływ mają predyktory zainteresowania na prawdopodobieństwo zmiennej wyniku wyniku i związanego z nią CI, mierzone w jednostkach, których praktyczne znaczenie można łatwo uchwycić. Aby zapewnić gotowe chwytanie, wyniki powinny być wyświetlane graficznie. Tutaj, na przykład, badacz mógłby zgłosić, że bycie wiejskim w przeciwieństwie do miejskiego wyborcy zwiększa prawdopodobieństwo głosowania republikaninem, wszystko inne równym, o X punktów procentowych (zgaduję około 17 w 2000 roku; „dziel przez 4” to rozsądna heurystyka) +/- x% przy poziomie ufności 0,95 - jeśli jest to coś, co warto wiedzieć.

  4. Zgłoszenie pseudo R ^ 2 jest również znakiem, że modelarz jest zaangażowany w statystyczny rytuał, a nie w jakąkolwiek próbę rozjaśnienia. Istnieje wiele sposobów obliczania „pseudo R ^ 2”; można narzekać, że ten użyty tutaj nie jest określony, ale po co się tym przejmować? Wszystkie są prawie bez znaczenia. Jedynym powodem, dla którego ktoś używa pseudo R ^ 2, jest to, że on lub recenzent, który ich torturuje, nauczył się (prawdopodobnie 25 lat temu), że regresja liniowa OLS to święty graal statystyk i uważa, że ​​jedyną rzeczą, jaką kiedykolwiek próbuje się dowiedzieć to „wyjaśniona wariancja”. Istnieje wiele możliwych do obrony sposobów oceny adekwatności ogólnego dopasowania modelu do analizy logistycznej, a współczynnik wiarygodności dostarcza istotnych informacji do porównania modeli odzwierciedlających alternatywne hipotezy. King, G. Jak nie kłamać ze statystykami. Jestem. J. Pol. Sci. 30, 666-687 (1986).

  5. Jeśli czytasz artykuł, w którym raportowanie jest mniej więcej ograniczone do tabeli takiej jak ta, nie myl się, nie zastraszaj się i zdecydowanie nie bądź pod wrażeniem; zamiast tego złość się i powiedz badaczowi, że wykonuje kiepską pracę (szczególnie jeśli zanieczyszcza lokalne środowisko intelektualne z mistycyzmem i podziwem - zdumiewające, jak wielu całkowicie przeciętnych myślicieli oszuka mądrych ludzi, którzy myślą, że wiedzą coś po prostu b) / c mogą stworzyć tabelę, której ten drugi nie może zrozumieć). Inteligentne i umiarkowane ekspozycje tych pomysłów można znaleźć w King, G., Tomz, M. & Wittenberg., J. Jak wykorzystać większość analiz statystycznych: poprawa interpretacji i prezentacji . Jestem. J. Pol. Sci. 44, 347-361 (2000); i Gelman, A., Pasarica, C. i Dodhia, R.Przećwiczmy to, co głosimy: przekształcanie tabel w wykresy . Jestem. Stat. 56, 121–130 (2002).

dmk38
źródło
19

Chodzi o to, że w regresji logistycznej nie przewidujemy rzeczywistego prawdopodobieństwa, że, powiedzmy, południowiec głosuje na republikana, ale jego przekształcona wersja, „logarytmiczne szanse”. Zamiast prawdopodobieństwa mamy do czynienia z i znajdujemy współczynniki regresji liniowej dla szansy na log.plogp/(1p)

Załóżmy na przykład, że miejski Northeasterner ma prawdopodobieństwo 0,3 głosowania na republikana. (Byłoby to oczywiście częścią regresji; nie widzę tego w tej tabeli, chociaż zakładam, że jest to w oryginalnej pracy.) Teraz daje ; to znaczy, , „logarytm szans” odpowiadający . Te „logarytmiczne szanse” zachowują się liniowo; logarytmiczne szanse odpowiadające wynoszą . Tak więc logarytm szans dla miejskiego republikana z południowego głosowania jest taki (co Wikipedia nazywa przecięciem, ) plus współczynnik regresji logistycznej dla południa,x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.903 - to znaczy . Ale chcesz rzeczywistego prawdopodobieństwa, więc musimy odwrócić funkcję . To daje . Rzeczywiste szanse wzrosły z na , z na ; stosunek to , wykładniczy współczynnik regresji logistycznej.0.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

Co więcej, wpływ, powiedzmy, na region kraju i obszar miejski / podmiejski / wiejski nie ma wpływu. Tak więc, logarytmiczne szanse wiejskiego republikana głosującego na środkowym zachodzie, powiedzmy, wynoszą zgodnie z tym modelem; prawdopodobieństwo wynosi .f ( 0,20 ) = 1 / ( 1 + e - 0,20 ) = 0,550.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55

Michael Lugo
źródło
2
heurystyczny: podziel przez 4 - logit coeff / 4 to ok. pct-pt diff w prob. od 1 zmiany jednostki. To nie to samo, co powiedzenie „osoba w / βsubn charcteristic = z jest x% prawdopodobne”. Nie tylko (jak zaznaczono) trzeba dodać βsub0 i odjąć prawdopodobieństwo związane z klasą referencyjną. Konieczne jest również uwzględnienie kolinearności predyktora. B / c, ponieważ południowy koreluje z innymi predyktorami, nie będzie prawdą, że prob. repub repozytorium południowego to βsub0 - przekształcone logarytmiczne kursy dla NE oraz transformowane logarytmowe kursy dla południowych. Lepiej powiedzieć: „wszystko inne równe, będąc z południa, przewiduje zmianę punktu
xpct
1
„Rzeczywiste szanse wzrosły z 0,43 do 1”. Czy 0,43 pochodzi w pierwszej kolejności?
Monica Heddneck,
Pierwotne prawdopodobieństwo , wyrażone jako szanse, wynosi . 0,3 / ( 1 - 0,3 ) 0,430.30.3/(10.3)0.43
Michael Lugo,
6

Współczynniki w regresji logistycznej reprezentują tendencję danego regionu / grupy demograficznej do głosowania na republikanów w porównaniu z kategorią odniesienia. Współczynnik dodatni oznacza, że ​​region ma większe szanse na głosowanie w Republice Republikańskiej i odwrotnie za współczynnik ujemny; większa wartość bezwzględna oznacza silniejszą tendencję niż mniejsza wartość.

Kategorie referencyjne to „północny wschód” i „miejski wyborca”, więc wszystkie współczynniki reprezentują kontrasty z tym konkretnym typem wyborcy.

Zasadniczo nie ma również ograniczeń co do współczynników w regresji logistycznej, aby były w [0, 1], nawet w wartości bezwzględnej. Zauważ, że sam artykuł w Wikipedii zawiera przykład regresji logistycznej o współczynnikach -5 i 2.

Hong Ooi
źródło
5

Zapytałeś także „skąd mam wiedzieć, co jest ważne, a co nie”. (Zakładam, że masz na myśli statystycznie istotne, ponieważ znaczenie praktyczne lub merytoryczne to inna sprawa.) Gwiazdki w tabeli odnoszą się do przypisu: niektóre efekty odnotowano jako mające małe wartości p . Uzyskuje się je za pomocą testu Walda istotności każdego współczynnika. Zakładając losowe próbkowanie, p <0,05 oznacza, że ​​gdyby nie było takiego efektu w większej populacji, prawdopodobieństwo zobaczenia połączenia tak silnego jak to zaobserwowane lub silniejsze w próbce tej wielkości byłoby mniejsze niż 0,05 . Na tej stronie zobaczysz wiele wątków omawiających subtelny, ale ważny powiązany punkt, którego nie robi p <0,05 oznacza, że ​​istnieje prawdopodobieństwo .05 braku związku w większej populacji.

rolando2
źródło
5

Chciałbym tylko podkreślić znaczenie tego, co zauważyli zarówno rolando2, jak i dmk38: znaczenie jest często błędnie odczytywane i istnieje wysokie ryzyko, że tak się stanie z tabelaryczną prezentacją wyników.

Paul Schrodt niedawno przedstawił ładny opis problemu:

Naukowcy uważają, że przestrzeganie poprawnej interpretacji testu istotności jest prawie niemożliwe. Wartość p mówi tylko o prawdopodobieństwie otrzymania wyniku w [zwykle] całkowicie nierealnych warunkach hipotezy zerowej. To nie jest to, co chcesz wiedzieć - zwykle, biorąc pod uwagę dane, zwykle chcesz poznać wpływ efektu niezależnej zmiennej. To pytanie bayesowskie, a nie częste. Zamiast tego widzimy - stale - wartość p interpretowaną tak, jakby dawała siłę asocjacji: jest to wszechobecny Mistyczny Kult Gwiazd i Wartości P, który przenika nasze czasopisma. (Fn) Nie mówi to wartość p nigdy nie będzie.

Z mojego doświadczenia wynika, że ​​tego błędu prawie nie da się uniknąć: nawet bardzo uważni analitycy, którzy są w pełni świadomi problemu, często zmieniają tryby, kiedy ustnie omawiają swoje wyniki, nawet jeśli uniknęli problemu w pisemnej prezentacji. I nawet nie spekulujmy na tysiące godzin i galonów atramentu, które spędziliśmy na poprawianiu tego w pracach magisterskich.

(fn) Przypis informuje również o innym problemie, wspomnianym przez dmk38: „[wszechobecny Mistyczny Kult Gwiazd i Wartości P] wyparł wcześniejszy - i równie wszechobecny - Kult Najwyższego R2, zburzony… przez króla (1986) . ”

Ks.
źródło
och-- właśnie dodałem cytat Kinga do mojej edytowanej odpowiedzi. Artykuł rzeczywiście niszczy manię R ^ 2 (wciąż endemiczną dla ekonometrii), nawet jeśli statystyki mają znaczenie - dla regresji OLS. King zauważa również, że ten pseudo R ^ 2 jest bełkotem, który został wyprodukowany w celu rozszerzenia bezmyślności związanej z „wyjaśnieniem wariancji”.
dmk38,