Interpretacja prostych prognoz na iloraz szans w regresji logistycznej

29

Nieco jestem nowy w stosowaniu regresji logistycznej i jestem nieco zdezorientowany rozbieżnością między moimi interpretacjami następujących wartości, które moim zdaniem byłyby takie same:

  • wykładnicze wartości beta
  • przewidywane prawdopodobieństwo wyniku przy użyciu wartości beta.

Oto uproszczona wersja modelu, którego używam, gdzie niedożywienie i ubezpieczenie są zarówno binarne, a bogactwo jest ciągłe:

Under.Nutrition ~ insurance + wealth

Mój (rzeczywisty) model zwraca wykładniczą wartość beta 0,8 dla ubezpieczenia, co interpretowałbym jako:

„Prawdopodobieństwo niedożywienia osoby ubezpieczonej jest .8 razy większe niż prawdopodobieństwo niedożywienia osoby nieubezpieczonej”.

Kiedy jednak obliczam różnicę prawdopodobieństw dla osób fizycznych, wprowadzając wartości 0 i 1 do zmiennej ubezpieczeniowej oraz średnią wartość bogactwa, różnica w niedożywieniu wynosi tylko 0,04. Oblicza się to w następujący sposób:

Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) /
                             (1+exp(β0 + β1*Insurance + β2*wealth))

Byłbym naprawdę wdzięczny, gdyby ktoś mógł wyjaśnić, dlaczego te wartości są różne i jaka może być lepsza interpretacja (szczególnie dla drugiej wartości).


Dalsze modyfikacje wyjaśniające
Jak rozumiem, prawdopodobieństwo niedożywienia osoby nieubezpieczonej (gdzie B1 odpowiada ubezpieczeniu) wynosi:

Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) /
              (1+exp(β0 + β1*0+ β2*wealth))

Podczas gdy prawdopodobieństwo niedożywienia osoby ubezpieczonej wynosi:

Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) /
           (1+exp(β0 + β1*1+ β2*wealth))

Szanse na niedożywienie w przypadku osoby nieubezpieczonej w porównaniu do osoby ubezpieczonej wynoszą:

exp(B1)

Czy istnieje sposób na przełożenie tych wartości (matematycznie)? Nadal jestem trochę zdezorientowany tym równaniem (gdzie prawdopodobnie powinienem mieć inną wartość na RHS):

Prob(Ins) - Prob(Unins) != exp(B)

W kategoriach laika pytanie brzmi: dlaczego ubezpieczenie nie zmienia prawdopodobieństwa niedożywienia tak bardzo, jak wskazuje na to iloraz szans? Według moich danych Prob (Ins) - Prob (Unins) = .04, gdzie wykładnicza wartość beta wynosi 0,8 (więc dlaczego różnica nie jest .2?)

mikrofon
źródło
2
Czy te wspaniałe i jasne wyjaśnienia dotyczą modeli / regresji logistycznych?

Odpowiedzi:

50

Wydaje mi się oczywiste, że chyba że . Nie jestem więc pewien, jakie może być zamieszanie. Mogę powiedzieć, że lewa strona (LHS) znaku (nie) równości jest szansą na niedożywienie, podczas gdy RHS jest prawdopodobieństwem niedożywienia. samodzielnie, , jest ilorazem szans , czyli mnożnikiem, który pozwala na przejście od szansy ( ) do szansy ( ).

exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
exp(β0+β1x)=0exp(β1)xx+1

Daj mi znać, jeśli potrzebujesz dodatkowych / różnych informacji.

Aktualizacja:
Myślę, że jest to głównie kwestia nieznajomości prawdopodobieństw i szans oraz ich wzajemnych relacji. Nic z tego nie jest bardzo intuicyjne, musisz usiąść i popracować z nim przez chwilę i nauczyć się myśleć w tych kategoriach; nikomu to nie przychodzi naturalnie.

Problem polega na tym, że same liczby bezwzględne są bardzo trudne do interpretacji. Powiedzmy, że mówiłem ci o czasie, w którym miałem monetę i zastanawiałem się, czy to było uczciwe. Więc rzuciłem trochę i dostałem 6 głów. Co to znaczy? Czy 6 to trochę, prawda? To strasznie trudne do powiedzenia. Aby poradzić sobie z tym problemem, chcemy nadać liczbom pewien kontekst. W takim przypadku istnieją dwie oczywiste opcje, w jaki sposób zapewnić potrzebny kontekst: mógłbym podać całkowitą liczbę rzutów lub podać liczbę ogonów. W obu przypadkach masz wystarczające informacje, aby zrozumieć 6 głów, i możesz obliczyć drugą wartość, jeśli ta, którą ci powiedziałem, nie jest tą, którą wolisz. Prawdopodobieństwo to liczba głów podzielona przez całkowitą liczbę zdarzeń. Szanse są stosunkiem liczby głów do liczbynon-heads (intuicyjnie chcemy powiedzieć liczbę ogonów, co w tym przypadku działa, ale nie, jeśli są więcej niż 2 możliwości). Przy szansach można podać obie liczby, np. 4 do 5. Oznacza to, że na dłuższą metę coś się wydarzy 4 razy na każde 5 razy, co się nie zdarzy. Kiedy kursy są prezentowane w ten sposób, nazywane kursami Las Vegas ”. Jednak w statystykach zwykle dzielimy przez i mówimy, że szanse wynoszą 0,8 zamiast (tj. 4/5 = 0,8) dla celów standaryzacji. Możemy również konwertować między prawdopodobieństwami a prawdopodobieństwami:

probability=odds1+odds                odds=probability1probability
(Przy tych formułach może być trudno rozpoznać, że prawdopodobieństwo to LHS u góry, a prawdopodobieństwo to RHS, ale pamiętaj, że nie jest to znak równości w środku.) Iloraz szans to po prostu szansa na coś podzielone przez szanse na coś innego; w kontekście regresji logistycznej, każdy jest stosunkiem szans na kolejne wartości powiązanej zmiennej towarzyszącej, gdy wszystkie pozostałe są równe. exp(β)

Z wszystkich tych równań należy rozpoznać, że prawdopodobieństwa, szanse i iloraz szans nie są równe w żaden prosty sposób; tylko dlatego, że prawdopodobieństwo wzrasta o 0,04, nie oznacza, że ​​prawdopodobieństwo lub iloraz szans powinien być podobny do 0,04! Co więcej, prawdopodobieństwa wahają się od , podczas gdy szanse ln (wynik surowego równania regresji logistycznej) mogą wynosić od , a iloraz szans i szans może wynosić od . Ta ostatnia część jest istotna: z powodu ograniczonego zakresu prawdopodobieństw prawdopodobieństwa są nieliniowe , ale szanse mogą być liniowe. To znaczy, jak (na przykład)[0,1](,+)(0,+)wealthwzrasta o stałe przyrosty, prawdopodobieństwo niedożywienia wzrośnie o różne kwoty, ale szanse na wzrost wzrosną o stałą kwotę, a szanse wzrosną o stały mnożnik. Dla dowolnego zestawu wartości w modelu regresji logistycznej może istnieć punkt, w którym dla niektórych danych i , ale wszędzie indziej będzie nierówna. xx

exp(β0+β1x)exp(β0+β1x)=exp(β0+β1x)1+exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
xx

(Chociaż zostało napisane w kontekście innego pytania, moja odpowiedź tutaj zawiera wiele informacji o regresji logistycznej, które mogą być pomocne w pełniejszym zrozumieniu LR i powiązanych problemów).

gung - Przywróć Monikę
źródło
Dzięki za odpowiedź - wyjaśniłem moje zamieszanie w powyższej edycji.
mike
Naprawdę doceniam poświęcenie czasu na napisanie pełnego wyjaśnienia - bardzo pomocne.
mike
Nie ma za co, @mike, po to jest CV.
gung - Przywróć Monikę
Odnośnie linku do kursów w Las Vegas : Nigdy nie byłem w Vegas, ale szukając niektórych cen oferowanych przez witryny oparte na Vegas, gdzie cytują kursy ułamkowe (w przeciwieństwie do moneyline), podążają za brytyjskim systemem „kursów przeciwko”, a nie statystyczne „szanse na korzyść”. W związku z tym „kursy Las Vegas” pod Twoim linkiem nie odpowiadają faktycznym szansom hazardowym, gdzie „9 do 1” oznacza mało prawdopodobne wydarzenie, a nie (ponieważ „9 do 1” oznacza dla statystyki) prawdopodobne! Źródło zamieszania, które staram się tutaj rozwiązać
Silverfish,
@Silverfish, dawno nie byłem w Las Vegas. Nie pamiętam, czy zazwyczaj podają kursy na, czy przeciw. Niemniej jednak „4 do 5” nazywa się szansami Las Vegas .
gung - Przywróć Monikę
-1

Iloraz szans OR = Exp (b) przekłada się na Prawdopodobieństwo A = SQRT (OR) / (SQRT (OR) +1), gdzie Prawdopodobieństwo A jest prawdopodobieństwem Zdarzenia A, a OR jest współczynnikiem zdarzenia A / zdarzenia A (lub narażone / nie narażone przez ubezpieczenie, jak w pytaniu powyżej). Zajęło mi to sporo czasu; Nie jestem pewien, dlaczego ta niezbyt znana formuła.

Jest przykład. Załóżmy, że na uniwersytet jest 10 osób; 7 z nich to mężczyźni. Tak więc dla każdego mężczyzny istnieje 70% szans na przyjęcie. Szanse, które zostaną przyjęte dla mężczyzn wynoszą 7/3 = 2,33, a nie zostaną przyjęte 3/7 = 0,43. Iloraz szans (OR) wynosi 2,33 / 0,43 = 5,44, co oznacza, że ​​dla mężczyzn 5,44 razy większa szansa na przyjęcie w przypadku kobiet. Znajdźmy prawdopodobieństwo przyjęcia dla mężczyzny z OR: P = SQRT (5,44) / (SQRT (5,44) +1) = 0,7

Aktualizacja Jest to prawdą tylko wtedy, gdy liczba przyjętych mężczyzn lub kobiet jest równa liczbie wnioskodawców. Innymi słowy, nie jest to OR. Nie możemy znaleźć prawdopodobieństwa wzrostu (lub straty) zależy od czynnika bez znajomości dodatkowych informacji.

Niksr
źródło
7232
Tak, masz absolutną rację, dziękuję. Odkryłem, że nie jesteśmy w stanie przekonwertować znanego OR (który otrzymujemy na przykład jako wynik regresji logistycznej) na zysk lub stratę prawdopodobieństwa bez znajomości informacji o wcześniejszych prawdopodobieństwach. Aktualizuję odpowiedź.
Niksr