Nieco jestem nowy w stosowaniu regresji logistycznej i jestem nieco zdezorientowany rozbieżnością między moimi interpretacjami następujących wartości, które moim zdaniem byłyby takie same:
- wykładnicze wartości beta
- przewidywane prawdopodobieństwo wyniku przy użyciu wartości beta.
Oto uproszczona wersja modelu, którego używam, gdzie niedożywienie i ubezpieczenie są zarówno binarne, a bogactwo jest ciągłe:
Under.Nutrition ~ insurance + wealth
Mój (rzeczywisty) model zwraca wykładniczą wartość beta 0,8 dla ubezpieczenia, co interpretowałbym jako:
„Prawdopodobieństwo niedożywienia osoby ubezpieczonej jest .8 razy większe niż prawdopodobieństwo niedożywienia osoby nieubezpieczonej”.
Kiedy jednak obliczam różnicę prawdopodobieństw dla osób fizycznych, wprowadzając wartości 0 i 1 do zmiennej ubezpieczeniowej oraz średnią wartość bogactwa, różnica w niedożywieniu wynosi tylko 0,04. Oblicza się to w następujący sposób:
Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) /
(1+exp(β0 + β1*Insurance + β2*wealth))
Byłbym naprawdę wdzięczny, gdyby ktoś mógł wyjaśnić, dlaczego te wartości są różne i jaka może być lepsza interpretacja (szczególnie dla drugiej wartości).
Dalsze modyfikacje wyjaśniające
Jak rozumiem, prawdopodobieństwo niedożywienia osoby nieubezpieczonej (gdzie B1 odpowiada ubezpieczeniu) wynosi:
Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) /
(1+exp(β0 + β1*0+ β2*wealth))
Podczas gdy prawdopodobieństwo niedożywienia osoby ubezpieczonej wynosi:
Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) /
(1+exp(β0 + β1*1+ β2*wealth))
Szanse na niedożywienie w przypadku osoby nieubezpieczonej w porównaniu do osoby ubezpieczonej wynoszą:
exp(B1)
Czy istnieje sposób na przełożenie tych wartości (matematycznie)? Nadal jestem trochę zdezorientowany tym równaniem (gdzie prawdopodobnie powinienem mieć inną wartość na RHS):
Prob(Ins) - Prob(Unins) != exp(B)
W kategoriach laika pytanie brzmi: dlaczego ubezpieczenie nie zmienia prawdopodobieństwa niedożywienia tak bardzo, jak wskazuje na to iloraz szans? Według moich danych Prob (Ins) - Prob (Unins) = .04, gdzie wykładnicza wartość beta wynosi 0,8 (więc dlaczego różnica nie jest .2?)
Odpowiedzi:
Wydaje mi się oczywiste, że chyba że . Nie jestem więc pewien, jakie może być zamieszanie. Mogę powiedzieć, że lewa strona (LHS) znaku (nie) równości jest szansą na niedożywienie, podczas gdy RHS jest prawdopodobieństwem niedożywienia. samodzielnie, , jest ilorazem szans , czyli mnożnikiem, który pozwala na przejście od szansy ( ) do szansy ( ).
Daj mi znać, jeśli potrzebujesz dodatkowych / różnych informacji.
Aktualizacja:
Myślę, że jest to głównie kwestia nieznajomości prawdopodobieństw i szans oraz ich wzajemnych relacji. Nic z tego nie jest bardzo intuicyjne, musisz usiąść i popracować z nim przez chwilę i nauczyć się myśleć w tych kategoriach; nikomu to nie przychodzi naturalnie.
Problem polega na tym, że same liczby bezwzględne są bardzo trudne do interpretacji. Powiedzmy, że mówiłem ci o czasie, w którym miałem monetę i zastanawiałem się, czy to było uczciwe. Więc rzuciłem trochę i dostałem 6 głów. Co to znaczy? Czy 6 to trochę, prawda? To strasznie trudne do powiedzenia. Aby poradzić sobie z tym problemem, chcemy nadać liczbom pewien kontekst. W takim przypadku istnieją dwie oczywiste opcje, w jaki sposób zapewnić potrzebny kontekst: mógłbym podać całkowitą liczbę rzutów lub podać liczbę ogonów. W obu przypadkach masz wystarczające informacje, aby zrozumieć 6 głów, i możesz obliczyć drugą wartość, jeśli ta, którą ci powiedziałem, nie jest tą, którą wolisz. Prawdopodobieństwo to liczba głów podzielona przez całkowitą liczbę zdarzeń. Szanse są stosunkiem liczby głów do liczbynon-heads (intuicyjnie chcemy powiedzieć liczbę ogonów, co w tym przypadku działa, ale nie, jeśli są więcej niż 2 możliwości). Przy szansach można podać obie liczby, np. 4 do 5. Oznacza to, że na dłuższą metę coś się wydarzy 4 razy na każde 5 razy, co się nie zdarzy. Kiedy kursy są prezentowane w ten sposób, nazywane są „ kursami Las Vegas ”. Jednak w statystykach zwykle dzielimy przez i mówimy, że szanse wynoszą 0,8 zamiast (tj. 4/5 = 0,8) dla celów standaryzacji. Możemy również konwertować między prawdopodobieństwami a prawdopodobieństwami:
Z wszystkich tych równań należy rozpoznać, że prawdopodobieństwa, szanse i iloraz szans nie są równe w żaden prosty sposób; tylko dlatego, że prawdopodobieństwo wzrasta o 0,04, nie oznacza, że prawdopodobieństwo lub iloraz szans powinien być podobny do 0,04! Co więcej, prawdopodobieństwa wahają się od , podczas gdy szanse ln (wynik surowego równania regresji logistycznej) mogą wynosić od , a iloraz szans i szans może wynosić od . Ta ostatnia część jest istotna: z powodu ograniczonego zakresu prawdopodobieństw prawdopodobieństwa są nieliniowe , ale szanse mogą być liniowe. To znaczy, jak (na przykład)[0,1] (−∞,+∞) (0,+∞)
wealth
wzrasta o stałe przyrosty, prawdopodobieństwo niedożywienia wzrośnie o różne kwoty, ale szanse na wzrost wzrosną o stałą kwotę, a szanse wzrosną o stały mnożnik. Dla dowolnego zestawu wartości w modelu regresji logistycznej może istnieć punkt, w którym dla niektórych danych i , ale wszędzie indziej będzie nierówna. xx′(Chociaż zostało napisane w kontekście innego pytania, moja odpowiedź tutaj zawiera wiele informacji o regresji logistycznej, które mogą być pomocne w pełniejszym zrozumieniu LR i powiązanych problemów).
źródło
Odpowiedź jest prosta, jeśli chcesz utrzymać wszystkie zmienne na stałym poziomie i zmieniać jedną zmienną. Jednak staje się to trochę skomplikowane w momencie, gdy każda zmienna się zmienia. Możesz spojrzeć na następujący post, może pomóc http://analyticspro.org/2016/03/02/r-tutorial-multiple-linear-regression/
źródło
Iloraz szans OR = Exp (b) przekłada się na Prawdopodobieństwo A = SQRT (OR) / (SQRT (OR) +1), gdzie Prawdopodobieństwo A jest prawdopodobieństwem Zdarzenia A, a OR jest współczynnikiem zdarzenia A / zdarzenia A (lub narażone / nie narażone przez ubezpieczenie, jak w pytaniu powyżej). Zajęło mi to sporo czasu; Nie jestem pewien, dlaczego ta niezbyt znana formuła.
Jest przykład. Załóżmy, że na uniwersytet jest 10 osób; 7 z nich to mężczyźni. Tak więc dla każdego mężczyzny istnieje 70% szans na przyjęcie. Szanse, które zostaną przyjęte dla mężczyzn wynoszą 7/3 = 2,33, a nie zostaną przyjęte 3/7 = 0,43. Iloraz szans (OR) wynosi 2,33 / 0,43 = 5,44, co oznacza, że dla mężczyzn 5,44 razy większa szansa na przyjęcie w przypadku kobiet. Znajdźmy prawdopodobieństwo przyjęcia dla mężczyzny z OR: P = SQRT (5,44) / (SQRT (5,44) +1) = 0,7
Aktualizacja Jest to prawdą tylko wtedy, gdy liczba przyjętych mężczyzn lub kobiet jest równa liczbie wnioskodawców. Innymi słowy, nie jest to OR. Nie możemy znaleźć prawdopodobieństwa wzrostu (lub straty) zależy od czynnika bez znajomości dodatkowych informacji.
źródło