Interpretacja wyników regresji logistycznej w R.

13

Pracuję na wielokrotnej regresji logistycznej w R użyciem glm. Zmienne predykcyjne są ciągłe i kategoryczne. Wyciąg z podsumowania modelu pokazuje, co następuje:

Coefficients:
               Estimate Std. Error z value Pr(>|z|)
(Intercept)   2.451e+00  2.439e+00   1.005   0.3150
Age           5.747e-02  3.466e-02   1.658   0.0973 .
BMI          -7.750e-02  7.090e-02  -1.093   0.2743
...
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Przedziały ufności:

                  2.5 %       97.5 %
(Intercept)  0.10969506 1.863217e+03
Age          0.99565783 1.142627e+00
BMI          0.80089276 1.064256e+00
...

Dziwne proporcje:

                 Estimate Std. Error   z value Pr(>|z|)
(Intercept)  1.159642e+01  11.464683 2.7310435 1.370327
Age          1.059155e+00   1.035269 5.2491658 1.102195
B            9.254228e-01   1.073477 0.3351730 1.315670
...

Pierwszy wynik pokazuje, że jest znaczący. Jednak przedział ufności dla obejmuje wartość 1, a iloraz szans dla jest bardzo zbliżony do 1. Co oznacza znacząca wartość p z pierwszego wyniku? Czy jest predyktorem wyniku, czy nie?A g e A g e A g eAgeAgeAgeAge

SabreWolfy
źródło
8
Jest to istotne tylko na poziomie ufności 10%, ale przedziały ufności wynoszą 5%.
Nick Sabbe
Czy zatem przedziały ufności dla 10% nie obejmowałyby 1?
SabreWolfy
Wartość p (pierwsza kolumna w pierwszej kolumnie) jest szansą, że uzyskany wynik lub gorszy wynik zostałby osiągnięty, gdyby hipoteza zerowa była prawdziwa. Przedział ufności jest regionem, który zachowa prawdziwą wartość np. W 95% przypadków. Jeśli nie posiada hipotetycznej wartości prawdziwej, istnieje co najwyżej 5% szansy na uzyskanie uzyskanego wyniku lub gorzej, jeśli hipoteza jest prawdziwa. Oznaczałoby to, że twoja wartość p jest niższa niż 5%. Istnieje bardzo ścisły związek między wartościami p a przedziałami ufności (statystyki 101). Ale w skrócie: tak, CI dla 10% będzie obejmować 1.
Nick Sabbe
Wygląda na to, że zakładasz liniowość. Jak to jest uzasadnione?
Frank Harrell

Odpowiedzi:

8

Na stronie znajduje się wiele pytań, które pomogą w interpretacji wyników modeli (oto trzy różne przykłady, 1 2 3 , i jestem pewien, że jest więcej, jeśli przejrzysz archiwum). Oto także samouczek na stronie statystyk UCLA, w jaki sposób interpretować współczynniki regresji logistycznej.

Chociaż iloraz szans dla współczynnika wieku jest bliski jedności, niekoniecznie oznacza to, że efekt jest niewielki (to, czy efekt jest mały, czy duży, jest często tak samo pytaniem normatywnym, jak empirycznym). Aby uzyskać bardziej świadomą opinię, trzeba znać typową różnicę wieku między obserwacjami.

Andy W.
źródło
Dziękujemy za link do samouczka, który wygląda kompleksowo. Szukałem tutaj przed opublikowaniem mojego pytania. Linki 1 i 3 wydają się nie być powiązane z moim pytaniem.
SabreWolfy
@ SabreWolfy, link 1 wyjaśnia, w jaki sposób interpretować współczynniki w odniesieniu do oryginalnych jednostek, link 3 opisuje kroki interpretacji efektów w kategoriach prawdopodobieństw (co naprawdę ma zastosowanie do twojego pytania, a sugerowane wykresy w tym pytaniu byłyby rozsądna odpowiedź na pytanie, że wielkość efektu bezpośredniego jest trudna do zinterpretowania bez znajomości różnic wieku).
Andy W
5
Zakładając, że wiek jest mierzony w latach, wówczas iloraz szans wynoszący 1,059 oznacza różnicę szans między 20-latkiem a 50-latkiem . Nie nazwałbym tego małym efektem. Jednak domyślnie założyłem, że mówisz o ludziach. Jeśli zamiast tego są to myszy, okres 30 lat nie jest zbyt pomocny i będziesz musiał odpowiednio zmienić ocenę wielkości efektu. (1.059301)×100%=458%
Maarten Buis
Link do UCLA jest martwy, ale ten prawdopodobnie odpowiada (przynajmniej jego treść pomaga mi zrozumieć to pytanie).
MBR