Mam dane z eksperymentu ankietowego, w którym respondenci zostali losowo przydzieleni do jednej z czterech grup:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
Podczas gdy trzy grupy terapeutyczne różnią się nieznacznie zastosowanym bodźcem, główne rozróżnienie, na którym mi zależy, dotyczy grup kontrolnych i leczonych. Zdefiniowałem więc zmienną fikcyjną Control
:
> summary(df$Control)
TRUE FALSE
59 191
W ankiecie respondenci zostali poproszeni (między innymi) o wybranie jednej z dwóch preferowanych rzeczy:
> summary(df$Prefer)
A B NA's
152 93 5
Następnie, po otrzymaniu pewnego bodźca określonego przez ich grupę leczenia (i żadnego, jeśli byli w grupie kontrolnej), respondenci zostali poproszeni o wybranie jednej z tych samych dwóch rzeczy:
> summary(df$Choice)
A B
149 101
Chcę wiedzieć, czy bycie w jednej z trzech grup terapeutycznych miało wpływ na wybór dokonany przez respondentów w ostatnim pytaniu. Moja hipoteza jest taka, że badani, którzy otrzymali leczenie są bardziej skłonni do wyboru A
niż B
.
Biorąc pod uwagę, że pracuję z danymi kategorycznymi, zdecydowałem się na regresję logitów (zachęcamy do wpisania się, jeśli uważasz, że to nieprawda). Ponieważ respondentów przydzielono losowo, mam wrażenie, że niekoniecznie muszę kontrolować inne zmienne (np. Dane demograficzne), więc pominąłem je w tym pytaniu. Mój pierwszy model był po prostu następujący:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
Mam wrażenie, że statystycznie znaczący punkt przecięcia nie ma znaczenia interpretowalnego. Pomyślałem, że powinienem dołączyć termin interakcji w następujący sposób:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Teraz status respondentów w grupie terapeutycznej ma oczekiwany efekt. Czy to był prawidłowy zestaw kroków? Jak mogę interpretować termin interakcji ControlFALSE:PreferA
? Czy pozostałe współczynniki nadal są dziennymi szansami?
źródło
Odpowiedzi:
Zakładam, że PreferA = 1, gdy jeden wolał A, a 0 inaczej, a ControlFALSE = 1, gdy traktowano, a 0, gdy kontrolowano.
Stała wykładnicza daje zatem podstawowe szanse , wykładnicze współczynniki efektów głównych dają iloraz szans, gdy druga zmienna wynosi 0, a wykładniczy współczynnik warunków interakcji podaje współczynnik, o który zmienia się iloraz szans .
źródło
ControlFALSE
ma on wysoką wartość p w pierwszym modelu, a następnie dość niską w drugim modelu. Stosując odpowiedź na moje inne pytanie w tym konkretnym przypadku, powiedziałeś, że mogłoby się to zdarzyć, gdybyControl
miało negatywny wpływ na jedną grupęPrefer
i pozytywne na drugą.ControlFALSE
w pierwszym modelu jest efekt leczenia zarówno tych wcześniej preferowanych A, jak i tych, które tego nie zrobiły, podczas gdy efekt w drugim modelu jest tylko efektem leczenia dla tych, którzy wcześniej nie preferowali A. To, czy jest to w porządku, czy nie, nie jest pytaniem statystycznym, ale czy ma to sens merytoryczny.Uważam również, że ten artykuł jest pomocny w interpretacji interakcji w regresji logistycznej:
Chen, JJ (2003). Przekazywanie złożonych informacji: interpretacja interakcji statystycznych w analizie wielu regresji logistycznych . Amerykańskie czasopismo zdrowia publicznego , 93 (9), 1376–1377.
źródło
Moje własne preferencje, gdy próbuję interpretować interakcje w regresji logistycznej, to przyjrzeć się przewidywanym prawdopodobieństwom dla każdej kombinacji zmiennych kategorialnych. W twoim przypadku byłyby to tylko 4 prawdopodobieństwa:
Kiedy mam zmienne ciągłe, zwykle patrzę na przewidywaną wartość w medianie, 1. i 3. kwartyle.
Chociaż nie wpływa to bezpośrednio na interpretację każdego współczynnika, stwierdzam, że często pozwala mi (i moim klientom) zobaczyć, co się dzieje w jasny sposób.
źródło