Dlaczego w regresji liniowej powinniśmy uwzględniać wyrażenia kwadratowe, gdy interesują nas tylko terminy interakcji?

10

Załóżmy, że interesuje mnie model regresji liniowej

Yi=β0+β1x1+β2x2+β3x1x2
, ponieważ chciałbym sprawdzić, czy interakcja między dwoma zmiennymi towarzyszącymi ma wpływ na Y.

W notatkach dla profesorów (z którymi nie mam kontaktu) napisano: Przy uwzględnianiu warunków interakcji należy podać warunki drugiego stopnia. to znaczy

Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22
należy włączyć do regresji.

Dlaczego należy uwzględniać warunki drugiego stopnia, gdy interesują nas tylko interakcje?

głupiec126
źródło
7
Jeśli model ma x1x2, powinien zawierać x1 i x2. Alex12 i x22są opcjonalne.
user158565,
6
Opinia twojego profesora wydaje się niezwykła. Może wynikać ze specjalistycznego tła lub zestawu doświadczeń, ponieważ „powinien” zdecydowanie nie jest wymogiem uniwersalnym. Być może zainteresuje Cię stats.stackexchange.com/questions/11009 .
whuber
@ user158565 cześć! Czy mogę zapytać, dlaczego powinniśmy również uwzględnićx1 i x2? Początkowo o tym nie myślałem, ale teraz, kiedy o tym wspomniałeś ...!
fool126
@whuber cześć! Dzięki za link! Myślę, że uwzględnienie głównego efektu ma sens, ale mam problem z rozszerzeniem go na konieczność uwzględnienia warunków drugiego rzędu. // user158565 Myślę, że powyższy link odpowiedział, że dziękuję!
fool126
Czy mógłbyś zamieścić link do danych?
James Phillips,

Odpowiedzi:

8

To zależy od celu wnioskowania. Jeśli chcesz wnioskować, czy istnieje interakcja, na przykład w kontekście przyczynowym (lub, bardziej ogólnie, jeśli chcesz interpretować współczynnik interakcji), to zalecenie twojego profesora ma sens i pochodzi z fakt, że błędne określenie formy funkcjonalnej może prowadzić do błędnych wniosków na temat interakcji .

Oto prosty przykład, w którym nie ma terminu interakcji między x1 i x2 w równaniu strukturalnym z y, ale jeśli nie podasz kwadratowego terminu x1, błędnie byście to wywnioskowali x1 współdziała z x2 kiedy w rzeczywistości tak nie jest.

set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))

Call:
lm(formula = y ~ x1 + x2 + x1:x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.7781 -0.8326 -0.0806  0.7598  7.7929 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.30116    0.04813   6.257 5.81e-10 ***
x1           1.03142    0.05888  17.519  < 2e-16 ***
x2           1.01806    0.03971  25.638  < 2e-16 ***
x1:x2        0.63939    0.02390  26.757  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared:  0.7935,    Adjusted R-squared:  0.7929 
F-statistic:  1276 on 3 and 996 DF,  p-value: < 2.2e-16

Można to zinterpretować jako zwykły przypadek pominiętej zmienności nastawienia i tutaj x12jest zmienną pominiętą. Jeśli cofniesz się i włączysz kwadratowy termin do regresji, pozorna interakcja zniknie.

summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))   

Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4574 -0.7073  0.0228  0.6723  3.7135 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0419958  0.0398423  -1.054    0.292    
x1           1.0296642  0.0458586  22.453   <2e-16 ***
x2           1.0017625  0.0309367  32.381   <2e-16 ***
I(x1^2)      1.0196002  0.0400940  25.430   <2e-16 ***
x1:x2       -0.0006889  0.0313045  -0.022    0.982    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared:  0.8748,    Adjusted R-squared:  0.8743 
F-statistic:  1739 on 4 and 995 DF,  p-value: < 2.2e-16

Oczywiście, to rozumowanie dotyczy nie tylko terminów kwadratowych, ale ogólnie błędnej specyfikacji formy funkcjonalnej. Celem jest tutaj odpowiednie modelowanie funkcji warunkowego oczekiwania w celu oceny interakcji. Jeśli ograniczasz się do modelowania z regresją liniową, musisz ręcznie dołączyć te warunki nieliniowe. Ale alternatywą jest zastosowanie bardziej elastycznego modelowania regresji, na przykład regresji grzbietu jądra .

Carlos Cinelli
źródło
Dziękuję @CllosCinelli, na zakończenie, czy mówisz, że powinniśmy zawrzeć warunki tego samego stopnia - aby uwzględnić potencjalne błędne określenie formy funkcjonalnej - i pozwolić regresji określić, które warunki są znaczące?
fool126,
3
@KevinC główne pytanie tutaj: czy chcesz interpretować termin interakcji? Jeśli tak, błędne określenie formy funkcjonalnej jest prawdziwym problemem. Dodanie wyrażeń kwadratowych jest tylko jednym prostym sposobem uchwycenia nieliniowości, ale ogólnym problemem jest odpowiednie modelowanie funkcji warunkowego oczekiwania.
Carlos Cinelli,
1
Proszę nie dołączać rm(list=ls())do kodu zamieszczonego tutaj! Jeśli ludzie po prostu skopiują i wkleją i uruchomią kod, mogą otrzymać niespodziankę ... Na razie go usunąłem.
kjetil b halvorsen
3

Dwa modele wymienione w odpowiedzi można ponownie wyrazić, aby wyjaśnić, w jaki sposóbX1 postuluje się polegać na X2 (lub na odwrót) w każdym modelu.

Pierwszy model można powtórzyć w następujący sposób:

Y=β0+(β1+β3X2)X1+β2X2+ϵ,

co pokazuje, że w tym modelu X1 zakłada się, że ma liniowy wpływ na Y (kontrolowanie efektu X2), ale wielkość tego efektu liniowego - uchwycona przez współczynnik nachylenia wynoszący X1 - zmienia się liniowo w funkcji X2. Na przykład efektX1 na Y może wzrosnąć w miarę jak wartości X2 zwiększać.

Drugi model można powtórzyć w następujący sposób:

Y=β0+(β1+β3X2)X1+β4X12+β2X2+β5X22+ϵ,

co pokazuje, że w tym modelu efekt X1 na Y (kontrolowanie efektu X2) zakłada się, że jest kwadratowy, a nie liniowy. Ten kwadratowy efekt zostaje uchwycony przez uwzględnienie obuX1 i X12w modelu. Podczas gdy współczynnikX12 zakłada się, że jest niezależny od X2, współczynnik wynoszący X1 zakłada się, że zależy liniowo X2.

Użycie dowolnego modelu oznaczałoby, że przyjmujesz zupełnie inne założenia dotyczące charakteru efektu X1 na Y (kontrolowanie efektu X2).

Zwykle ludzie pasują do pierwszego modelu. Mogą następnie wykreślić wartości resztkowe z tego modeluX1 i X2po kolei. Jeśli reszty ujawniają kwadratowy wzorzec w reszcie w funkcjiX1 i / lub X2, model można odpowiednio rozszerzyć, aby obejmował X12 i / lub X22 (i być może ich interakcja).

Zauważ, że uprościłem notację, której użyłeś dla zachowania spójności, a także wyraźnie podałem termin błędu w obu modelach.

Isabella Ghement
źródło
2
Cześć @ IsabellaGhement, dziękuję za wyjaśnienie. Podsumowując, tak naprawdę nie ma „reguł”, w których powinniśmy dodać warunki kwadratowe, jeśli uwzględnimy warunki interakcji. Na koniec dnia wraca do założeń dotyczących naszego modelu i wyników naszej analizy (tj. Wykresów resztkowych). Czy to jest poprawne? Dzięki jeszcze raz :)!
fool126,
2
Zgadza się, Kevin! Nie ma „reguł”, ponieważ każdy zestaw danych jest inny i ma również odpowiadać na różne pytania. Dlatego ważne jest, aby zdawać sobie sprawę, że każdy model, który dopasowujemy do tego zestawu danych, zakłada inne założenia, które muszą być poparte danymi, abyśmy mogli zaufać wynikom modelu. Wykresy diagnostyczne modelu (np. Wykres reszt w porównaniu z dopasowanymi wartościami) pomagają nam zweryfikować, w jakim stopniu - jeśli w ogóle - dane wspierają założenia modelu.
Isabella Ghement,
1
@KevinC: Świetnie! Tobie też życzę udanych wakacji, Kevin! ☃🎉🎁🎈
Isabella Ghement,