Załóżmy, że interesuje mnie model regresji liniowej , ponieważ chciałbym sprawdzić, czy interakcja między dwoma zmiennymi towarzyszącymi ma wpływ na Y.
W notatkach dla profesorów (z którymi nie mam kontaktu) napisano: Przy uwzględnianiu warunków interakcji należy podać warunki drugiego stopnia. to znaczy należy włączyć do regresji.
Dlaczego należy uwzględniać warunki drugiego stopnia, gdy interesują nas tylko interakcje?
regression
multiple-regression
interaction
linear-model
głupiec126
źródło
źródło
Odpowiedzi:
To zależy od celu wnioskowania. Jeśli chcesz wnioskować, czy istnieje interakcja, na przykład w kontekście przyczynowym (lub, bardziej ogólnie, jeśli chcesz interpretować współczynnik interakcji), to zalecenie twojego profesora ma sens i pochodzi z fakt, że błędne określenie formy funkcjonalnej może prowadzić do błędnych wniosków na temat interakcji .
Oto prosty przykład, w którym nie ma terminu interakcji międzyx1 i x2 w równaniu strukturalnym z y , ale jeśli nie podasz kwadratowego terminu x1 , błędnie byście to wywnioskowali x1 współdziała z x2 kiedy w rzeczywistości tak nie jest.
Można to zinterpretować jako zwykły przypadek pominiętej zmienności nastawienia i tutajx21 jest zmienną pominiętą. Jeśli cofniesz się i włączysz kwadratowy termin do regresji, pozorna interakcja zniknie.
Oczywiście, to rozumowanie dotyczy nie tylko terminów kwadratowych, ale ogólnie błędnej specyfikacji formy funkcjonalnej. Celem jest tutaj odpowiednie modelowanie funkcji warunkowego oczekiwania w celu oceny interakcji. Jeśli ograniczasz się do modelowania z regresją liniową, musisz ręcznie dołączyć te warunki nieliniowe. Ale alternatywą jest zastosowanie bardziej elastycznego modelowania regresji, na przykład regresji grzbietu jądra .
źródło
rm(list=ls())
do kodu zamieszczonego tutaj! Jeśli ludzie po prostu skopiują i wkleją i uruchomią kod, mogą otrzymać niespodziankę ... Na razie go usunąłem.Dwa modele wymienione w odpowiedzi można ponownie wyrazić, aby wyjaśnić, w jaki sposóbX1 postuluje się polegać na X2 (lub na odwrót) w każdym modelu.
Pierwszy model można powtórzyć w następujący sposób:
co pokazuje, że w tym modeluX1 zakłada się, że ma liniowy wpływ na Y (kontrolowanie efektu X2 ), ale wielkość tego efektu liniowego - uchwycona przez współczynnik nachylenia wynoszący X1 - zmienia się liniowo w funkcji X2 . Na przykład efektX1 na Y może wzrosnąć w miarę jak wartości X2 zwiększać.
Drugi model można powtórzyć w następujący sposób:
co pokazuje, że w tym modelu efektX1 na Y (kontrolowanie efektu X2 ) zakłada się, że jest kwadratowy, a nie liniowy. Ten kwadratowy efekt zostaje uchwycony przez uwzględnienie obuX1 i X21 w modelu. Podczas gdy współczynnikX21 zakłada się, że jest niezależny od X2 , współczynnik wynoszący X1 zakłada się, że zależy liniowo X2 .
Użycie dowolnego modelu oznaczałoby, że przyjmujesz zupełnie inne założenia dotyczące charakteru efektuX1 na Y (kontrolowanie efektu X2 ).
Zwykle ludzie pasują do pierwszego modelu. Mogą następnie wykreślić wartości resztkowe z tego modeluX1 i X2 po kolei. Jeśli reszty ujawniają kwadratowy wzorzec w reszcie w funkcjiX1 i / lub X2 , model można odpowiednio rozszerzyć, aby obejmował X21 i / lub X22 (i być może ich interakcja).
Zauważ, że uprościłem notację, której użyłeś dla zachowania spójności, a także wyraźnie podałem termin błędu w obu modelach.
źródło