Co jeśli interakcja zniszczy moje bezpośrednie efekty w regresji?

25

W regresji termin interakcji usuwa oba powiązane efekty bezpośrednie. Czy porzucam interakcję, czy zgłaszam wynik? Interakcja nie była częścią oryginalnej hipotezy.

Jen
źródło
6
prawdopodobnie możesz uzyskać lepszą odpowiedź, jeśli podasz więcej szczegółów na temat swojego projektu eksperymentalnego, pytania badawczego i modelu statystycznego.
David LeBauer,
Mam dane z ankiety, v1 i v2 przewidują wynik, tak jak się spodziewałem; jednak interakcja między v1 (dychotomiczna) i v2 (5 grup) nie jest znacząca - i (moje pytanie) sprawia, że ​​bezpośrednie efekty v1 i v2 również są nieistotne. W literaturze nie mogę znaleźć przykładu na zgłoszenie tego.
Jen
Jeśli interakcja v1: v2 nie jest znacząca, czy musisz ją uwzględnić w modelu?
Christopher Aden,
Może to pytanie jest istotne? stats.stackexchange.com/questions/5184/…
Glen
Inną możliwością jest paradoksalne zakłócenie: Przykład 1: epm.sagepub.com/content/56/3/430.abstract Przykład 2: optimprediction.com/files/pdf/V1A19.pdf
user31256

Odpowiedzi:

24

Myślę, że ten jest trudny; jak sugerujesz, istnieje tutaj „pokusa nadużycia”: jeśli w ogóle nie spojrzałeś na interakcję, byłbyś wolny i jasny, ale teraz, gdy masz podejrzenie, że pogarszasz dane, jeśli ją upuścisz.

Kluczem jest prawdopodobnie zmiana znaczenia twoich efektów, kiedy przechodzisz z głównego efektu tylko do modelu interakcji. To, co dostajesz za „główne efekty”, zależy w dużej mierze od tego, jak kodowane są twoje zabiegi i kontrasty. W R domyślnym jest, że leczenie kontrastuje z pierwszymi poziomami czynników (tymi z imionami w kolejności alfabetycznej, chyba że postarałeś się je inaczej zakodować) jako poziomy podstawowe.

Powiedz (dla uproszczenia), że masz dwa poziomy, „kontrola” i „trt”, dla każdego czynnika. Bez interakcji znaczenie parametru „v1.trt” (przy założeniu, że leczenie kontrastuje, tak jak domyślnie w R), to „średnia różnica między grupą„ v1.control ”a grupą„ v1.trt ”; znaczenie parametru „v2.trt” to „średnia różnica między„ v2.control ”a„ v2.trt ””.

W przypadku interakcji „v1.trt” to średnia różnica między „v1.control” i „v1.trt” w grupie „v2.control” , podobnie „v2.trt” to średnia różnica między grupami v2 w Grupa „v1.control”. Tak więc, jeśli masz dość małe efekty leczenia w każdej z grup kontrolnych, ale duży efekt w grupach leczenia, możesz łatwo zobaczyć, co widzisz.

Jedyny sposób, w jaki mogę to zobaczyć bez znaczącego terminu interakcji, to jednak, jeśli wszystkie efekty są dość słabe (tak więc to, co naprawdę rozumiesz przez „efekt zniknął”, to to, że przeszedłeś z p = 0,06 do p = 0,04, przez linię magicznego znaczenia).

Inną możliwością jest to, że „zużywasz zbyt wiele stopni swobody” - to znaczy, szacunki parametrów nie zmieniają się tak bardzo, ale wartość błędu resztowego jest wystarczająco zawyżona przez konieczność oszacowania kolejnych 4 [= (2- 1) * (5-1)] parametry, które znaczące hasła stają się nieistotne. Znowu oczekiwałbym tego tylko z małym zestawem danych / stosunkowo słabymi efektami.

Jednym z możliwych rozwiązań jest przejście do sumowania kontrastów, chociaż jest to również delikatne - musisz być przekonany, że „średni efekt” ma znaczenie w twoim przypadku. Najlepszą rzeczą jest wykreślić swoje dane, przyjrzeć się współczynnikom i zrozumieć, co się dzieje pod względem szacowanych parametrów.

Mam nadzieję, że to pomaga.

Ben Bolker
źródło
4
Nie ma pokusy nadużycia. Obliczenie głównych efektów z uwzględnieniem interakcji jest zupełnie inne niż obliczenie bez tego. Musisz zrobić model addytywny, aby zgłosić główne efekty, a następnie i tak uwzględnić interakcję w osobnym modelu. Zignorujesz główne efekty w modelu, który obejmuje interakcję, ponieważ tak naprawdę nie są one głównymi efektami, są efektami na określonych poziomach innych predyktorów (w tym interakcji).
John
John: czy z tej logiki zignorowałby również termin interakcji w modelu oceniającym interakcję kwadratową / efekt moderujący (tj. Obejmujący (1) efekty główne, (2) interakcję między tymi efektami głównymi i (3) termin kwadratowy dla jednego z głównych efektów i efektu interakcji krzywoliniowej (umiaru)?
Bento
11

Czy jesteś pewien, że zmienne zostały odpowiednio wyrażone? Rozważ dwie niezależne zmienne i X 2 . W opisie problemu stwierdza się, że otrzymujesz dobre dopasowanie w formularzuX1X2

Y=β0+β12X1X2+ϵ

Y

Y=β0+(β12X1X2)δ

Można to przepisać

log(Y-β0)=log(β12)+log(X1)+log(X2))+log(δ);

to znaczy, jeśli ponownie wyrazisz swoje zmienne w formularzu

η=log(Y-β0)ξ1=log(X1)ξ2)=log(X2))ζ=log(δ)N.(0,σ2))

wtedy model jest liniowy i prawdopodobnie ma homoscedastyczne reszty:

η=γ0+γ1ξ1+γ2)ξ2)+ζ,

γ1γ2)

β0Y

β0β0

Y=(θ1+X1)(θ2)+X2))+ϵ

θ1θ2)=β0θ1θ2)θ1X2)θ2)X1ϵ

Ta analiza pokazuje, w jaki sposób - nawet w niektórych aplikacjach - możliwe jest posiadanie modelu, w którym jedynymi efektami wydają się być interakcje. Powstaje, gdy zmienne (niezależne, zależne lub oba) są przedstawiane w nieodpowiedniej formie, a ich logarytmy są bardziej skutecznym celem modelowania. Rozkłady zmiennych i początkowych reszt stanowią wskazówki potrzebne do ustalenia, czy może tak być: krzywe rozkłady zmiennych i heteroscedastyczność reszt (w szczególności posiadanie wariancji w przybliżeniu proporcjonalnych do przewidywanych wartości) są wskaźnikami.

Whuber
źródło
Hmmm. Wszystko to wydaje się prawdopodobne, ale bardziej złożone niż moje rozwiązanie (komentarze do pierwotnego pytania sugerują, że oba predyktory są kategoryczne). Ale jak zwykle odpowiedź brzmi „spójrz na dane” (lub na pozostałości).
Ben Bolker
1
@Ben Zgadzam się, ale nie rozumiem, skąd bierze się postrzeganie „bardziej złożonego”, ponieważ analiza rozkładów jednowymiarowych i post-hoc analizy reszt jest niezbędna w każdym ćwiczeniu regresji. Jedyną dodatkową pracą wymaganą tutaj jest zastanowienie się, co oznaczają te analizy.
whuber
1
Być może przez „bardziej złożony” mam na myśli „Z mojego doświadczenia wynika, że ​​problemy, o których wspomniałem w mojej odpowiedzi (kodowanie kontrastowe), pojawiają się częściej niż te, o których mówiłeś (brak addytywności)” - ale to naprawdę oświadczenie o rodzajach danych / ludziach, z którymi pracuję, a nie o świecie.
Ben Bolker,
5

Y=β0+β1X1+β2)X2)+β3)(X1X2))=(b0+b2)X2))+(b1+b3)X2))X1

Zazwyczaj wprowadza to wysoką wielokoliniowość, ponieważ produkt będzie silnie skorelowany z obiema pierwotnymi zmiennymi. W przypadku wielokoliniowości oszacowania poszczególnych parametrów silnie zależą od tego, które inne zmienne są brane pod uwagę - jak w twoim przypadku. Jako środek zaradczy, centrowanie zmiennych często zmniejsza wielokoliniowość, gdy uwzględni się interakcję.

Nie jestem pewien, czy odnosi się to bezpośrednio do twojego przypadku, ponieważ wydaje się, że masz predyktory jakościowe, ale używaj terminu „regresja” zamiast „ANOVA”. Oczywiście ten drugi przypadek jest zasadniczo tym samym modelem, ale dopiero po wybraniu schematu kodowania kontrastu, jak wyjaśnił Ben.

karakal
źródło
5

Może to być problem interpretacyjny, niezrozumienie, czym tak naprawdę jest tak zwany współczynnik „efektu bezpośredniego”.

W modelach regresji z ciągłymi zmiennymi predykcyjnymi i bez terminów interakcji - to znaczy bez terminów konstruowanych jako iloczyn innych terminów - współczynnik każdej zmiennej jest nachyleniem powierzchni regresji w kierunku tej zmiennej. Jest stały, niezależnie od wartości zmiennych, i oczywiście jest miarą efektu tej zmiennej.

W modelach z interakcjami - czyli z terminami konstruowanymi jako iloczyn innych terminów - takiej interpretacji można dokonać bez dalszej kwalifikacji tylko dla zmiennych, które nie są zaangażowane w żadne interakcje. Współczynnik zmiennej, która ma udział w interakcjach to nachylenie powierzchni regresji w kierunku tej zmiennej , gdy wartości wszystkich zmiennych, które współdziałają ze zmienną mowa są zerowe , a testu istotności współczynnika odnosi się do nachylenie powierzchni regresji tylko w tym obszarze przestrzeni predyktora. Ponieważ nie ma wymogu, aby faktycznie istniały dane w tym obszarze przestrzeni, pozorny współczynnik efektu bezpośredniego może w niewielkim stopniu przypominać nachylenie powierzchni regresji w obszarze przestrzeni predyktora, w którym faktycznie zaobserwowano dane. W takich przypadkach nie ma prawdziwego „efektu bezpośredniego”; najlepszym substytutem jest prawdopodobnie „efekt średni”: nachylenie powierzchni regresji w kierunku danej zmiennej, mierzone w każdym punkcie danych i uśredniane dla wszystkich punktów danych. Aby uzyskać więcej informacji na ten temat, zobacz Dlaczego centrowanie zmiennych niezależnych może zmieniać główne efekty z umiarem?

Ray Koopman
źródło