W regresji termin interakcji usuwa oba powiązane efekty bezpośrednie. Czy porzucam interakcję, czy zgłaszam wynik? Interakcja nie była częścią oryginalnej hipotezy.
25
W regresji termin interakcji usuwa oba powiązane efekty bezpośrednie. Czy porzucam interakcję, czy zgłaszam wynik? Interakcja nie była częścią oryginalnej hipotezy.
Odpowiedzi:
Myślę, że ten jest trudny; jak sugerujesz, istnieje tutaj „pokusa nadużycia”: jeśli w ogóle nie spojrzałeś na interakcję, byłbyś wolny i jasny, ale teraz, gdy masz podejrzenie, że pogarszasz dane, jeśli ją upuścisz.
Kluczem jest prawdopodobnie zmiana znaczenia twoich efektów, kiedy przechodzisz z głównego efektu tylko do modelu interakcji. To, co dostajesz za „główne efekty”, zależy w dużej mierze od tego, jak kodowane są twoje zabiegi i kontrasty. W R domyślnym jest, że leczenie kontrastuje z pierwszymi poziomami czynników (tymi z imionami w kolejności alfabetycznej, chyba że postarałeś się je inaczej zakodować) jako poziomy podstawowe.
Powiedz (dla uproszczenia), że masz dwa poziomy, „kontrola” i „trt”, dla każdego czynnika. Bez interakcji znaczenie parametru „v1.trt” (przy założeniu, że leczenie kontrastuje, tak jak domyślnie w R), to „średnia różnica między grupą„ v1.control ”a grupą„ v1.trt ”; znaczenie parametru „v2.trt” to „średnia różnica między„ v2.control ”a„ v2.trt ””.
W przypadku interakcji „v1.trt” to średnia różnica między „v1.control” i „v1.trt” w grupie „v2.control” , podobnie „v2.trt” to średnia różnica między grupami v2 w Grupa „v1.control”. Tak więc, jeśli masz dość małe efekty leczenia w każdej z grup kontrolnych, ale duży efekt w grupach leczenia, możesz łatwo zobaczyć, co widzisz.
Jedyny sposób, w jaki mogę to zobaczyć bez znaczącego terminu interakcji, to jednak, jeśli wszystkie efekty są dość słabe (tak więc to, co naprawdę rozumiesz przez „efekt zniknął”, to to, że przeszedłeś z p = 0,06 do p = 0,04, przez linię magicznego znaczenia).
Inną możliwością jest to, że „zużywasz zbyt wiele stopni swobody” - to znaczy, szacunki parametrów nie zmieniają się tak bardzo, ale wartość błędu resztowego jest wystarczająco zawyżona przez konieczność oszacowania kolejnych 4 [= (2- 1) * (5-1)] parametry, które znaczące hasła stają się nieistotne. Znowu oczekiwałbym tego tylko z małym zestawem danych / stosunkowo słabymi efektami.
Jednym z możliwych rozwiązań jest przejście do sumowania kontrastów, chociaż jest to również delikatne - musisz być przekonany, że „średni efekt” ma znaczenie w twoim przypadku. Najlepszą rzeczą jest wykreślić swoje dane, przyjrzeć się współczynnikom i zrozumieć, co się dzieje pod względem szacowanych parametrów.
Mam nadzieję, że to pomaga.
źródło
Czy jesteś pewien, że zmienne zostały odpowiednio wyrażone? Rozważ dwie niezależne zmienne i X 2 . W opisie problemu stwierdza się, że otrzymujesz dobre dopasowanie w formularzuX1 X2)
Można to przepisać
to znaczy, jeśli ponownie wyrazisz swoje zmienne w formularzu
wtedy model jest liniowy i prawdopodobnie ma homoscedastyczne reszty:
Ta analiza pokazuje, w jaki sposób - nawet w niektórych aplikacjach - możliwe jest posiadanie modelu, w którym jedynymi efektami wydają się być interakcje. Powstaje, gdy zmienne (niezależne, zależne lub oba) są przedstawiane w nieodpowiedniej formie, a ich logarytmy są bardziej skutecznym celem modelowania. Rozkłady zmiennych i początkowych reszt stanowią wskazówki potrzebne do ustalenia, czy może tak być: krzywe rozkłady zmiennych i heteroscedastyczność reszt (w szczególności posiadanie wariancji w przybliżeniu proporcjonalnych do przewidywanych wartości) są wskaźnikami.
źródło
Zazwyczaj wprowadza to wysoką wielokoliniowość, ponieważ produkt będzie silnie skorelowany z obiema pierwotnymi zmiennymi. W przypadku wielokoliniowości oszacowania poszczególnych parametrów silnie zależą od tego, które inne zmienne są brane pod uwagę - jak w twoim przypadku. Jako środek zaradczy, centrowanie zmiennych często zmniejsza wielokoliniowość, gdy uwzględni się interakcję.
Nie jestem pewien, czy odnosi się to bezpośrednio do twojego przypadku, ponieważ wydaje się, że masz predyktory jakościowe, ale używaj terminu „regresja” zamiast „ANOVA”. Oczywiście ten drugi przypadek jest zasadniczo tym samym modelem, ale dopiero po wybraniu schematu kodowania kontrastu, jak wyjaśnił Ben.
źródło
Może to być problem interpretacyjny, niezrozumienie, czym tak naprawdę jest tak zwany współczynnik „efektu bezpośredniego”.
W modelach regresji z ciągłymi zmiennymi predykcyjnymi i bez terminów interakcji - to znaczy bez terminów konstruowanych jako iloczyn innych terminów - współczynnik każdej zmiennej jest nachyleniem powierzchni regresji w kierunku tej zmiennej. Jest stały, niezależnie od wartości zmiennych, i oczywiście jest miarą efektu tej zmiennej.
W modelach z interakcjami - czyli z terminami konstruowanymi jako iloczyn innych terminów - takiej interpretacji można dokonać bez dalszej kwalifikacji tylko dla zmiennych, które nie są zaangażowane w żadne interakcje. Współczynnik zmiennej, która ma udział w interakcjach to nachylenie powierzchni regresji w kierunku tej zmiennej , gdy wartości wszystkich zmiennych, które współdziałają ze zmienną mowa są zerowe , a testu istotności współczynnika odnosi się do nachylenie powierzchni regresji tylko w tym obszarze przestrzeni predyktora. Ponieważ nie ma wymogu, aby faktycznie istniały dane w tym obszarze przestrzeni, pozorny współczynnik efektu bezpośredniego może w niewielkim stopniu przypominać nachylenie powierzchni regresji w obszarze przestrzeni predyktora, w którym faktycznie zaobserwowano dane. W takich przypadkach nie ma prawdziwego „efektu bezpośredniego”; najlepszym substytutem jest prawdopodobnie „efekt średni”: nachylenie powierzchni regresji w kierunku danej zmiennej, mierzone w każdym punkcie danych i uśredniane dla wszystkich punktów danych. Aby uzyskać więcej informacji na ten temat, zobacz Dlaczego centrowanie zmiennych niezależnych może zmieniać główne efekty z umiarem?
źródło