jak interpretować termin interakcji we wzorze lm w R?

9

W R, jeśli wywołam lm()funkcję w następujący sposób:

lm.1 = lm(response ~ var1 + var2 + var1 * var2)
summary(lm.1)

To daje mi liniowy model zmiennej odpowiedzi z var1, var2oraz interakcji między nimi. Jak jednak dokładnie interpretujemy liczbowo termin interakcji?

Dokumentacja mówi, że jest to „krzyż” między var1i var2, ale nie wyjaśnił, czym dokładnie jest „krzyż”.

Przydałoby mi się wiedzieć, jakie dokładne liczby R oblicza, aby uwzględnić interakcję między dwiema zmiennymi.

Enzo
źródło
Czy chciałbyś konkretnie wiedzieć, w jaki sposób R tworzy macierz projektową dla tej formuły, czy bardziej interesuje Cię, jak interpretować taki multiplikatywny („interakcja”) termin w odniesieniu do dopasowanego modelu?
Momo
Bardziej interesuje mnie interpretacja tego multiplikatywnego terminu. Na przykład, jeśli chcę napisać formułę liniową (matematyczną, a nie R ...), co powinienem wprowadzić dla terminu multiplikatywnego?
Enzo
Aby wyjaśnić, co oznacza krzyż, spójrz na obliczanie, var3 <- var 1 * var2a następnie budowanielm.2 <- lm(response ~ var1 + var2 + var3)
James Stanley
1
więc jest to zwykłe pomnożenie wejścia?
Enzo
1
@Enzo, tak, krzyż to dosłownie dwa pomnożone terminy - interpretacja będzie w dużej mierze zależeć od tego, czy var1i var2oba są ciągłe (moim zdaniem dość trudne do interpretacji), czy też jedno z nich jest np. Binarne kategorycznie (łatwiejsze do rozważenia). Zobacz tę odpowiedź na kilka przykładów interpretacji autorstwa Petera Floma: stats.stackexchange.com/a/45512/16974
James Stanley

Odpowiedzi:

8

Standardowym sposobem napisania równania predykcyjnego dla twojego modelu jest:

y^=b0+b1x1+b2x2+b12x1x2

Ale zrozumienie interakcji jest trochę łatwiejsze, jeśli weźmiemy to pod uwagę inaczej:

y^=(b0+b2x2)+(b1+b12x2)x1

Dzięki temu faktoringowi możemy to zobaczyć dla danej wartości x2 punkt przecięcia y dla x1 jest b0+b2x2 i nachylenie na x1 jest (b1+b12x2). Więc związek międzyy i x1 zależy od x2.

Innym sposobem na zrozumienie tego jest wykreślenie przewidywanych linii między nimi y i x1 dla różnych wartości x2(Albo na odwrót). Funkcje Predict.Ploti TkPredictw pakiecie TeachingDemos dla języka R zostały zaprojektowane, aby pomóc z tego rodzaju wykresami.

Greg Snow
źródło
3

Załóżmy, że otrzymujesz szacunkowe punkty 4 dla x1, 2 dla x2i 1,5 za interakcję. Następnie równanie mówi, że lmdopasowanie jest

y=4x1+2x2+1.5x1x2

Czy tego chciałeś?

Peter Flom
źródło
3

Najłatwiej jest myśleć o interakcjach w kategoriach zmiennych dyskretnych. Być może studiowałeś dwustronne ANOVA, w których mamy dwie zmienne grupujące (np. Płeć i kategoria wiekowa, z trzema poziomami wieku) i przyglądamy się, jak odnoszą się one do jakiejś ciągłej miary (nasza zmienna zależna, np. IQ).

Pojęcie x1 * x2, jeśli jest znaczące, można zrozumieć (w tym trywialnym, wymyślonym przykładzie), ponieważ IQ zachowuje się różnie w zależności od wieku dla różnych płci. Na przykład, być może IQ jest stabilny dla mężczyzn w trzech grupach wiekowych, ale młode kobiety zaczynają się poniżej młodych mężczyzn i mają trajektorię wzrostową (z tą starszą grupą wiekową wyższą średnią niż dla starej grupy wiekowej dla mężczyzn). Na wykresie średnich oznaczałoby to poziomą linię dla mężczyzn na środku wykresu i być może linię 45 stopni dla kobiet, która zaczyna się poniżej mężczyzn, a kończy ponad mężczyznami.

Istotą jest to, że gdy poruszasz się po poziomach jednej zmiennej (lub „utrzymując stałą X1”), to, co dzieje się w innych zmiennych, zmienia się. Ta interpretacja działa również z ciągłymi zmiennymi predykcyjnymi, ale nie jest tak łatwo zilustrować konkretnie. W takim przypadku możesz wziąć określone wartości X1 i X2 i zobaczyć, co stanie się z Y.

Twitch_City
źródło