W R, jeśli wywołam lm()
funkcję w następujący sposób:
lm.1 = lm(response ~ var1 + var2 + var1 * var2)
summary(lm.1)
To daje mi liniowy model zmiennej odpowiedzi z var1
, var2
oraz interakcji między nimi. Jak jednak dokładnie interpretujemy liczbowo termin interakcji?
Dokumentacja mówi, że jest to „krzyż” między var1
i var2
, ale nie wyjaśnił, czym dokładnie jest „krzyż”.
Przydałoby mi się wiedzieć, jakie dokładne liczby R oblicza, aby uwzględnić interakcję między dwiema zmiennymi.
r
regression
Enzo
źródło
źródło
var3 <- var 1 * var2
a następnie budowanielm.2 <- lm(response ~ var1 + var2 + var3)
var1
ivar2
oba są ciągłe (moim zdaniem dość trudne do interpretacji), czy też jedno z nich jest np. Binarne kategorycznie (łatwiejsze do rozważenia). Zobacz tę odpowiedź na kilka przykładów interpretacji autorstwa Petera Floma: stats.stackexchange.com/a/45512/16974Odpowiedzi:
Standardowym sposobem napisania równania predykcyjnego dla twojego modelu jest:
Ale zrozumienie interakcji jest trochę łatwiejsze, jeśli weźmiemy to pod uwagę inaczej:
Dzięki temu faktoringowi możemy to zobaczyć dla danej wartościx2) punkt przecięcia y dla x1 jest b0+b2)∗x2) i nachylenie na x1 jest (b1+b12∗x2)) . Więc związek międzyy i x1 zależy od x2) .
Innym sposobem na zrozumienie tego jest wykreślenie przewidywanych linii między nimiy i x1 dla różnych wartości x2 (Albo na odwrót). Funkcje
Predict.Plot
iTkPredict
w pakiecie TeachingDemos dla języka R zostały zaprojektowane, aby pomóc z tego rodzaju wykresami.źródło
Załóżmy, że otrzymujesz szacunkowe punkty 4 dlax1 , 2 dla x2 i 1,5 za interakcję. Następnie równanie mówi, że
lm
dopasowanie jestCzy tego chciałeś?
źródło
Najłatwiej jest myśleć o interakcjach w kategoriach zmiennych dyskretnych. Być może studiowałeś dwustronne ANOVA, w których mamy dwie zmienne grupujące (np. Płeć i kategoria wiekowa, z trzema poziomami wieku) i przyglądamy się, jak odnoszą się one do jakiejś ciągłej miary (nasza zmienna zależna, np. IQ).
Pojęcie x1 * x2, jeśli jest znaczące, można zrozumieć (w tym trywialnym, wymyślonym przykładzie), ponieważ IQ zachowuje się różnie w zależności od wieku dla różnych płci. Na przykład, być może IQ jest stabilny dla mężczyzn w trzech grupach wiekowych, ale młode kobiety zaczynają się poniżej młodych mężczyzn i mają trajektorię wzrostową (z tą starszą grupą wiekową wyższą średnią niż dla starej grupy wiekowej dla mężczyzn). Na wykresie średnich oznaczałoby to poziomą linię dla mężczyzn na środku wykresu i być może linię 45 stopni dla kobiet, która zaczyna się poniżej mężczyzn, a kończy ponad mężczyznami.
Istotą jest to, że gdy poruszasz się po poziomach jednej zmiennej (lub „utrzymując stałą X1”), to, co dzieje się w innych zmiennych, zmienia się. Ta interpretacja działa również z ciągłymi zmiennymi predykcyjnymi, ale nie jest tak łatwo zilustrować konkretnie. W takim przypadku możesz wziąć określone wartości X1 i X2 i zobaczyć, co stanie się z Y.
źródło