Streszczenie
Gdy predyktory są skorelowane, pojęcie kwadratowe i pojęcie interakcji będą zawierały podobne informacje. Może to powodować, że model kwadratowy lub model interakcji będzie znaczący; ale gdy oba terminy są uwzględnione, ponieważ są tak podobne, żadne z nich nie może być znaczące. Standardowa diagnostyka wielokoliniowości, taka jak VIF, może nie wykryć żadnego z nich. Nawet wykres diagnostyczny, specjalnie zaprojektowany w celu wykrycia efektu zastosowania modelu kwadratowego zamiast interakcji, może nie określić, który model jest najlepszy.
Analiza
Istotą tej analizy i jej główną siłą jest scharakteryzowanie sytuacji takich jak opisane w pytaniu. Przy takiej charakterystyce łatwo jest symulować dane, które zachowują się odpowiednio.
Rozważ dwa predyktory i X 2 (które będziemy automatycznie standaryzować, aby każdy miał wariancję jednostkową w zbiorze danych) i załóżmy, że losowa odpowiedź Y jest określona przez te predyktory i ich interakcję plus niezależny błąd losowy:X1X2Y
Y=β1X1+β2X2+β1,2X1X2+ε.
W wielu przypadkach predyktory są skorelowane. Zestaw danych może wyglądać następująco:
Te przykładowe dane zostały wygenerowane przy i β 1 , 2 = 0,1 . Korelacja między X 1 i X 2 wynosi 0,85 .β1=β2=1β1,2=0.1X1X2)0,85
Nie musi to oznaczać, że myślimy o i X 2 jako realizacji zmiennych losowych: może obejmować sytuację, w której zarówno X 1, jak i X 2 są ustawieniami w zaprojektowanym eksperymencie, ale z jakiegoś powodu ustawienia te nie są ortogonalne.X1X2X1X2
Niezależnie od tego, jak powstaje korelacja, dobrym sposobem jej opisania jest to, jak bardzo predyktory różnią się od ich średniej, . Różnice te będą dość małe (w tym sensie, że ich wariancja jest mniejsza niż 1 ); im większa korelacja między X 1 i 2 , możemy ponownie wyrazić (powiedzmy) X 2 w kategoriach X 1X0=(X1+X2)/21X1 , tym mniejsze będą te różnice. Pisanie zatem X 1 = X 0 + δ 1 i X 2 = X 0 + δX2X1=X0+δ1X2=X0+δ2X2X1 jako . Model jest włączony tylko do terminu interakcjiX2=X1+(δ2−δ1)
Y=β1X1+β2X2+β1,2X1(X1+[δ2−δ1])+ε=(β1+β1,2[δ2−δ1])X1+β2X2+β1,2X21+ε
Pod warunkiem, że wartości różnią się tylko nieznacznie w porównaniu do β 1 , możemy zebrać tę zmienność z prawdziwymi przypadkowymi warunkami, piszącβ1,2[δ2−δ1]β1
Y=β1X1+β2X2+β1,2X21+(ε+β1,2[δ2−δ1]X1)
Zatem jeśli cofniemy względem X 1 ,Y i X 2 1 , popełnimy błąd: zmiana reszt będzie zależała od X 1 (to znaczy będzieheteroscedastyczna). Można to zobaczyć za pomocą prostego obliczenia wariancji:X1,X2X21X1
var(ε+β1,2[δ2−δ1]X1)=var(ε)+[β21,2var(δ2−δ1)]X21.
Jednakże, jeśli typowa zmiana w znacznie przekracza typową zmianę w β 1 , 2 [ δ 2 - δ 1 ] X 1 , ta heteroscedastyczność będzie tak niska, że będzie niewykrywalna (i powinna dać dobry model). (Jak pokazano poniżej, jednym ze sposobów sprawdzenia tego naruszenia założeń regresji jest wykreślenie wartości bezwzględnej reszt względem wartości bezwzględnej X 1 - pamiętając najpierw o standaryzacji X 1, jeśli to konieczne.) To jest charakterystyka, której szukaliśmy .εβ1,2[δ2−δ1]X1X1X1
Pamiętając, że przyjęto, że i X 2 zostały znormalizowane do wariancji jednostkowej, oznacza to, że wariancja δ 2 - δ 1 będzie względnie mała. Aby odtworzyć zaobserwowane zachowanie, wystarczy wybrać małą wartość bezwzględną dla β 1 , 2 , ale uczynić ją wystarczająco dużą (lub użyć wystarczająco dużego zestawu danych), aby była znacząca.X1X2δ2−δ1β1,2
Krótko mówiąc, gdy predyktory są skorelowane, a interakcja jest niewielka, ale niezbyt mała, to kwadratowy element (w każdym z predyktorów osobno) i termin interakcji będą indywidualnie znaczące, ale będą ze sobą pomieszane. Same metody statystyczne raczej nie pomogą nam zdecydować, które lepiej zastosować.
Przykład
Sprawdźmy to z przykładowymi danymi, dopasowując kilka modeli. Przypomnij sobie, że ustawiono na 0,1 podczas symulacji tych danych. Chociaż jest to małe (zachowanie kwadratowe nie było nawet widoczne w poprzednich wykresach rozrzutu), przy 150 punktach danych mamy szansę go wykryć.β1,20.1150
Po pierwsze, model kwadratowy :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.03363 0.03046 1.104 0.27130
x1 0.92188 0.04081 22.592 < 2e-16 ***
x2 1.05208 0.04085 25.756 < 2e-16 ***
I(x1^2) 0.06776 0.02157 3.141 0.00204 **
Residual standard error: 0.2651 on 146 degrees of freedom
Multiple R-squared: 0.9812, Adjusted R-squared: 0.9808
Kwadratyczny termin jest znaczący. Jego współczynnik, , nie docenia β 1 , 2 = 0,1 , ale ma odpowiedni rozmiar i właściwy znak. W celu sprawdzenia wielokoliniowości (korelacji między predyktorami) obliczamy współczynniki inflacji wariancji (VIF):0.068β1,2=0.1
x1 x2 I(x1^2)
3.531167 3.538512 1.009199
Każda wartość mniejsza niż jest zwykle uważana za odpowiednią. To nie jest niepokojące.5
Następnie model z interakcją, ale bez wyrażenia kwadratowego:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.02887 0.02975 0.97 0.333420
x1 0.93157 0.04036 23.08 < 2e-16 ***
x2 1.04580 0.04039 25.89 < 2e-16 ***
x1:x2 0.08581 0.02451 3.50 0.000617 ***
Residual standard error: 0.2631 on 146 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.9811
x1 x2 x1:x2
3.506569 3.512599 1.004566
Wszystkie wyniki są podobne do poprzednich. Oba są równie dobre (z niewielką przewagą nad modelem interakcji).
Na koniec dołączmy zarówno warunki interakcji, jak i kwadratowe :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.02572 0.03074 0.837 0.404
x1 0.92911 0.04088 22.729 <2e-16 ***
x2 1.04771 0.04075 25.710 <2e-16 ***
I(x1^2) 0.01677 0.03926 0.427 0.670
x1:x2 0.06973 0.04495 1.551 0.123
Residual standard error: 0.2638 on 145 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.981
x1 x2 I(x1^2) x1:x2
3.577700 3.555465 3.374533 3.359040
X1X2X21X1X2
Gdybyśmy próbowali wykryć heteroscedastyczność w modelu kwadratowym (pierwszym), bylibyśmy rozczarowani:
|X1|