Termin kwadratowy lub interakcyjny jest znaczący w oderwaniu, ale żaden z nich nie jest razem

15

W ramach zadania musiałem dopasować model do dwóch zmiennych predykcyjnych. Następnie musiałem narysować wykres reszt modelu w oparciu o jeden z zawartych predyktorów i na tej podstawie dokonać zmian. Na wykresie pokazano trend krzywoliniowy, dlatego włączyłem kwadratowy termin dla tego predyktora. Nowy model pokazał, że kwadrat jest znaczący. Jak dotąd wszystko dobrze.

Dane sugerują jednak, że interakcja również ma sens. Dodanie terminu interakcji do oryginalnego modelu również „naprawiło” trend krzywoliniowy i było również znaczące po dodaniu do modelu (bez członu kwadratowego). Problem polega na tym, że gdy do modelu dodawane są zarówno kwadratowe, jak i interakcyjne, jeden z nich nie jest istotny.

Który termin (kwadratowy lub interakcja) powinienem dołączyć do modelu i dlaczego?

Tal Bashan
źródło

Odpowiedzi:

21

Streszczenie

Gdy predyktory są skorelowane, pojęcie kwadratowe i pojęcie interakcji będą zawierały podobne informacje. Może to powodować, że model kwadratowy lub model interakcji będzie znaczący; ale gdy oba terminy są uwzględnione, ponieważ są tak podobne, żadne z nich nie może być znaczące. Standardowa diagnostyka wielokoliniowości, taka jak VIF, może nie wykryć żadnego z nich. Nawet wykres diagnostyczny, specjalnie zaprojektowany w celu wykrycia efektu zastosowania modelu kwadratowego zamiast interakcji, może nie określić, który model jest najlepszy.


Analiza

Istotą tej analizy i jej główną siłą jest scharakteryzowanie sytuacji takich jak opisane w pytaniu. Przy takiej charakterystyce łatwo jest symulować dane, które zachowują się odpowiednio.

Rozważ dwa predyktory i X 2 (które będziemy automatycznie standaryzować, aby każdy miał wariancję jednostkową w zbiorze danych) i załóżmy, że losowa odpowiedź Y jest określona przez te predyktory i ich interakcję plus niezależny błąd losowy:X1X2Y

Y=β1X1+β2X2+β1,2X1X2+ε.

W wielu przypadkach predyktory są skorelowane. Zestaw danych może wyglądać następująco:

Matryca punktowa

Te przykładowe dane zostały wygenerowane przy i β 1 , 2 = 0,1 . Korelacja między X 1 i X 2 wynosi 0,85 .β1=β2=1β1,2=0.1X1X2)0,85

Nie musi to oznaczać, że myślimy o i X 2 jako realizacji zmiennych losowych: może obejmować sytuację, w której zarówno X 1, jak i X 2 są ustawieniami w zaprojektowanym eksperymencie, ale z jakiegoś powodu ustawienia te nie są ortogonalne.X1X2X1X2

Niezależnie od tego, jak powstaje korelacja, dobrym sposobem jej opisania jest to, jak bardzo predyktory różnią się od ich średniej, . Różnice te będą dość małe (w tym sensie, że ich wariancja jest mniejsza niż 1 ); im większa korelacja między X 1 i 2 , możemy ponownie wyrazić (powiedzmy) X 2 w kategoriach X 1X0=(X1+X2)/21X1 , tym mniejsze będą te różnice. Pisanie zatem X 1 = X 0 + δ 1 i X 2 = X 0 + δX2X1=X0+δ1X2=X0+δ2X2X1 jako . Model jest włączony tylko do terminu interakcjiX2=X1+(δ2δ1)

Y=β1X1+β2X2+β1,2X1(X1+[δ2δ1])+ε=(β1+β1,2[δ2δ1])X1+β2X2+β1,2X12+ε

Pod warunkiem, że wartości różnią się tylko nieznacznie w porównaniu do β 1 , możemy zebrać tę zmienność z prawdziwymi przypadkowymi warunkami, piszącβ1,2[δ2δ1]β1

Y=β1X1+β2X2+β1,2X12+(ε+β1,2[δ2δ1]X1)

Zatem jeśli cofniemy względem X 1 ,Y i X 2 1 , popełnimy błąd: zmiana reszt będzie zależała od X 1 (to znaczy będzieheteroscedastyczna). Można to zobaczyć za pomocą prostego obliczenia wariancji:X1,X2X12X1

var(ε+β1,2[δ2δ1]X1)=var(ε)+[β1,22var(δ2δ1)]X12.

Jednakże, jeśli typowa zmiana w znacznie przekracza typową zmianę w β 1 , 2 [ δ 2 - δ 1 ] X 1 , ta heteroscedastyczność będzie tak niska, że ​​będzie niewykrywalna (i powinna dać dobry model). (Jak pokazano poniżej, jednym ze sposobów sprawdzenia tego naruszenia założeń regresji jest wykreślenie wartości bezwzględnej reszt względem wartości bezwzględnej X 1 - pamiętając najpierw o standaryzacji X 1, jeśli to konieczne.) To jest charakterystyka, której szukaliśmy .εβ1,2[δ2δ1]X1X1X1

Pamiętając, że przyjęto, że i X 2 zostały znormalizowane do wariancji jednostkowej, oznacza to, że wariancja δ 2 - δ 1 będzie względnie mała. Aby odtworzyć zaobserwowane zachowanie, wystarczy wybrać małą wartość bezwzględną dla β 1 , 2 , ale uczynić ją wystarczająco dużą (lub użyć wystarczająco dużego zestawu danych), aby była znacząca.X1X2δ2δ1β1,2

Krótko mówiąc, gdy predyktory są skorelowane, a interakcja jest niewielka, ale niezbyt mała, to kwadratowy element (w każdym z predyktorów osobno) i termin interakcji będą indywidualnie znaczące, ale będą ze sobą pomieszane. Same metody statystyczne raczej nie pomogą nam zdecydować, które lepiej zastosować.


Przykład

Sprawdźmy to z przykładowymi danymi, dopasowując kilka modeli. Przypomnij sobie, że ustawiono na 0,1 podczas symulacji tych danych. Chociaż jest to małe (zachowanie kwadratowe nie było nawet widoczne w poprzednich wykresach rozrzutu), przy 150 punktach danych mamy szansę go wykryć.β1,20.1150

Po pierwsze, model kwadratowy :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.03363    0.03046   1.104  0.27130    
x1           0.92188    0.04081  22.592  < 2e-16 ***
x2           1.05208    0.04085  25.756  < 2e-16 ***
I(x1^2)      0.06776    0.02157   3.141  0.00204 ** 

Residual standard error: 0.2651 on 146 degrees of freedom
Multiple R-squared: 0.9812, Adjusted R-squared: 0.9808 

Kwadratyczny termin jest znaczący. Jego współczynnik, , nie docenia β 1 , 2 = 0,1 , ale ma odpowiedni rozmiar i właściwy znak. W celu sprawdzenia wielokoliniowości (korelacji między predyktorami) obliczamy współczynniki inflacji wariancji (VIF):0.068β1,2=0.1

      x1       x2  I(x1^2) 
3.531167 3.538512 1.009199 

Każda wartość mniejsza niż jest zwykle uważana za odpowiednią. To nie jest niepokojące.5

Następnie model z interakcją, ale bez wyrażenia kwadratowego:

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02887    0.02975    0.97 0.333420    
x1           0.93157    0.04036   23.08  < 2e-16 ***
x2           1.04580    0.04039   25.89  < 2e-16 ***
x1:x2        0.08581    0.02451    3.50 0.000617 ***

Residual standard error: 0.2631 on 146 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.9811

      x1       x2    x1:x2 
3.506569 3.512599 1.004566 

Wszystkie wyniki są podobne do poprzednich. Oba są równie dobre (z niewielką przewagą nad modelem interakcji).

Na koniec dołączmy zarówno warunki interakcji, jak i kwadratowe :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02572    0.03074   0.837    0.404    
x1           0.92911    0.04088  22.729   <2e-16 ***
x2           1.04771    0.04075  25.710   <2e-16 ***
I(x1^2)      0.01677    0.03926   0.427    0.670    
x1:x2        0.06973    0.04495   1.551    0.123    

Residual standard error: 0.2638 on 145 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.981 

      x1       x2  I(x1^2)    x1:x2 
3.577700 3.555465 3.374533 3.359040

X1X2X12X1X2

Gdybyśmy próbowali wykryć heteroscedastyczność w modelu kwadratowym (pierwszym), bylibyśmy rozczarowani:

Wykres diagnostyczny

|X1|

Whuber
źródło
9

Co ma największy sens na podstawie źródła danych?

Nie możemy odpowiedzieć na to pytanie, komputer nie może odpowiedzieć na to pytanie. Powodem, dla którego wciąż potrzebujemy statystyk zamiast tylko programów statystycznych, są takie pytania. Statystyki to coś więcej niż tylko chrupanie liczb, chodzi o zrozumienie pytania i źródła danych oraz możliwość podejmowania decyzji w oparciu o wiedzę naukową i tło oraz inne informacje poza danymi, na które patrzy komputer. Twój nauczyciel prawdopodobnie ma nadzieję, że rozważysz to w ramach zadania. Gdybym przydzielił taki problem (i mam go wcześniej), byłbym bardziej zainteresowany uzasadnieniem twojej odpowiedzi, niż którą wybrałeś.

Prawdopodobnie wykracza to poza twoją obecną klasę, ale jedno podejście, jeśli nie ma wyraźnego naukowego powodu, aby preferować jeden model nad drugim, to uśrednianie modelu, pasujesz do obu modeli (a może także kilku innych modeli), a następnie uśredniasz prognozy (często ważony dobrością dopasowania różnych modeli).

Inną opcją, jeśli to możliwe, jest zebranie większej ilości danych i, jeśli to możliwe, wybranie wartości x, aby stało się bardziej jasne, jakie są efekty nieliniowe vs.

Istnieje kilka narzędzi do porównywania dopasowania modeli nie zagnieżdżonych (AIC, BIC itp.), Ale w tym przypadku prawdopodobnie nie wykażą wystarczającej różnicy, aby zastąpić zrozumienie, skąd pochodzą dane i co jest najbardziej sensowne.

Greg Snow
źródło
1

Jeszcze inną możliwością, oprócz @ Grega, jest uwzględnienie obu terminów, nawet jeśli jedna nie jest znacząca. Włączanie tylko statystycznie znaczących terminów nie jest prawem wszechświata.

Peter Flom - Przywróć Monikę
źródło
Dzięki Peter i @Greg. Wydaje mi się, że na tym etapie studiów szukam bezwzględnych odpowiedzi na pytania, które wymagają przynajmniej trochę uzasadnienia jakościowego. Ponieważ dodanie albo kwadratu, albo terminu interakcji „naprawiło” wykres reszt względem predyktora, nie byłem pewien, który z nich należy uwzględnić. Zaskoczyło mnie to, że włączenie kwadratu spowodowało, że termin interakcji nie był znaczący. Pomyślałbym, że jeśli zachodzi interakcja, byłaby znacząca bez względu na to, czy uwzględniony został kwadrat.
Tal Bashan,
1
Cześć @TalBashan Słynny statystyk, Donald Cox, powiedział kiedyś, że „nie ma rutynowych pytań statystycznych, tylko wątpliwe rutyny statystyczne”
Peter Flom - Przywróć Monikę
@PeterFlom Może masz na myśli Sir Davida Coxa?
Michael R. Chernick,
Ups Tak, David, nie Donald. Przepraszam.
Peter Flom - Przywróć Monikę