Czy sensowne jest dodanie do modelu członu kwadratowego, ale nie liniowego?

57

Mam (mieszany) model, w którym jeden z moich predyktorów powinien z góry być kwadratowo powiązany tylko z predyktorem (z powodu manipulacji eksperymentalnej). Dlatego chciałbym dodać do modelu tylko kwadratowy termin. Dwie rzeczy powstrzymują mnie od tego:

  1. Myślę, że czytałem już gdzieś, że zawsze powinieneś uwzględniać wielomian niższego rzędu przy dopasowywaniu wielomianów wyższego rzędu. Zapomniałem, gdzie go znalazłem iw literaturze, na którą spojrzałem (np. Faraway, 2002; Fox, 2002) nie mogę znaleźć dobrego wyjaśnienia.
  2. Kiedy dodam oba, liniowy i kwadratowy termin, oba są znaczące. Gdy dodam tylko jeden z nich, nie mają one znaczenia. Jednak liniowa relacja predyktora i danych nie jest możliwa do interpretacji.

Kontekst mojego pytania jest w szczególności oparty na modelu mieszanym lme4, ale chciałbym uzyskać odpowiedzi, które mogłyby wyjaśnić, dlaczego tak jest lub dlaczego nie jest właściwe wprowadzanie wielomianu wyższego rzędu, a nie wielomianu niższego rzędu.

W razie potrzeby mogę podać dane.

Henrik
źródło
5
Myślę, że odpowiedzi na to pytanie mogą być pomocne.
6
Tak, zgadzam się z Procrastinatorem, a pytania dotyczące interakcji są zasadniczo takie same. Mamy kilka wysoko głosowanych pytań na ten temat. Oprócz sugestii Pro, zobacz także Czy wszystkie terminy interakcji wymagają indywidualnych warunków w modelu regresji? a co jeśli interakcja ociera moje bezpośrednie skutki w regresji? .
Andy W
Dziękujemy za przypomnienie tych pytań. Z podanych tam odpowiedzi wydaje się, że jest to dobra strategia, jeśli masz dobre a priori powody, aby zawrzeć tylko kwadratowy termin, a nie jako taki zły. Pozostaje pytanie o skalowalność (patrz: stats.stackexchange.com/a/27726/442 ). Czy powinienem wyśrodkować moją zmienną przed dopasowaniem, używając tylko kwadratowego terminu?
Henrik
1
@Henrik - moja odpowiedź w linku, który zamieściłeś, dotyczyła tego, w jaki sposób wnioskowanie modelu zależy od arbitralnych przesunięć wartości predyktorów (takich jak średnie centrowanie) - niepożądane jest, aby merytoryczne wnioski zależały od czegoś tak arbitralnego, dlatego moja odpowiedź na twoje pytanie brzmi „nie” z tego samego powodu.
Makro
2
Kwestia kwadratowa vs liniowa jest wystarczająco koncepcyjnie odrębna od interakcji, które moim zdaniem nie powinny być uważane za duplikat.
gung - Przywróć Monikę

Odpowiedzi:

66

1. Dlaczego warto uwzględnić termin liniowy?

Dobrze jest zauważyć, że związek kwadratowy można zapisać na dwa sposoby:

y=za0+za1x+za2)x2)=za2)(x-b)2)+do

(gdzie, porównując współczynniki, znajdujemy i a 2 b 2 + c = a 0 ). Wartość x = b odpowiada globalnemu ekstremum relacji (geometrycznie lokalizuje wierzchołek paraboli).-2)za2)b=za1za2)b2)+do=za0x=b

Jeśli nie podasz terminu liniowego , możliwości zostaną zmniejszone doza1x

y=za0+za2)x2)=za2)(x-0)2)+do

(gdzie teraz oczywiście i zakłada się, że model zawiera stały składnik a 0 ). Oznacza to, że wymuszasz b = 0 .do=za0za0b=0

W świetle tego pytanie nr 1 sprowadza się do tego, czy jesteś pewien, że ekstremum globalne musi wystąpić przy . Jeśli tak, możesz bezpiecznie pominąć termin liniowy a 1 x . W przeciwnym razie musisz go dołączyć.x=0za1x

2. Jak rozumieć zmiany znaczenia, gdy terminy są uwzględnione lub wykluczone?

Jest to szczegółowo omówione w pokrewnym wątku na https://stats.stackexchange.com/a/28493 .

W niniejszej sprawie znaczenie wskazuje jest krzywizna w relacji i znaczenie w 1 wskazuje, że b jest niezerowe: to brzmi jak trzeba zawierać oba terminy (a także stała, oczywiście).za2)za1b

Whuber
źródło
1
Dzięki, kurwa. Świetna odpowiedź. Więc jeśli wyśrodkuję teoretyczne ekstremum na 0 (to właściwie minimum), nic mi nie będzie z pominięciem terminu liniowego. To prowadzi do bardzo znaczącego predyktora kwadratowego (bez liniowego).
Henrik
jeśli zarówno liniowe, jak i kwadratowe warunki zmiennej są skorelowane, czy mogę zawrzeć oba z nich w modelu, czy też powinienem wykluczyć jedno (które, jak zakładam, powinno być kwadratowe)?
mtao
@Teresa Nie ma ogólnego powodu, aby wyeliminować skorelowane terminy w regresji. (Gdyby tak było, ogromna większość kiedykolwiek stworzonych modeli regresji miałaby kłopoty!) Bardzo silnie skorelowane terminy, które razem nie przyczyniają się do dopasowania modelu do żadnego z nich, mogą być zredukowane do podzbioru tych terminów.
whuber
@ whuber, dziękuję bardzo! Ponadto w przypadku modelu regresji logistycznej wykorzystałem iloraz szans do oszacowania wielkości efektu, ale tylko w kategoriach liniowych. Kiedy mam liniowy i kwadratowy, czy mogę zastosować to samo podejście i interpretować wyniki w ten sam sposób?
mtao
Nie do końca. Powodem jest to, że nie można osobno zmieniać warunków liniowych i kwadratowych. Musisz zastanowić się, jak zmieni się odpowiedź, gdy zmienisz nieco oryginalną zmienną.
whuber
22

@whuber udzielił tutaj naprawdę doskonałej odpowiedzi. Chcę tylko dodać mały punkt uzupełniający. Pytanie stwierdza, że ​​„liniowej relacji predyktora i danych nie można interpretować”. Wskazuje to na powszechne nieporozumienie, chociaż zwykle słyszę to na drugim końcu („jaka jest interpretacja kwadratu [sześcienny itp.]?”).

Kiedy mamy model z wieloma różnymi zmiennymi towarzyszącymi, każdy beta [termin] może ogólnie mieć własną interpretację. Na przykład, jeśli:

GPA^doollmisolmi=β0+β1GPAhjasolhsdohool+β2)klasa rangi+β3)SAT,

(GPA oznacza średnią punktową oceny;
ranga to porządek GPA studenta względem innych uczniów tego samego liceum; &
SAT oznacza „scholastyczny test umiejętności” standardowy, ogólnokrajowy test dla studentów wyjeżdżających na uniwersytet)

następnie możemy przypisać osobne interpretacje do każdej wersji beta / semestru. Na przykład, jeśli wysoki GPA szkolnych uczeń były 1 punkt wyżej - wszystkie pozostałe były równe - spodziewamy się ich kolegium GPA być punktów wyższy. β1

Należy jednak pamiętać, że taka interpretacja modelu nie zawsze jest dopuszczalna. Jednym oczywistym przypadkiem jest interakcja między niektórymi zmiennymi, ponieważ nie byłoby możliwe, aby poszczególne terminy różniły się i nadal utrzymywały się na stałym poziomie - z konieczności zmieniłby się również termin interakcji. Tak więc, gdy zachodzi interakcja, nie interpretujemy głównych efektów, a jedynie proste efekty , co jest dobrze zrozumiane.

Sytuacja w kategoriach władzy jest bezpośrednio analogiczna, ale niestety nie wydaje się być szeroko rozumiana. Rozważmy następujący
(w tym przypadku, x , jest przeznaczony do reprezentowania prototypowego ciągły kowariancji), nie jest możliwe x zmianie bez x 2 zmiany także i nawzajem. Mówiąc najprościej, gdy w modelu występują terminy wielomianowe, różne terminy oparte na tej samej współzmiennej leżącej u podstaw nie są osobno interpretowane. X 2 ( x

y^=β0+β1x+β2)x2)
xxx2)x2)x, itd.) termin nie ma żadnego niezależnego znaczenia. x17 Fakt, że wielomian potęgowy jest w modelu „znaczący”, wskazuje, że w funkcji odnoszącej się do x i y występują „zagięcia” p - 1 . Niefortunne, ale nieuniknione jest to, że gdy pojawia się krzywizna, interpretacja staje się bardziej skomplikowana i być może mniej intuicyjna. Aby ocenić zmianę y jako x zmian, będziemy musieli korzystać z rachunku. Pochodną powyższego modelu jest: d ypp-1xyy^x
czyli chwilowa szybkość zmian wartości oczekiwanejYjakoxzmian, wszystkie pozostałe elementy są takie same. To nie jest tak czyste, jak interpretacja bardzo topowego modelu; co ważne, chwilowe tempo zmianyzależy od poziomux,od którego ocenia się zmianę. Ponadto szybkość zmian wyjest szybkością chwilową; to znaczy, że sama zmienia się w sposób ciągły w przedziale odxolddoxnew
reyrex=β1+2)β2)x
yxy xyxolrexnmiw. Taka jest po prostu natura krzywoliniowej relacji.
gung - Przywróć Monikę
źródło
1
Doskonała odpowiedź! Przypomina mi to kilka doskonałych odpowiedzi użytkownika chl na interpretację efektów interakcji . W tej odpowiedzi podaje odniesienia do artykułów. Jakie są najlepsze praktyki w identyfikowaniu efektów interakcji? . I daje wspaniały przykład graficznego wyświetlania interakcji za pomocą coplotów w tej odpowiedzi. Czy interakcja jest możliwa między dwiema ciągłymi zmiennymi? .
Andy W
1
Na odpowiedź Gunga chcę tylko powiedzieć, że modelowanie statystyczne wiąże się z hałasem, który może ukryć szczegóły w modelu regresji wielomianowej. myślę, że centralnym zagadnieniem, które poruszył Bill Huber, było greta, ponieważ w jednej formacji brakuje terminu liniowego, aw drugim występuje w przypadku kwadratu. Siła krzywizny w sygnale dyktuje potrzebę określenia terminu wyższego niż pierwszego rzędu, ale tak naprawdę nie mówi nam nic o potrzebie określenia terminu liniowego.
Michael Chernick
7

x=0

Y=b0+b2)(x-x¯)2)x¯xx=x¯

Stwierdzenie, że zarówno liniowe, jak i kwadratowe terminy są znaczące, gdy oba zostaną wprowadzone, wymaga pewnego wyjaśnienia. Na przykład SAS może zgłosić test typu I i / lub typ III dla tego przykładu. Typ I testuje liniowość przed wprowadzeniem kwadratyki. Typ III bada liniowy z kwadratowym w modelu.

Emil Friedman
źródło
2
x2)x=0x=x¯xx2)wystąpił.
gung - Przywróć Monikę
Z drugiej strony, możesz odnieść się do wkładu użytkownika, podając jego nazwę użytkownika, możliwą za pomocą symbolu „at”. Np. W tym przypadku „odpowiedź @ whubera jest trafna w cel ...” (sentyment, z którym się zgadzam.)
gung - Przywróć Monikę
1
Dziękuję, Emil, za przekazanie tych przypomnień: oba warto pamiętać.
whuber
3

Brambor, Clark i Golder (2006) (dołączony do dodatku internetowego ) mają bardzo jasne podejście do rozumienia modeli interakcji i unikania typowych pułapek, w tym także dlaczego (prawie) zawsze należy uwzględniać warunki niższego rzędu ( „warunki konstytutywne”) w modelach interakcji.

Analitycy powinni uwzględniać wszystkie konstytutywne warunki przy określaniu multiplikatywnych modeli interakcji, z wyjątkiem bardzo rzadkich okoliczności. Przez konstytutywne terminy rozumiemy każdy element, który stanowi termin interakcji. [..]

X2)XZjotXX2)XZjotXZXjotZjotXZjot

Niezastosowanie się do tego może skutkować nieokreślonym modelem, który prowadziłby do stronniczych szacunków. Może to prowadzić do błędów wnioskowania.

ZXZXZβ0β1β3)

landroni
źródło