Czy wszystkie warunki interakcji wymagają indywidualnych warunków w modelu regresji?

68

Właśnie recenzuję manuskrypt, w którym autorzy porównują modele regresji logit 5-6 z AIC. Jednak niektóre modele mają warunki interakcji bez uwzględnienia poszczególnych warunków zmiennych towarzyszących. Czy ma to kiedykolwiek sens?

Na przykład (nie dotyczy modeli rejestrujących):

M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)

Zawsze miałem wrażenie, że jeśli masz termin interakcji X1 * X2, potrzebujesz także X1 + X2. Dlatego modele 1 i 2 byłyby w porządku, ale modele 3-5 byłyby problematyczne (nawet jeśli AIC jest niższy). Czy to jest poprawne? Czy to reguła czy raczej wytyczna? Czy ktoś ma dobre referencje, które wyjaśniają uzasadnienie tego? Chcę się tylko upewnić, że nie przekażę niczego ważnego w recenzji.

Dzięki za wszelkie przemyślenia, Dan

djhocking
źródło
8
+1, myślę, że to naprawdę dobre pytanie. Możesz także zapoznać się z tym wcześniejszym pytaniem, które obejmuje większą część tego samego terytorium. Odpowiedzi tam również są naprawdę doskonałe.
gung
Wiele dobrych odpowiedzi już. W niektórych przypadkach, gdy nie potrzebujesz głównych efektów, pojawił się artykuł Rindskopfa . (Zobacz także ten )
Peter Flom
3
AFAIK: w R's lm (), :jest dla interakcji, jak w A: B. Dotyczy *to zarówno głównych efektów, jak i interakcji, więc A * B = A + B + A: B. Więc jeśli (!) Autorzy artykułu postępują zgodnie z tą notacją, to nie sądzę, żeby któryś z modeli pomijał te efekty?
Zhubarb
Również ta sama logika, co w obecnych odpowiedziach, dotyczy interakcji wyższego rzędu (np. Potrzebujesz wszystkich interakcji 2-kierunkowych, jeśli podasz 3-drożny)
Peter Flom

Odpowiedzi:

38

W większości przypadków jest to zły pomysł - głównym powodem jest to, że nie powoduje już, że model jest niezmienny w stosunku do przesunięć lokalizacji. Załóżmy na przykład, że masz jeden wynik i dwa predyktory i oraz określ model:yixizi

yi=β0+β1xizi+ε

Jeśli wyśrodkowujesz predyktory za ich pomocą, staje sięxizi

(xix¯)(ziz¯)=xizixiz¯zix¯+x¯z¯

Widać więc, że główne efekty zostały ponownie wprowadzone do modelu.

Podałem tutaj heurystyczny argument, ale stanowi to praktyczny problem. Jak zauważono w Faraway (2005) na stronie 114, addytywna zmiana skali zmienia wnioskowanie modelu, gdy główne efekty są pominięte w modelu, podczas gdy nie dzieje się tak, gdy uwzględnione są terminy niższego rzędu. Zwykle niepożądane jest, aby arbitralne rzeczy, takie jak przesunięcie lokalizacji, spowodowały zasadniczą zmianę wnioskowania statystycznego (a zatem i wniosków z twojego zapytania), co może się zdarzyć, jeśli uwzględnisz wielomianowe warunki lub interakcje w modelu bez efektów niższego rzędu.

Uwaga: Mogą zaistnieć szczególne okoliczności, w których chciałbyś uwzględnić interakcję, jeśli ma jakieś szczególne znaczenie merytoryczne lub jeśli obserwujesz tylko produkt, a nie poszczególne zmienne . Ale w takim przypadku równie dobrze można pomyśleć o predyktorze i przejść do modeluxizixi,ziai=xizi

yi=α0+α1ai+εi

zamiast myśleć o jako o znaczeniu interakcji.ai

Makro
źródło
additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the modelAddytywna zmiana predyktorów generalnie zmienia t ich głównych efektów (warunki niższego rzędu) nawet w pełnym modelu. Jest to ogólne dopasowanie (R ^ 2), które jest zachowane (ale nie jest zachowane przy zmianie addytywnej w modelu z pominięciem niektórych głównych efektów). Czy to chciałeś powiedzieć?
ttnphns
Tak, zgadza się @ttnphns - dziękuję za zwrócenie na to uwagi - zmodyfikowałem nieco moją odpowiedź, aby to odzwierciedlić.
Makro
28

Wszystkie dotychczasowe odpowiedzi wydają się pomijać bardzo podstawowy punkt: wybrana forma funkcjonalna powinna być wystarczająco elastyczna, aby uchwycić cechy, które są istotne z naukowego punktu widzenia. Modele 2-5 nakładają zerowe współczynniki na niektórych warunkach bez naukowego uzasadnienia. I nawet jeśli jest to naukowo uzasadnione, Model 1 pozostaje atrakcyjny, ponieważ równie dobrze można przetestować współczynniki zerowe, a nie je narzucić.

Kluczem jest zrozumienie, co oznaczają ograniczenia. Typowe ostrzeżenie, aby unikać modeli 3-5, jest takie, że w większości zastosowań założenia, które narzucają, są naukowo niewiarygodne. Model 3 zakłada, że ​​X2 wpływa tylko na nachylenie dY / dX1, ale nie na poziom. Model 4 zakłada, że ​​X1 wpływa tylko na nachylenie dY / dX2, ale nie na poziom. Model 5 zakłada, że ​​ani X1, ani X2 nie wpływają na poziom, ale tylko dY / dX1 lub dY / dX2. W większości aplikacji założenia te nie wydają się uzasadnione. Model 2 również narzuca współczynnik zerowy, ale nadal ma pewne zalety. Daje najlepsze liniowe przybliżenie danych, które w wielu przypadkach spełnia cel naukowy.

Tristan
źródło
5
(+1) To wszystko prawda, ale oryginalny plakat wydawał się opisywać sytuację, w której autorzy próbowali dokonać wyboru modelu, a niektóre z ich modeli kandydujących były takie, które nie zawierały interakcji - więc ich motywacją kierował AIC zamiast czegoś merytorycznego (co zawsze jest niebezpieczne, ale najwyraźniej już to zrobili). Kiedy kierujesz się czymś merytorycznym, struktura modelu powinna być podyktowana tym. Ale kiedy kierujesz się kryteriami statystycznymi, pomijanie głównych efektów może mieć złe właściwości, jak wskazałem w mojej odpowiedzi.
Makro
16

+1 do @Macro. Pozwól, że przedstawię to, co moim zdaniem jest podobną kwestią, która dotyczy predyktorów jakościowych. Wiele może zależeć od sposobu ich kodowania . Na przykład w kodowaniu komórki referencyjnej (aka „manekina”) używa się 0 i 1, podczas gdy w kodowaniu efektu używa się -1, 0 i 1. Rozważ prosty przypadek z dwoma czynnikami z dwoma poziomami każdy, a następniex1x2może być [0, 0, 0, 1] lub [1, -1, -1, 1], w zależności od zastosowanego schematu kodowania. Uważam, że możliwa jest sytuacja, w której tylko interakcja jest „znacząca” z jednym schematem kodowania, ale wszystkie terminy są „znaczące” przy użyciu drugiego schematu. Oznacza to, że sensowne decyzje interpretacyjne byłyby podejmowane na podstawie arbitralnej decyzji dotyczącej kodowania, którą w rzeczywistości oprogramowanie mogło zostać wykonane dla Ciebie bez Twojej wiedzy. Rozumiem, że jest to drobna kwestia, ale jest to jeszcze jeden powód, dla którego zazwyczaj nie jest dobrym pomysłem zachowanie samej interakcji (a także nie wybieranie podzbioru predyktorów na podstawie wartości p, oczywiście).

gung
źródło
1
Testowanie istotności dla głównych efektów kategorycznych jest nie mniej niezmienne. Grupa może znacznie różnić się od grupy referencyjnej poddawanej kodowaniu leczonemu, ale nie od efektu „wielkiej średniej” przy kodowaniu kontrastowym.
probabilityislogic
10

Ponieważ recenzujesz artykuł, możesz zasugerować, aby autorzy omawiali kwestię hierarchii modeli i uzasadnili odejście od niej.

Oto kilka referencji:

  1. Nelder JA. Wybór terminów w modelach powierzchni odpowiedzi - jak silna jest zasada słabej dziedziczności? The American Statistician. 1998; 52: 315–8. http://www.jstor.org/pss/2685433 . Dostęp 10 czerwca 2010 r.

  2. Peixoto JL. Hierarchiczny wybór zmiennych w modelach regresji wielomianowej. The American Statistician. 1987; 41: 311–3. http://www.jstor.org/pss/2684752 . Dostęp 10 czerwca 2010 r.

  3. Peixoto JL. Właściwość dobrze sformułowanych modeli regresji wielomianowej. The American Statistician. 1990; 44: 26–30. http://www.jstor.org/pss/2684952 . Dostęp 10 czerwca 2010 r.

Zwykle przestrzegam hierarchii, ale w niektórych sytuacjach od niej odchodzę. Na przykład, jeśli testujesz zużycie opon w zależności od przebiegu przy różnych prędkościach, Twój model może wyglądać następująco:

głębokość bieżnika = punkt przecięcia + przebieg + przebieg * prędkość

ale uwzględnienie głównego efektu prędkości nie miałoby sensu fizycznego, ponieważ opona nie wie, jaka będzie prędkość na zero mil.

(Z drugiej strony nadal możesz chcieć sprawdzić efekt prędkości, ponieważ może to wskazywać, że efekty „włamania” różnią się przy różnych prędkościach. Z drugiej strony jeszcze lepszym sposobem radzenia sobie z włamaniem byłoby uzyskaj dane przy zerowym i bardzo niskim przebiegu, a następnie sprawdź nieliniowość. Pamiętaj, że usunięcie terminu przechwytywania może być traktowane jako szczególny przypadek naruszenia hierarchii.)

Powtórzę również to, co ktoś powiedział powyżej, ponieważ jest to bardzo ważne: autorzy muszą upewnić się, że wiedzą, czy ich oprogramowanie centruje dane. Powyższy model opony staje się fizycznie bezsensowny, jeśli oprogramowanie zamienia przebieg na (przebieg - średnia przebiegu).

Te same rzeczy są istotne w badaniach stabilności farmaceutycznej (wspomniane stycznie w „Modelach stabilności dla przechowywania sekwencyjnego”, Emil M. Friedman i Sam C. Shum, AAPS PharmSciTech, tom 12, nr 1, marzec 2011, DOI: 10.1208 / s12249-010-9558-x).

Emil Friedman
źródło
1
dziękuję, to świetna odpowiedź, która pomoże mi wyjaśnić ją osobom, które nie są sprytne statystycznie.
djhocking
1
+1 Chciałbym móc scalić odpowiedzi na SO. To z zaakceptowaną odpowiedzią powyżej stanowi doskonałą odpowiedź.
Zhubarb
9

Miałem prawdziwy przypadek, który to ilustruje. W danych jedna ze zmiennych reprezentowana groupprzez kontrolę 0 i leczenie 1. Drugi predyktor reprezentowany time periodprzez 0 przed leczeniem i 1 po leczeniu. Interakcja była głównym parametrem będącym przedmiotem zainteresowania, mierzącym efekt leczenia, różnicę po leczeniu w grupie leczonej powyżej jakiegokolwiek efektu czasu mierzonego w grupie kontrolnej. Główny efekt zgroupzmierzyłem różnicę w 2 grupach przed jakimkolwiek leczeniem, więc łatwo może wynosić 0 (w randomizowanym eksperymencie powinno to być 0, tym nie było). Drugi główny efekt mierzy różnicę między przedziałami czasu przed i po w grupie kontrolnej, w której nie było leczenia, więc ma to również sens, że może wynosić 0, podczas gdy czas interakcji jest niezerowy. Oczywiście zależy to od tego, jak rzeczy zostały zakodowane, a inne kodowanie zmieniłoby znaczenie i to, czy interakcja ma sens bez głównych efektów. Dlatego sensowne jest dopasowanie interakcji bez głównych efektów w określonych przypadkach.

Greg Snow
źródło
Czy masz na myśli, że wszystko zależy od celów twojego badania LUB na podstawie twoich parametrów?
Ben
1
@Ben, może zależeć zarówno od tego, jak sparametryzujesz swoje zmienne (w moim przykładzie zmiana 0/1 na 1/0 dla dowolnej zmiennej zmieniłaby interpretację) oraz od pytań, na które próbujesz odpowiedzieć, i jakie założenia chcesz przyjąć. .
Greg Snow,
dzięki za odpowiedź. Mam interakcję na dwa sposoby i chcę ją współdziałać z pozornym rokiem. Chcę jedynie ocenić rok 2008 (rok regulacji) na podstawie interakcji na dwa sposoby. więc czy można użyć X i Z są zmiennymi ciągłymi, Z to ocena regulacji. rok 2008 otrzymuje 1 i 0 za pozostałe lata. to tak, jakby obserwować rok 2008 bez interakcji. Czytałem o zasadzie słabej i silnej dziedziczności, ale nie do końca zrozumiałem
Y=B0+B1X+B2Z+B3XZ2008+yeardummies
Ben
1
@Ben, Z pewnością można dopasować do powyższego modelu, który zasadniczo mówi, że uważasz, że istnieje (lub może być) interakcja w 2008 roku, ale nie w żadnym innym roku. Jeśli masz na to uzasadnienie, to uważam, że model jest w porządku. Ale jest to dość niezwykłe założenie, że prawdopodobnie będziesz musiał uzasadnić to każdemu odbiorcy.
Greg Snow,
wielkie dzięki, które było pomocne. Czy można porównywać wyniki interakcji z chociaż dotyczy całego okresu, a interakcja dotyczy tylko roku 2008B 1 X
B1X
B1X
Ben
7

Zgadzam się z Peterem. Myślę, że regułą jest folklor. Dlaczego moglibyśmy wyobrazić sobie sytuację, w której dwie zmienne wpłynęłyby na model tylko z powodu interakcji. Analogią w chemii jest to, że dwie substancje chemiczne są same w sobie całkowicie obojętne, ale po zmieszaniu powodują wybuch. Matematyczne / statystyczne subtelności, takie jak niezmienniczość, nie mają nic wspólnego z prawdziwym problemem z prawdziwymi danymi. Po prostu uważam, że gdy trzeba wziąć pod uwagę wiele zmiennych, trzeba wykonać bardzo dużo testów, jeśli przyjrzysz się wszystkim głównym efektom i większości, jeśli nie wszystkim interakcjom pierwszego rzędu. Niemal nigdy też nie przyglądamy się interakcjom drugiego rzędu, nawet w małych eksperymentach z tylko garstką zmiennych. Myślenie jest takie, że im wyższy porządek interakcji, tym mniejsze prawdopodobieństwo, że wystąpi prawdziwy efekt. Więc nie t patrzeć na interakcje pierwszego lub drugiego rzędu, jeśli nie ma tam głównego efektu. Być może dobrą zasadą, ale przestrzeganie jej z religijnego punktu widzenia oznacza przeoczenie wyjątków, a twój problem może być wyjątkiem.

Michael Chernick
źródło
8
Re: „Matematyczne / statystyczne subtelności, takie jak niezmienniczość, nie mają nic wspólnego z prawdziwym problemem z rzeczywistymi danymi” - ma to związek z prawdziwym problemem z rzeczywistymi danymi, gdy wasze wartości , a zatem z wnioskiem statystycznym (a zatem z „ rzeczywista decyzja dotycząca znaczenia predyktora), może zależeć od czegoś tak arbitralnego, jak decyzja o centrowaniu predyktorów. p
Makro
1
Prawdopodobnie źle powiedziałem, mówiąc, że niezmienność nie ma znaczenia w prawdziwym świecie. Moim zamierzonym punktem było to, że niektóre wyniki matematyczne mogą nie mieć znaczenia w konkretnym problemie praktycznym. Jako przykład, szacunki najmniejszych kwadratów są maksymalnym prawdopodobieństwem przy założeniu błędu normalnego, a według twierdzenia Gaussa Markowa są to minimalne obiektywne wariancje w słabszych warunkach, ale nie użyłbym tego, gdy w danych występują wartości odstające. Z tego samego powodu, czy właściwość taka jak niezmienność powinna wykluczać interakcję, gdy ma sens powiedzieć medycznie, że nastąpiłaby bez głównych efektów?
Michael Chernick
6

[próbuje odpowiedzieć na część pierwotnego pytania, które w większości odpowiedzi nie zostało odkryte: „czy należy ufać AIC jako kryterium wyboru modelu?”]

AIC powinno być używane raczej jako wskazówka niż reguła, którą należy traktować jako ewangelię.

Skuteczność AIC (lub BIC lub dowolnego podobnego „prostego” kryterium wyboru modelu) w dużej mierze zależy od algorytmu uczenia się i problemu.

Pomyśl o tym w ten sposób: cel złożoności (liczby czynników) w formule AIC jest prosty: uniknąć wybierania modeli, które są nadmiernie dopasowane. Jednak prostota AIC bardzo często nie oddaje prawdziwej złożoności samego problemu. Dlatego istnieją inne praktyczne techniki pozwalające uniknąć nadmiernego dopasowania: na przykład walidacja krzyżowa lub dodanie terminu regularyzacji.

Kiedy używam online SGD (stochastycznego spadku gradientu) do regresji liniowej na zbiorze danych z bardzo dużą liczbą danych wejściowych, uważam, że AIC jest strasznym predyktorem jakości modelu, ponieważ nadmiernie karze złożone modele o dużej liczbie terminów. Istnieje wiele rzeczywistych sytuacji, w których każdy termin ma niewielki wpływ, ale razem duża ich liczba daje mocne dowody statystyczne na wynik. Kryteria wyboru modeli AIC i BIC odrzuciłyby te modele i wolałyby te prostsze, nawet jeśli bardziej złożone są lepsze.

W końcu liczy się błąd uogólnienia (z grubsza: wydajność poza próbą). AIC może dać ci wskazówkę dotyczącą jakości modelu w niektórych stosunkowo prostych sytuacjach. Bądź ostrożny i pamiętaj, że prawdziwe życie jest często bardziej skomplikowane niż prosta formuła.

arielf
źródło