Właśnie recenzuję manuskrypt, w którym autorzy porównują modele regresji logit 5-6 z AIC. Jednak niektóre modele mają warunki interakcji bez uwzględnienia poszczególnych warunków zmiennych towarzyszących. Czy ma to kiedykolwiek sens?
Na przykład (nie dotyczy modeli rejestrujących):
M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)
Zawsze miałem wrażenie, że jeśli masz termin interakcji X1 * X2, potrzebujesz także X1 + X2. Dlatego modele 1 i 2 byłyby w porządku, ale modele 3-5 byłyby problematyczne (nawet jeśli AIC jest niższy). Czy to jest poprawne? Czy to reguła czy raczej wytyczna? Czy ktoś ma dobre referencje, które wyjaśniają uzasadnienie tego? Chcę się tylko upewnić, że nie przekażę niczego ważnego w recenzji.
Dzięki za wszelkie przemyślenia, Dan
regression
modeling
interaction
aic
djhocking
źródło
źródło
:
jest dla interakcji, jak w A: B. Dotyczy*
to zarówno głównych efektów, jak i interakcji, więc A * B = A + B + A: B. Więc jeśli (!) Autorzy artykułu postępują zgodnie z tą notacją, to nie sądzę, żeby któryś z modeli pomijał te efekty?Odpowiedzi:
W większości przypadków jest to zły pomysł - głównym powodem jest to, że nie powoduje już, że model jest niezmienny w stosunku do przesunięć lokalizacji. Załóżmy na przykład, że masz jeden wynik i dwa predyktory i oraz określ model:yi xi zi
Jeśli wyśrodkowujesz predyktory za ich pomocą, staje sięxizi
Widać więc, że główne efekty zostały ponownie wprowadzone do modelu.
Podałem tutaj heurystyczny argument, ale stanowi to praktyczny problem. Jak zauważono w Faraway (2005) na stronie 114, addytywna zmiana skali zmienia wnioskowanie modelu, gdy główne efekty są pominięte w modelu, podczas gdy nie dzieje się tak, gdy uwzględnione są terminy niższego rzędu. Zwykle niepożądane jest, aby arbitralne rzeczy, takie jak przesunięcie lokalizacji, spowodowały zasadniczą zmianę wnioskowania statystycznego (a zatem i wniosków z twojego zapytania), co może się zdarzyć, jeśli uwzględnisz wielomianowe warunki lub interakcje w modelu bez efektów niższego rzędu.
Uwaga: Mogą zaistnieć szczególne okoliczności, w których chciałbyś uwzględnić interakcję, jeśli ma jakieś szczególne znaczenie merytoryczne lub jeśli obserwujesz tylko produkt, a nie poszczególne zmienne . Ale w takim przypadku równie dobrze można pomyśleć o predyktorze i przejść do modeluxizi xi,zi ai=xizi
zamiast myśleć o jako o znaczeniu interakcji.ai
źródło
additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the model
Addytywna zmiana predyktorów generalnie zmienia t ich głównych efektów (warunki niższego rzędu) nawet w pełnym modelu. Jest to ogólne dopasowanie (R ^ 2), które jest zachowane (ale nie jest zachowane przy zmianie addytywnej w modelu z pominięciem niektórych głównych efektów). Czy to chciałeś powiedzieć?Wszystkie dotychczasowe odpowiedzi wydają się pomijać bardzo podstawowy punkt: wybrana forma funkcjonalna powinna być wystarczająco elastyczna, aby uchwycić cechy, które są istotne z naukowego punktu widzenia. Modele 2-5 nakładają zerowe współczynniki na niektórych warunkach bez naukowego uzasadnienia. I nawet jeśli jest to naukowo uzasadnione, Model 1 pozostaje atrakcyjny, ponieważ równie dobrze można przetestować współczynniki zerowe, a nie je narzucić.
Kluczem jest zrozumienie, co oznaczają ograniczenia. Typowe ostrzeżenie, aby unikać modeli 3-5, jest takie, że w większości zastosowań założenia, które narzucają, są naukowo niewiarygodne. Model 3 zakłada, że X2 wpływa tylko na nachylenie dY / dX1, ale nie na poziom. Model 4 zakłada, że X1 wpływa tylko na nachylenie dY / dX2, ale nie na poziom. Model 5 zakłada, że ani X1, ani X2 nie wpływają na poziom, ale tylko dY / dX1 lub dY / dX2. W większości aplikacji założenia te nie wydają się uzasadnione. Model 2 również narzuca współczynnik zerowy, ale nadal ma pewne zalety. Daje najlepsze liniowe przybliżenie danych, które w wielu przypadkach spełnia cel naukowy.
źródło
+1 do @Macro. Pozwól, że przedstawię to, co moim zdaniem jest podobną kwestią, która dotyczy predyktorów jakościowych. Wiele może zależeć od sposobu ich kodowania . Na przykład w kodowaniu komórki referencyjnej (aka „manekina”) używa się 0 i 1, podczas gdy w kodowaniu efektu używa się -1, 0 i 1. Rozważ prosty przypadek z dwoma czynnikami z dwoma poziomami każdy, a następniex1x2 może być [0, 0, 0, 1] lub [1, -1, -1, 1], w zależności od zastosowanego schematu kodowania. Uważam, że możliwa jest sytuacja, w której tylko interakcja jest „znacząca” z jednym schematem kodowania, ale wszystkie terminy są „znaczące” przy użyciu drugiego schematu. Oznacza to, że sensowne decyzje interpretacyjne byłyby podejmowane na podstawie arbitralnej decyzji dotyczącej kodowania, którą w rzeczywistości oprogramowanie mogło zostać wykonane dla Ciebie bez Twojej wiedzy. Rozumiem, że jest to drobna kwestia, ale jest to jeszcze jeden powód, dla którego zazwyczaj nie jest dobrym pomysłem zachowanie samej interakcji (a także nie wybieranie podzbioru predyktorów na podstawie wartości p, oczywiście).
źródło
Ponieważ recenzujesz artykuł, możesz zasugerować, aby autorzy omawiali kwestię hierarchii modeli i uzasadnili odejście od niej.
Oto kilka referencji:
Nelder JA. Wybór terminów w modelach powierzchni odpowiedzi - jak silna jest zasada słabej dziedziczności? The American Statistician. 1998; 52: 315–8. http://www.jstor.org/pss/2685433 . Dostęp 10 czerwca 2010 r.
Peixoto JL. Hierarchiczny wybór zmiennych w modelach regresji wielomianowej. The American Statistician. 1987; 41: 311–3. http://www.jstor.org/pss/2684752 . Dostęp 10 czerwca 2010 r.
Peixoto JL. Właściwość dobrze sformułowanych modeli regresji wielomianowej. The American Statistician. 1990; 44: 26–30. http://www.jstor.org/pss/2684952 . Dostęp 10 czerwca 2010 r.
Zwykle przestrzegam hierarchii, ale w niektórych sytuacjach od niej odchodzę. Na przykład, jeśli testujesz zużycie opon w zależności od przebiegu przy różnych prędkościach, Twój model może wyglądać następująco:
głębokość bieżnika = punkt przecięcia + przebieg + przebieg * prędkość
ale uwzględnienie głównego efektu prędkości nie miałoby sensu fizycznego, ponieważ opona nie wie, jaka będzie prędkość na zero mil.
(Z drugiej strony nadal możesz chcieć sprawdzić efekt prędkości, ponieważ może to wskazywać, że efekty „włamania” różnią się przy różnych prędkościach. Z drugiej strony jeszcze lepszym sposobem radzenia sobie z włamaniem byłoby uzyskaj dane przy zerowym i bardzo niskim przebiegu, a następnie sprawdź nieliniowość. Pamiętaj, że usunięcie terminu przechwytywania może być traktowane jako szczególny przypadek naruszenia hierarchii.)
Powtórzę również to, co ktoś powiedział powyżej, ponieważ jest to bardzo ważne: autorzy muszą upewnić się, że wiedzą, czy ich oprogramowanie centruje dane. Powyższy model opony staje się fizycznie bezsensowny, jeśli oprogramowanie zamienia przebieg na (przebieg - średnia przebiegu).
Te same rzeczy są istotne w badaniach stabilności farmaceutycznej (wspomniane stycznie w „Modelach stabilności dla przechowywania sekwencyjnego”, Emil M. Friedman i Sam C. Shum, AAPS PharmSciTech, tom 12, nr 1, marzec 2011, DOI: 10.1208 / s12249-010-9558-x).
źródło
Miałem prawdziwy przypadek, który to ilustruje. W danych jedna ze zmiennych reprezentowana
group
przez kontrolę 0 i leczenie 1. Drugi predyktor reprezentowanytime period
przez 0 przed leczeniem i 1 po leczeniu. Interakcja była głównym parametrem będącym przedmiotem zainteresowania, mierzącym efekt leczenia, różnicę po leczeniu w grupie leczonej powyżej jakiegokolwiek efektu czasu mierzonego w grupie kontrolnej. Główny efekt zgroup
zmierzyłem różnicę w 2 grupach przed jakimkolwiek leczeniem, więc łatwo może wynosić 0 (w randomizowanym eksperymencie powinno to być 0, tym nie było). Drugi główny efekt mierzy różnicę między przedziałami czasu przed i po w grupie kontrolnej, w której nie było leczenia, więc ma to również sens, że może wynosić 0, podczas gdy czas interakcji jest niezerowy. Oczywiście zależy to od tego, jak rzeczy zostały zakodowane, a inne kodowanie zmieniłoby znaczenie i to, czy interakcja ma sens bez głównych efektów. Dlatego sensowne jest dopasowanie interakcji bez głównych efektów w określonych przypadkach.źródło
Zgadzam się z Peterem. Myślę, że regułą jest folklor. Dlaczego moglibyśmy wyobrazić sobie sytuację, w której dwie zmienne wpłynęłyby na model tylko z powodu interakcji. Analogią w chemii jest to, że dwie substancje chemiczne są same w sobie całkowicie obojętne, ale po zmieszaniu powodują wybuch. Matematyczne / statystyczne subtelności, takie jak niezmienniczość, nie mają nic wspólnego z prawdziwym problemem z prawdziwymi danymi. Po prostu uważam, że gdy trzeba wziąć pod uwagę wiele zmiennych, trzeba wykonać bardzo dużo testów, jeśli przyjrzysz się wszystkim głównym efektom i większości, jeśli nie wszystkim interakcjom pierwszego rzędu. Niemal nigdy też nie przyglądamy się interakcjom drugiego rzędu, nawet w małych eksperymentach z tylko garstką zmiennych. Myślenie jest takie, że im wyższy porządek interakcji, tym mniejsze prawdopodobieństwo, że wystąpi prawdziwy efekt. Więc nie t patrzeć na interakcje pierwszego lub drugiego rzędu, jeśli nie ma tam głównego efektu. Być może dobrą zasadą, ale przestrzeganie jej z religijnego punktu widzenia oznacza przeoczenie wyjątków, a twój problem może być wyjątkiem.
źródło
[próbuje odpowiedzieć na część pierwotnego pytania, które w większości odpowiedzi nie zostało odkryte: „czy należy ufać AIC jako kryterium wyboru modelu?”]
AIC powinno być używane raczej jako wskazówka niż reguła, którą należy traktować jako ewangelię.
Skuteczność AIC (lub BIC lub dowolnego podobnego „prostego” kryterium wyboru modelu) w dużej mierze zależy od algorytmu uczenia się i problemu.
Pomyśl o tym w ten sposób: cel złożoności (liczby czynników) w formule AIC jest prosty: uniknąć wybierania modeli, które są nadmiernie dopasowane. Jednak prostota AIC bardzo często nie oddaje prawdziwej złożoności samego problemu. Dlatego istnieją inne praktyczne techniki pozwalające uniknąć nadmiernego dopasowania: na przykład walidacja krzyżowa lub dodanie terminu regularyzacji.
Kiedy używam online SGD (stochastycznego spadku gradientu) do regresji liniowej na zbiorze danych z bardzo dużą liczbą danych wejściowych, uważam, że AIC jest strasznym predyktorem jakości modelu, ponieważ nadmiernie karze złożone modele o dużej liczbie terminów. Istnieje wiele rzeczywistych sytuacji, w których każdy termin ma niewielki wpływ, ale razem duża ich liczba daje mocne dowody statystyczne na wynik. Kryteria wyboru modeli AIC i BIC odrzuciłyby te modele i wolałyby te prostsze, nawet jeśli bardziej złożone są lepsze.
W końcu liczy się błąd uogólnienia (z grubsza: wydajność poza próbą). AIC może dać ci wskazówkę dotyczącą jakości modelu w niektórych stosunkowo prostych sytuacjach. Bądź ostrożny i pamiętaj, że prawdziwe życie jest często bardziej skomplikowane niż prosta formuła.
źródło