Jakie są najlepsze praktyki w identyfikowaniu efektów interakcji?

35

Inne niż dosłowne testowanie każdej możliwej kombinacji zmiennych w modelu ( x1:x2lub x1*x2 ... xn-1 * xn). Jak rozpoznać, czy interakcja POWINNA lub MOŻE istnieć między zmiennymi niezależnymi (miejmy nadzieję)?

Jakie są najlepsze praktyki w próbach identyfikacji interakcji? Czy istnieje technika graficzna, której możesz użyć?

Brandon Bertelsen
źródło
Czy mógłbyś powiedzieć nam trochę o swoich danych? rozmiar (por. moja odpowiedź) i natura (por. odpowiedź Gavina)
robin girard
@Robin: Daj mu czas, żeby wstał z łóżka, Brandon jest w Toronto ;-)
Przywróć Monikę - G. Simpson
1
@Robin, wolałbym, aby był bardziej ogólny. Jeśli w swojej odpowiedzi podajesz metodę, która wymaga założenia o wielkości lub charakterze danych, podaj ją. Problem, który mam, obejmuje wiele różnych zadań modelowania, wszystkie z różnymi danymi. Tak więc w tym przypadku szukam ogólnej rekomendacji dotyczącej identyfikacji efektów interakcji.
Brandon Bertelsen

Odpowiedzi:

20

Cox i Wermuth (1996) lub Cox (1984) omawiali niektóre metody wykrywania interakcji. Problem polega zazwyczaj na tym, jak ogólne powinny być warunki interakcji. Zasadniczo (a) dopasowujemy (i testujemy) wszystkie warunki interakcji drugiego rzędu, po jednym na raz, i (b) wykreślamy odpowiadające im wartości p (tj. Liczby nie jako funkcja ). Chodzi o to, aby sprawdzić, czy należy zachować pewną liczbę warunków interakcji: przy założeniu, że wszystkie warunki interakcji są zerowe, rozkład wartości p powinien być jednolity (lub równoważnie, punkty na wykresie rozrzutu powinny być z grubsza rozmieszczone wzdłuż linia przechodząca przez początek).1p

Otóż, jak powiedział @Gavin , dopasowanie wielu (jeśli nie wszystkich) interakcji może prowadzić do nadmiernego dopasowania, ale jest również w pewnym sensie bezużyteczne (niektóre terminy interakcji wyższego rzędu często nie mają żadnego sensu). Ma to jednak związek z interpretacją, a nie wykrywaniem interakcji, a Cox już dostarczył dobrą recenzję w Interpretacji interakcji: recenzja ( The Annals of Applied Statistics 2007, 1 (2), 371–385) - to zawiera odniesienia cytowane powyżej. Innymi kierunkami badań, na które warto zwrócić uwagę, są badania efektów epistatycznych w badaniach genetycznych, w szczególności metody oparte na modelach graficznych (np . Skuteczna metoda identyfikacji czynników statystycznych w sieciach powiązań genów ).

Referencje

  • Cox, DR i Wermuth, N (1996). Zależności wielowymiarowe: modele, analiza i interpretacja . Chapman and Hall / CRC.
  • Cox, DR (1984). Interakcje . Międzynarodowy Przegląd Statystyczny , 52, 1–31.
chl
źródło
16

Moją najlepszą praktyką byłoby pomyśleć o problemie przed montażem modelu. Jaki jest wiarygodny model, biorąc pod uwagę badane zjawisko? Dopasowywanie wszystkich możliwych kombinacji zmiennych i interakcji brzmi dla mnie jak pogłębianie danych.

Przywróć Monikę - G. Simpson
źródło
5
brzmi jak uwaga, czy odpowiedź brzmi „pomyśl”?
robin girard
2
@Robin - ten drugi. Modelowanie statystyczne wydaje mi się dość trudne (jestem ekologiem z niewielkim formalnym wykształceniem statystycznym, większość tego, czego się nauczyłem, było samoukiem), ale o wiele łatwiej jest, jeśli najpierw pomyślę o problemie, ustal, co jest prawdopodobne, zbuduj ten model, wykonaj diagnostykę mojego modelu, wypróbuj interakcje, które mają sens naukowy.
Przywróć Monikę - G. Simpson
2
@ Norma: Jeśli brakuje interakcji, w resztach pojawią się wzorce zależne od wartości zmiennych towarzyszących. Wykreślenie reszt względem zmiennych towarzyszących może pomóc ustalić, gdzie interakcja może być odpowiednia.
Przywróć Monikę - G. Simpson
2
@Brandon: Jest to standardowa umiejętność diagnostyki modeli i wykreślania eksploracyjnego. Rysowałbym reszty względem jednej z zmiennych towarzyszących, które - jak sądzę - mogą być kandydatem do interakcji, uwarunkowane (w ggplot2 lub sieci) na wartościach zmiennej towarzyszącej, która, jak sądzę, jest zaangażowana w interakcję. Wsuń płyn mniejszy przez każdy panel, aby zobaczyć, czy są jakieś wzory. Zależy od rodzaju zmiennych, które są Twoimi współzmiennymi.
Przywróć Monikę - G. Simpson
2
Pogłębianie danych? Jeśli torturujesz dane wystarczająco długo, przyznasz się ...
Ciekawy
16

Dopasowanie modelu drzewa (tj. Użycie R) pomoże ci zidentyfikować złożone interakcje między zmiennymi objaśniającymi. Przeczytaj przykład na stronie 30 tutaj .

George Dontas
źródło
Bardzo prosty i bardzo przydatny. Dziękujemy za odniesienie do tekstu Crawleya!
Brandon Bertelsen
Bądź ostrożny - nie możesz łatwo dopasować tego rodzaju interakcji w powiedzmy modelu liniowym. Interakcje występują tylko w jednej gałęzi drzewa (lub jego części). Potrzebujesz dużo danych, aby korzystać z tego rodzaju narzędzi w rzeczywistych danych.
Przywróć Monikę - G. Simpson
3
Jak powiedział @Gavin, jednym z potencjalnych pułapek jest to, że drzewa decyzyjne wymagają dużej wielkości próby i są dość niestabilne (co jest jednym z powodów, dla których proponowanie lasów losowych i losowych lasów było realną alternatywą). Innym problemem jest to, że nie jest jasne, czy szukamy efektów interakcji drugiego lub wyższego rzędu. W pierwszym przypadku CART nie są rozwiązaniem. W każdym razie bardzo wątpię w interpretację interakcji między 6 zmiennymi w dowolnym badaniu (obserwacyjnym lub kontrolowanym).
chl
7

Przedmówię tę odpowiedź, ponieważ całkowicie zgadzam się z Gavinem, a jeśli jesteś zainteresowany dopasowaniem dowolnego rodzaju modelu, powinien on odzwierciedlać badane zjawisko. Problem polega na logice identyfikowania wszelkich efektów (i do czego odnosi się Gavin, gdy mówi, że pogłębianie danych) polega na tym, że można dopasować nieskończoną liczbę interakcji lub kwadratowe terminy dla zmiennych lub transformacji do danych, a ty nieuchronnie znalazłoby „znaczące” skutki dla niektórych odmian danych.

Jak stwierdza chl, te efekty interakcji wyższego rzędu tak naprawdę nie mają żadnej interpretacji, a często nawet interakcje niższego rzędu nie mają żadnego sensu. Jeśli jesteś zainteresowany opracowaniem modelu przyczynowego, powinieneś dołączyć tylko terminy, które Twoim zdaniem mogą odnosić się do zmiennej zależnej A priori do dopasowania twojego modelu.

Jeśli uważasz, że mogą zwiększyć moc predykcyjną Twojego modelu, powinieneś poszukać zasobów na temat technik wyboru modelu, aby uniknąć nadmiernego dopasowania modelu.

Andy W.
źródło
7

n

n

Jeśli chcesz wiedzieć, czy ta proporcja wariancji jest znacząca, będziesz musiał wykonać modelowanie (z grubsza, musisz znać liczbę stopni swobody swojego modelu, aby porównać ją z wariancją).

Czy twoje zmienne są dyskretne czy ciągłe? ograniczone czy nie tak naprawdę (tzn. nie znasz maksimum)?

Robin Girard
źródło
dzięki za kierunek do indeksów Sobola. Ponownie chciałbym sprecyzować, że szukam tutaj ogólnej, a nie konkretnej odpowiedzi. Nie pytam o konkretny zestaw danych, ale raczej próbuję wyjaśnić problem, który miałem z wieloma różnymi zestawami.
Brandon Bertelsen