Inne niż dosłowne testowanie każdej możliwej kombinacji zmiennych w modelu ( x1:x2
lub x1*x2 ... xn-1 * xn
). Jak rozpoznać, czy interakcja POWINNA lub MOŻE istnieć między zmiennymi niezależnymi (miejmy nadzieję)?
Jakie są najlepsze praktyki w próbach identyfikacji interakcji? Czy istnieje technika graficzna, której możesz użyć?
regression
modeling
interaction
Brandon Bertelsen
źródło
źródło
Odpowiedzi:
Cox i Wermuth (1996) lub Cox (1984) omawiali niektóre metody wykrywania interakcji. Problem polega zazwyczaj na tym, jak ogólne powinny być warunki interakcji. Zasadniczo (a) dopasowujemy (i testujemy) wszystkie warunki interakcji drugiego rzędu, po jednym na raz, i (b) wykreślamy odpowiadające im wartości p (tj. Liczby nie jako funkcja ). Chodzi o to, aby sprawdzić, czy należy zachować pewną liczbę warunków interakcji: przy założeniu, że wszystkie warunki interakcji są zerowe, rozkład wartości p powinien być jednolity (lub równoważnie, punkty na wykresie rozrzutu powinny być z grubsza rozmieszczone wzdłuż linia przechodząca przez początek).1 - p
Otóż, jak powiedział @Gavin , dopasowanie wielu (jeśli nie wszystkich) interakcji może prowadzić do nadmiernego dopasowania, ale jest również w pewnym sensie bezużyteczne (niektóre terminy interakcji wyższego rzędu często nie mają żadnego sensu). Ma to jednak związek z interpretacją, a nie wykrywaniem interakcji, a Cox już dostarczył dobrą recenzję w Interpretacji interakcji: recenzja ( The Annals of Applied Statistics 2007, 1 (2), 371–385) - to zawiera odniesienia cytowane powyżej. Innymi kierunkami badań, na które warto zwrócić uwagę, są badania efektów epistatycznych w badaniach genetycznych, w szczególności metody oparte na modelach graficznych (np . Skuteczna metoda identyfikacji czynników statystycznych w sieciach powiązań genów ).
Referencje
źródło
Moją najlepszą praktyką byłoby pomyśleć o problemie przed montażem modelu. Jaki jest wiarygodny model, biorąc pod uwagę badane zjawisko? Dopasowywanie wszystkich możliwych kombinacji zmiennych i interakcji brzmi dla mnie jak pogłębianie danych.
źródło
Dopasowanie modelu drzewa (tj. Użycie R) pomoże ci zidentyfikować złożone interakcje między zmiennymi objaśniającymi. Przeczytaj przykład na stronie 30 tutaj .
źródło
Przedmówię tę odpowiedź, ponieważ całkowicie zgadzam się z Gavinem, a jeśli jesteś zainteresowany dopasowaniem dowolnego rodzaju modelu, powinien on odzwierciedlać badane zjawisko. Problem polega na logice identyfikowania wszelkich efektów (i do czego odnosi się Gavin, gdy mówi, że pogłębianie danych) polega na tym, że można dopasować nieskończoną liczbę interakcji lub kwadratowe terminy dla zmiennych lub transformacji do danych, a ty nieuchronnie znalazłoby „znaczące” skutki dla niektórych odmian danych.
Jak stwierdza chl, te efekty interakcji wyższego rzędu tak naprawdę nie mają żadnej interpretacji, a często nawet interakcje niższego rzędu nie mają żadnego sensu. Jeśli jesteś zainteresowany opracowaniem modelu przyczynowego, powinieneś dołączyć tylko terminy, które Twoim zdaniem mogą odnosić się do zmiennej zależnej A priori do dopasowania twojego modelu.
Jeśli uważasz, że mogą zwiększyć moc predykcyjną Twojego modelu, powinieneś poszukać zasobów na temat technik wyboru modelu, aby uniknąć nadmiernego dopasowania modelu.
źródło
Jeśli chcesz wiedzieć, czy ta proporcja wariancji jest znacząca, będziesz musiał wykonać modelowanie (z grubsza, musisz znać liczbę stopni swobody swojego modelu, aby porównać ją z wariancją).
Czy twoje zmienne są dyskretne czy ciągłe? ograniczone czy nie tak naprawdę (tzn. nie znasz maksimum)?
źródło