W jakiej kolejności należy wykonywać diagnostykę regresji liniowej?

24

W analizie regresji liniowej analizujemy wartości odstające, badamy wielokoliniowość, testujemy heteroscedastyczność.

Pytanie brzmi: czy istnieje jakikolwiek nakaz ich zastosowania? Mam na myśli, czy najpierw musimy przeanalizować wartości odstające, a następnie zbadać wielokoliniowość? Czy odwrotnie?

Czy jest na to jakaś zasada?

halil
źródło
2
Kilka bardzo surowych zasad: powinieneś zbadać kolinearność przed dopasowaniem. Jeśli okaże się, że jest obecny, powinieneś (a) zastosować metodę, która obsługuje kolinearność, (b) usunąć cechy kolinearne lub (c) przekształcić swoje cechy (np. Używając PCA). Po zamontowaniu modelu możesz poszukać heteroscedastyczności w resztkach. Ogólnie rzecz biorąc, jeśli tworzysz model predykcyjny, nie powinieneś usuwać wartości odstających. Zamiast tego użyj metody odpornej na występowanie wartości odstających.
Chris Taylor,
1
Jak najlepiej zbadać kolinearność? Patrząc na nie-diagonalne elementy macierzy korelacji predyktorów?
miura,
1
Najlepszym sposobem na zbadanie kolinearności są wyjaśnione przez nie wskaźniki warunków i proporcje wariancji. Wysoka korelacja nie jest ani niezbędnym, ani wystarczającym warunkiem kolinearności.
Peter Flom - Przywróć Monikę

Odpowiedzi:

28

Proces jest iteracyjny, ale istnieje naturalny porządek:

  1. Najpierw musisz się martwić warunkami, które powodują bezpośrednie błędy numeryczne . Wielokoliniowość jest jedną z nich, ponieważ może wytwarzać niestabilne układy równań, potencjalnie prowadząc do wprost niepoprawnych odpowiedzi (do 16 miejsc po przecinku ...) Każdy problem tutaj zwykle oznacza, że ​​nie można kontynuować, dopóki nie zostanie rozwiązany. Wielokoliniowość jest zwykle diagnozowana za pomocą czynników inflacyjnych wariancji i podobnego badania „macierzy kapelusza”. Dodatkowe kontrole na tym etapie mogą obejmować ocenę wpływu wszelkich brakujących wartości w zbiorze danych i weryfikację identyfikowalności ważnych parametrów. (Brakujące kombinacje zmiennych niezależnych dyskretnych może czasem powodować problemy.)

  2. Następnie należy się zastanowić , czy dane wyjściowe odzwierciedlają większość danych, czy są wrażliwe na mały podzbiór. W tym drugim przypadku wszystko, co robisz później, może wprowadzać w błąd, więc należy tego unikać. Procedury obejmują badanie wartości odstających i dźwigni finansowej . (Dane odniesienia o dużej dźwigni mogą nie być wartością odstającą, ale mimo to mogą nadmiernie wpływać na wszystkie wyniki). Jeśli istnieje solidna alternatywa dla procedury regresji, to dobry moment na jej zastosowanie: sprawdź, czy przynosi podobne wyniki i użyj go do wykrycia wartości odległych.

  3. Wreszcie, po osiągnięciu sytuacji, która jest stabilna numerycznie (dzięki czemu można ufać obliczeniom) i która odzwierciedla pełny zestaw danych, należy przejść do analizy założeń statystycznych niezbędnych do prawidłowej interpretacji danych wyjściowych . Przede wszystkim te obawy koncentrują się - w przybliżonej kolejności według ważności - na rozkładach reszt (w tym na heteroscedastyczności, ale także na symetrii, kształcie rozkładu, możliwej korelacji z przewidywanymi wartościami lub innymi zmiennymi oraz autokorelacji), dobroci dopasowania (w tym możliwa potrzeba warunków interakcji), czy ponownie wyrazić zmienną zależną i czy ponownie wyrazić zmienne niezależne.

Na dowolnym etapie, jeśli coś wymaga korekty, dobrze jest powrócić do początku. Powtórz tyle razy, ile to konieczne.

Whuber
źródło
2
Właściwie wolę używać indeksów warunków niż VIF. Zrobiłem na nich moją rozprawę, jakiś czas temu.
Peter Flom - Przywróć Monikę
1
@ Peter Dobry punkt. Ja też wolę indeksy warunków, ale wydaje mi się, że VIF są teraz bardzo popularne.
whuber
Whuber, śledziłem tu dzisiaj twój komentarz. Kiedyś skonsultowałem się ze statystykiem na moim postdoku w sprawie niektórych obaw dotyczących wielokoliniowości. Wyznał pogląd, że w zależności od natury IV w regresji kolinearność można uznać za strukturalnie część modelowanych zjawisk. Prawdopodobnie manipuluję jego precyzyjnym językiem i musiałbym kopać, aby nawet znaleźć jego imię, ale czy znasz jakieś teksty, które motywowałyby niuansowe rozumowanie na temat wielokoliniowości według tych zasad? Zapytaj tylko o przypadek. :)
Alexis
@Alexis Wygląda na to, że ten statystyk ma dopracowaną i wyrafinowaną koncepcję wielokoliniowości. Nie jestem w stanie wymyślić żadnego podręcznika, który by to wyraźnie wyrażał.
whuber
Będę musiał go wyśledzić i zapytać o to. :)
Alexis,
3

Myślę, że to zależy od sytuacji. Jeśli nie oczekujesz żadnych szczególnych problemów, możesz je sprawdzić w dowolnej kolejności. Jeśli oczekujesz wartości odstających i możesz mieć powód, aby je usunąć po ich wykryciu, najpierw sprawdź wartości odstające. Inne problemy z modelem mogą ulec zmianie po usunięciu obserwacji. Po tym kolejność między wielokoliniowością a heteroscedastycznością nie ma znaczenia. Zgadzam się z Chrisem, że wartości odstające nie powinny być usuwane arbitralnie. Musisz mieć powód, by sądzić, że obserwacje są błędne.

Oczywiście, jeśli zaobserwujesz wielokoliniowość lub heteroscedastyczność, być może będziesz musiał zmienić swoje podejście. Problem wielokoliniowości jest obserwowany w macierzy kowariancji, ale istnieją specyficzne testy diagnostyczne do wykrywania wielokoliniowości i inne problemy, takie jak punkty dźwigni, patrz książka Regres Diagnostics autorstwa Belsleya, Kuha i Welscha lub jedna z książek regresyjnych Dennisa Cooka .

Michael R. Chernick
źródło
9
Michael, czy w przyszłości możesz użyć opcji formatowania? (poprawny klucz do wstawiania linków to ctrl-l, a nie ctrl-c).
user603