W analizie regresji liniowej analizujemy wartości odstające, badamy wielokoliniowość, testujemy heteroscedastyczność.
Pytanie brzmi: czy istnieje jakikolwiek nakaz ich zastosowania? Mam na myśli, czy najpierw musimy przeanalizować wartości odstające, a następnie zbadać wielokoliniowość? Czy odwrotnie?
Czy jest na to jakaś zasada?
Odpowiedzi:
Proces jest iteracyjny, ale istnieje naturalny porządek:
Najpierw musisz się martwić warunkami, które powodują bezpośrednie błędy numeryczne . Wielokoliniowość jest jedną z nich, ponieważ może wytwarzać niestabilne układy równań, potencjalnie prowadząc do wprost niepoprawnych odpowiedzi (do 16 miejsc po przecinku ...) Każdy problem tutaj zwykle oznacza, że nie można kontynuować, dopóki nie zostanie rozwiązany. Wielokoliniowość jest zwykle diagnozowana za pomocą czynników inflacyjnych wariancji i podobnego badania „macierzy kapelusza”. Dodatkowe kontrole na tym etapie mogą obejmować ocenę wpływu wszelkich brakujących wartości w zbiorze danych i weryfikację identyfikowalności ważnych parametrów. (Brakujące kombinacje zmiennych niezależnych dyskretnych może czasem powodować problemy.)
Następnie należy się zastanowić , czy dane wyjściowe odzwierciedlają większość danych, czy są wrażliwe na mały podzbiór. W tym drugim przypadku wszystko, co robisz później, może wprowadzać w błąd, więc należy tego unikać. Procedury obejmują badanie wartości odstających i dźwigni finansowej . (Dane odniesienia o dużej dźwigni mogą nie być wartością odstającą, ale mimo to mogą nadmiernie wpływać na wszystkie wyniki). Jeśli istnieje solidna alternatywa dla procedury regresji, to dobry moment na jej zastosowanie: sprawdź, czy przynosi podobne wyniki i użyj go do wykrycia wartości odległych.
Wreszcie, po osiągnięciu sytuacji, która jest stabilna numerycznie (dzięki czemu można ufać obliczeniom) i która odzwierciedla pełny zestaw danych, należy przejść do analizy założeń statystycznych niezbędnych do prawidłowej interpretacji danych wyjściowych . Przede wszystkim te obawy koncentrują się - w przybliżonej kolejności według ważności - na rozkładach reszt (w tym na heteroscedastyczności, ale także na symetrii, kształcie rozkładu, możliwej korelacji z przewidywanymi wartościami lub innymi zmiennymi oraz autokorelacji), dobroci dopasowania (w tym możliwa potrzeba warunków interakcji), czy ponownie wyrazić zmienną zależną i czy ponownie wyrazić zmienne niezależne.
Na dowolnym etapie, jeśli coś wymaga korekty, dobrze jest powrócić do początku. Powtórz tyle razy, ile to konieczne.
źródło
Myślę, że to zależy od sytuacji. Jeśli nie oczekujesz żadnych szczególnych problemów, możesz je sprawdzić w dowolnej kolejności. Jeśli oczekujesz wartości odstających i możesz mieć powód, aby je usunąć po ich wykryciu, najpierw sprawdź wartości odstające. Inne problemy z modelem mogą ulec zmianie po usunięciu obserwacji. Po tym kolejność między wielokoliniowością a heteroscedastycznością nie ma znaczenia. Zgadzam się z Chrisem, że wartości odstające nie powinny być usuwane arbitralnie. Musisz mieć powód, by sądzić, że obserwacje są błędne.
Oczywiście, jeśli zaobserwujesz wielokoliniowość lub heteroscedastyczność, być może będziesz musiał zmienić swoje podejście. Problem wielokoliniowości jest obserwowany w macierzy kowariancji, ale istnieją specyficzne testy diagnostyczne do wykrywania wielokoliniowości i inne problemy, takie jak punkty dźwigni, patrz książka Regres Diagnostics autorstwa Belsleya, Kuha i Welscha lub jedna z książek regresyjnych Dennisa Cooka .
źródło