Przeprowadzam analizy wielu regresji i nie jestem pewien, czy wartości odstające w moich danych powinny zostać usunięte. Dane, które mnie niepokoją, pojawiają się jako „koła” na wykresach pudełkowych SPSS, jednak nie ma gwiazdek (co sprawia, że uważam, że nie są „takie złe”). Sprawy, o które się martwię, pojawiają się w tabeli „diagnostyka przypadkowa” na wyjściu - dlatego powinienem je usunąć?
regression
outliers
Zaraz
źródło
źródło
Odpowiedzi:
Oznaczanie wartości odstających nie jest wezwaniem do oceny (w żadnym wypadku nie musi być jednym). Biorąc pod uwagę model statystyczny, wartości odstające mają precyzyjną, obiektywną definicję: są to obserwacje, które nie są zgodne z wzorcem większości danych. Takie obserwacje należy rozdzielić na początku każdej analizy po prostu dlatego, że ich odległość od dużej ilości danych zapewnia, że będą one wywierać nieproporcjonalne przyciąganie na dowolnym modelu wielowymiarowym dopasowanym z najwyższym prawdopodobieństwem (lub w rzeczywistości dowolną inną funkcją wypukłej utraty).
Ważne jest, aby podkreślić, że wielu zmiennych odstających s nie może być po prostu niezawodnie wykryć stosując pozostałości z najmniejszych kwadratów (lub jakiegokolwiek innego modelu oszacowanego przez ML, lub jakiejkolwiek innej funkcji strat wypukłą). Mówiąc najprościej, wielowymiarowe wartości odstające można wykryć w sposób niezawodny tylko przy użyciu ich reszt z modelu dopasowanego przy użyciu procedury szacowania, która nie jest przez nie podatna.
Przekonanie, że wartości odstające będą musiały się wyróżniać w resztkach klasycznego dopasowania, plasuje się gdzieś tam, obok innych trudnych do odrzucenia statystycznych „nie”, takich jak interpretacja wartości p jako miara dowodów lub wyciąganie wniosków na populację z tendencyjnej próby. Może z wyjątkiem tego, że ten może być znacznie starszy: sam Gauss zalecił użycie solidnego estymatora, takiego jak mediana i szaleństwo (zamiast klasycznej średniej i odchyleń standardowych) do oszacowania parametrów rozkładu normalnego z głośnych obserwacji (nawet idących o ile wyprowadzanie współczynnika spójności wariata (1)).
Aby dać prosty wizualny przykład oparty na rzeczywistych danych, rozważ niesławne dane gwiazdy CYG . Czerwona linia tutaj przedstawia najmniejsze dopasowanie kwadratowe, niebieska linia dopasowanie uzyskane przy użyciu mocnego dopasowania regresji liniowej. Solidnym dopasowaniem jest tutaj dopasowanie FastLTS (2), alternatywa dla dopasowania LS, które może być użyte do wykrywania wartości odstających (ponieważ wykorzystuje procedurę szacowania, która zapewnia, że wpływ każdej obserwacji na szacowany współczynnik jest ograniczony). Kod R do jego odtworzenia to:
Co ciekawe, w 4 odległych obserwacjach po lewej stronie nie ma nawet największych reszt w odniesieniu do dopasowania LS i wykresu QQ reszt w dopasowaniu LS (ani żadnego z narzędzi diagnostycznych pochodzących z nich, takich jak odległość Cooka lub dfbeta) nie pokazuje żadnego z nich jako problematycznego. Jest to w rzeczywistości norma: potrzebne są nie więcej niż dwie wartości odstające (niezależnie od wielkości próby), aby wyciągnąć oszacowania LS w taki sposób, że wartości odstające nie będą się wyróżniać na wykresie resztkowym. Nazywa się to efektem maskowaniai jest dobrze udokumentowany. Być może jedyną niezwykłą rzeczą w zestawie danych CYGstars jest to, że jest on dwuwymiarowy (stąd możemy użyć kontroli wizualnej, aby potwierdzić wynik solidnego dopasowania) i że tak naprawdę istnieje dobre wytłumaczenie, dlaczego te cztery obserwacje po lewej stronie są tak nienormalne.
Jest to zresztą wyjątek bardziej niż reguła: z wyjątkiem niewielkich badań pilotażowych obejmujących małe próbki i kilka zmiennych oraz gdy osoba wykonująca analizę statystyczną była również zaangażowana w proces gromadzenia danych, nigdy nie spotkałem się z przypadkiem, w którym wcześniejsze przekonania na temat tożsamość wartości odstających była w rzeczywistości prawdziwa. Nawiasem mówiąc, jest to łatwe do zweryfikowania. Niezależnie od tego, czy wartości odstające zostały zidentyfikowane za pomocą algorytmu wykrywania wartości odstających, czy też odczucie jelitowe badacza, wartości odstające są z definicji obserwacjami, które mają nieprawidłową dźwignię (lub „przyciąganie”) w stosunku do współczynników uzyskanych z dopasowania LS. Innymi słowy, wartości odstające to obserwacje, których usunięcie z próbki powinno poważnie wpłynąć na dopasowanie LS.
Chociaż nigdy osobiście tego nie doświadczyłem, w literaturze istnieje kilka dobrze udokumentowanych przypadków, w których obserwacje oznaczone jako odstające przez algorytm wykrywania wartości odstających zostały później uznane za rażące błędy lub wygenerowane przez inny proces. W każdym razie nie jest uzasadnione naukowo ani mądre usuwanie wartości odstających tylko wtedy, gdy można je w jakiś sposób zrozumieć lub wyjaśnić. Jeśli mała baza obserwacji jest tak daleko od głównego zbioru danych, że sama może samodzielnie wyciągnąć wyniki procedury statystycznej, rozsądnie (i dodam naturalne) potraktowanie jej niezależnie od tego, czy lub nie te punkty danych są również podejrzane z innych powodów.
(1): patrz Stephen M. Stigler, Historia statystyki: pomiar niepewności przed 1900 r.
(2): Obliczanie regresji LTS dla dużych zbiorów danych (2006) PJ Rousseeuw, K. van Driessen.
(3): Odporne na awarie metody wielowymiarowe (2008). Hubert M., Rousseeuw PJ i Van Aelst S. Źródło: Statist. Sci. Tom 23, 92-119.
źródło
Ogólnie rzecz biorąc, obawiam się usuwania „wartości odstających”. Analiza regresji może być poprawnie zastosowana w przypadku błędów o rozkładzie normalnym, błędów wykazujących heteroskedastyczność lub wartości predyktorów / zmiennych niezależnych, które są „dalekie” od reszty. Prawdziwy problem z wartościami odstającymi polega na tym, że nie podążają one za modelem liniowym, za którym podążają wszystkie inne punkty danych. Skąd wiesz, czy tak jest? Ty nie.
Jeśli już, nie chcesz szukać wartości zmiennych, które są wartościami odstającymi; zamiast tego chcesz poszukać wartości reszt, które są wartościami odstającymi. Spójrz na te punkty danych. Czy ich zmienne są poprawnie rejestrowane? Czy jest jakiś powód, dla którego nie będą stosować tego samego modelu, co reszta danych?
Oczywiście powodem, dla którego te obserwacje mogą się przedstawiać jako wartości odstające (zgodnie z diagnostyką resztkową), może być to, że model jest nieprawidłowy. Mam profesora, który lubił mówić, że gdybyśmy wyrzucili wartości odstające, nadal wierzylibyśmy, że planety krążą wokół Słońca w idealnych kręgach. Kepler mógł wyrzucić Marsa, a historia na okrągłej orbicie wyglądałaby całkiem nieźle. Mars zapewnił kluczową wiedzę, że ten model jest nieprawidłowy i nie zauważyłby tego wyniku, gdyby zignorował tę planetę.
Wspomniałeś, że usunięcie wartości odstających nie zmienia bardzo wyników. Dzieje się tak, ponieważ masz tylko bardzo małą liczbę obserwacji, które usunąłeś w stosunku do próbki, lub są one dość spójne z twoim modelem. Może to sugerować, że chociaż same zmienne mogą wyglądać inaczej niż pozostałe, to ich reszty nie są tak wyjątkowe. Zostawiłbym je i nie próbowałem uzasadniać mojej decyzji o usunięciu niektórych punktów z moich krytyków.
źródło
+1 do @Charlie i @PeterFlom; dostajesz tam dobre informacje. Być może mogę tu wnieść niewielki wkład, kwestionując przesłankę pytania. Boxplot zazwyczaj (oprogramowanie mogą się zmieniać, a nie wiem na pewno, co robi SPSS) etykiet punktów więcej niż 1,5-krotność Inter-kwartyl zakresie powyżej (poniżej) trzeciego kwartyla (pierwszego) jako „odstających”. Możemy jednak zapytać, jak często powinniśmy spodziewać się znalezienia co najmniej jednego takiego punktu, skoro wiemy, że wszystkie punkty pochodzą z tego samego rozkładu? Prosta symulacja może pomóc nam odpowiedzieć na to pytanie:
To pokazuje, że takie punkty mogą wystąpić często (> 50% czasu) w przypadku próbek o wielkości 100, nawet jeśli nic nie jest nie tak. Jak wskazano w ostatnim zdaniu, prawdopodobieństwo znalezienia fałszywej „wartości odstającej” poprzez strategię pudełkową będzie zależeć od wielkości próby:
Istnieją inne strategie automatycznego identyfikowania wartości odstających, ale każda taka metoda czasami błędnie identyfikuje prawidłowe punkty jako „wartości odstające”, a czasem błędnie identyfikuje prawdziwe wartości odstające jako „ważne punkty”. (Możesz myśleć o nich jako o błędach typu I i typu II ). Myślę o tym (na ile warto) skupić się na efektach włączenia / wyłączenia omawianych punktów. Jeśli Twoim celem jest przewidywanie, możesz użyć weryfikacji krzyżowej, aby ustalić, czy / o ile uwzględnienie danych punktów zwiększa średni błąd kwadratowy prognozy . Jeśli Twoim celem jest wyjaśnienie, możesz spojrzeć na dfBeta(tj. sprawdź, jak bardzo szacunki beta twojego modelu zmieniają się w zależności od tego, czy dane punkty są uwzględnione, czy nie). Inną perspektywą (prawdopodobnie najlepszą) jest unikanie konieczności wyboru, czy nieprawidłowe punkty powinny być wyrzucane, i po prostu stosowanie solidnych analiz .
źródło
Najpierw powinieneś przyjrzeć się wykresom reszt: czy podążają one (z grubsza) za rozkładem normalnym? Czy wykazują oznaki heteroskedastyczności? Spójrz również na inne wykresy (nie używam SPSS, więc nie mogę powiedzieć dokładnie, jak to zrobić w tym programie, ani jakie wykresy, na które patrzysz; trudno jednak sobie wyobrazić, że gwiazdki oznaczają „nie tak źle”, prawdopodobnie oznaczają one że według niektórych kryteriów są to bardzo nietypowe punkty).
Następnie, jeśli masz wartości odstające, spójrz na nie i spróbuj dowiedzieć się, dlaczego.
Następnie możesz wypróbować regresję z wartościami odstającymi i bez nich. Jeśli wyniki są podobne, życie jest dobre. Zgłoś pełne wyniki wraz z przypisem. Jeśli nie jest podobny, należy wyjaśnić obie regresje.
źródło