Czy usunąć przypadki oznaczone przez oprogramowanie statystyczne jako odstające od siebie podczas wykonywania regresji wielokrotnej?

23

Przeprowadzam analizy wielu regresji i nie jestem pewien, czy wartości odstające w moich danych powinny zostać usunięte. Dane, które mnie niepokoją, pojawiają się jako „koła” na wykresach pudełkowych SPSS, jednak nie ma gwiazdek (co sprawia, że ​​uważam, że nie są „takie złe”). Sprawy, o które się martwię, pojawiają się w tabeli „diagnostyka przypadkowa” na wyjściu - dlatego powinienem je usunąć?

Zaraz
źródło
Dziękuję bardzo Charlie i Epigrad. Czy mógłby Pan zasugerować, na którym wykresie w SPSS patrzę, aby ocenić, czy w wartościach resztkowych występują wartości odstające? Wykres rozrzutu wygląda dość niechlujnie! Nie mam żadnych problemów z danymi jako takimi (ponieważ nie zostały one wprowadzone nieprawidłowo). Po prostu myślę, że niektórzy z moich uczestników mieli znacznie wyższe wyniki w niektórych moich skalach, tj. Ponieważ byli bardziej zaniepokojeni społecznie, że reszta próbki.
Anon
3
Powinieneś wykreślić przewidywaną wartość y (tę podaną zgodnie z oszacowanym modelem) na osi x i reszty na osi y. Zamiast przewidywanej wartości y, możesz umieścić jedną ze swoich predyktorów / zmiennych niezależnych na osi x. Możesz utworzyć kilka wykresów, każdy z innym predyktorem na osi x, aby zobaczyć, która wartość x prowadzi do zachowania odstającego. Ponownie ostrzegam przed usunięciem wartości odstających; zamiast tego przeanalizuj, dlaczego występuje wartość odstająca.
Charlie
1
Przywołując oświadczenie Charliego, liczy się „dlaczego”, a nie „jeśli”, i ja też przestrzegałbym przed ich usunięciem. Nie znam SPSS, ale wszelkie funkcje użyte do regresji powinny dać ci wykres resztek, a przynajmniej ich wartość, którą możesz wykorzystać, aby stworzyć wykres sugerowany przez Charliego.
Fomite
@Anon Połączyłem twoje dwa konta. Zarejestruj się, aby móc aktualizować i / lub komentować swoje pytanie.
chl
3
@ user603 Nie, nie czytasz mnie poprawnie. „Wartość odstająca” nic nie znaczy - zwłaszcza, gdy jest oznaczana przez automatyczną procedurę w oprogramowaniu statystycznym. Istnieje równie wiele przykładów ważnych ustaleń badania znajdujących się w „wartościach odstających”. Ilekroć masz dane, które usuwasz, powinno to być uzasadnione. „Są niewygodne” nie jest powodem.
Fomite

Odpowiedzi:

25

Oznaczanie wartości odstających nie jest wezwaniem do oceny (w żadnym wypadku nie musi być jednym). Biorąc pod uwagę model statystyczny, wartości odstające mają precyzyjną, obiektywną definicję: są to obserwacje, które nie są zgodne z wzorcem większości danych. Takie obserwacje należy rozdzielić na początku każdej analizy po prostu dlatego, że ich odległość od dużej ilości danych zapewnia, że ​​będą one wywierać nieproporcjonalne przyciąganie na dowolnym modelu wielowymiarowym dopasowanym z najwyższym prawdopodobieństwem (lub w rzeczywistości dowolną inną funkcją wypukłej utraty).

Ważne jest, aby podkreślić, że wielu zmiennych odstających s nie może być po prostu niezawodnie wykryć stosując pozostałości z najmniejszych kwadratów (lub jakiegokolwiek innego modelu oszacowanego przez ML, lub jakiejkolwiek innej funkcji strat wypukłą). Mówiąc najprościej, wielowymiarowe wartości odstające można wykryć w sposób niezawodny tylko przy użyciu ich reszt z modelu dopasowanego przy użyciu procedury szacowania, która nie jest przez nie podatna.

Przekonanie, że wartości odstające będą musiały się wyróżniać w resztkach klasycznego dopasowania, plasuje się gdzieś tam, obok innych trudnych do odrzucenia statystycznych „nie”, takich jak interpretacja wartości p jako miara dowodów lub wyciąganie wniosków na populację z tendencyjnej próby. Może z wyjątkiem tego, że ten może być znacznie starszy: sam Gauss zalecił użycie solidnego estymatora, takiego jak mediana i szaleństwo (zamiast klasycznej średniej i odchyleń standardowych) do oszacowania parametrów rozkładu normalnego z głośnych obserwacji (nawet idących o ile wyprowadzanie współczynnika spójności wariata (1)).

Aby dać prosty wizualny przykład oparty na rzeczywistych danych, rozważ niesławne dane gwiazdy CYG . Czerwona linia tutaj przedstawia najmniejsze dopasowanie kwadratowe, niebieska linia dopasowanie uzyskane przy użyciu mocnego dopasowania regresji liniowej. Solidnym dopasowaniem jest tutaj dopasowanie FastLTS (2), alternatywa dla dopasowania LS, które może być użyte do wykrywania wartości odstających (ponieważ wykorzystuje procedurę szacowania, która zapewnia, że ​​wpływ każdej obserwacji na szacowany współczynnik jest ograniczony). Kod R do jego odtworzenia to:

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

dane starsCYG

Co ciekawe, w 4 odległych obserwacjach po lewej stronie nie ma nawet największych reszt w odniesieniu do dopasowania LS i wykresu QQ reszt w dopasowaniu LS (ani żadnego z narzędzi diagnostycznych pochodzących z nich, takich jak odległość Cooka lub dfbeta) nie pokazuje żadnego z nich jako problematycznego. Jest to w rzeczywistości norma: potrzebne są nie więcej niż dwie wartości odstające (niezależnie od wielkości próby), aby wyciągnąć oszacowania LS w taki sposób, że wartości odstające nie będą się wyróżniać na wykresie resztkowym. Nazywa się to efektem maskowaniai jest dobrze udokumentowany. Być może jedyną niezwykłą rzeczą w zestawie danych CYGstars jest to, że jest on dwuwymiarowy (stąd możemy użyć kontroli wizualnej, aby potwierdzić wynik solidnego dopasowania) i że tak naprawdę istnieje dobre wytłumaczenie, dlaczego te cztery obserwacje po lewej stronie są tak nienormalne.

Jest to zresztą wyjątek bardziej niż reguła: z wyjątkiem niewielkich badań pilotażowych obejmujących małe próbki i kilka zmiennych oraz gdy osoba wykonująca analizę statystyczną była również zaangażowana w proces gromadzenia danych, nigdy nie spotkałem się z przypadkiem, w którym wcześniejsze przekonania na temat tożsamość wartości odstających była w rzeczywistości prawdziwa. Nawiasem mówiąc, jest to łatwe do zweryfikowania. Niezależnie od tego, czy wartości odstające zostały zidentyfikowane za pomocą algorytmu wykrywania wartości odstających, czy też odczucie jelitowe badacza, wartości odstające są z definicji obserwacjami, które mają nieprawidłową dźwignię (lub „przyciąganie”) w stosunku do współczynników uzyskanych z dopasowania LS. Innymi słowy, wartości odstające to obserwacje, których usunięcie z próbki powinno poważnie wpłynąć na dopasowanie LS.

Chociaż nigdy osobiście tego nie doświadczyłem, w literaturze istnieje kilka dobrze udokumentowanych przypadków, w których obserwacje oznaczone jako odstające przez algorytm wykrywania wartości odstających zostały później uznane za rażące błędy lub wygenerowane przez inny proces. W każdym razie nie jest uzasadnione naukowo ani mądre usuwanie wartości odstających tylko wtedy, gdy można je w jakiś sposób zrozumieć lub wyjaśnić. Jeśli mała baza obserwacji jest tak daleko od głównego zbioru danych, że sama może samodzielnie wyciągnąć wyniki procedury statystycznej, rozsądnie (i dodam naturalne) potraktowanie jej niezależnie od tego, czy lub nie te punkty danych są również podejrzane z innych powodów.

(1): patrz Stephen M. Stigler, Historia statystyki: pomiar niepewności przed 1900 r.

(2): Obliczanie regresji LTS dla dużych zbiorów danych (2006) PJ Rousseeuw, K. van Driessen.

(3): Odporne na awarie metody wielowymiarowe (2008). Hubert M., Rousseeuw PJ i Van Aelst S. Źródło: Statist. Sci. Tom 23, 92-119.

użytkownik603
źródło
6
To dobre rzeczy (+1). Myślę jednak, że niewłaściwie używasz konwencjonalnej terminologii i zdecydowałeś się na „odstające”, aby odnosić się do „wpływowej obserwacji”. Pojęcia te są cenne i tutaj traktujesz je dobrze, ale nie są one tak wymienne, jak się wydaje. Na przykład wpływowa obserwacja, która jest zgodna z większością danych, pasowałaby do twojej charakterystyki „obserwacji, które mają nieprawidłową dźwignię (lub„ przyciąganie ”) w stosunku do współczynników uzyskanych z dopasowania LS”, ale nie byłyby brane pod uwagę przez większość autorów być „wartością odstającą” jako taką .
whuber
2
@whuber: Dobra uwaga. Rzeczywiście uważam, podobnie jak ostatnie podręczniki na temat solidnych statystyk (na przykład Solidne statystyki: teoria i metody. Wiley), takie obserwacje (tzw. „Dobre punkty dźwigni”) jako szkodliwe. Uzasadnieniem jest to, że deflują błąd standardowy szacowanych współczynników, powodując, że użytkownik pokłada nieuzasadnione zaufanie do siły obserwowanej relacji. Uznanie dobrych punktów dźwigni za wartości odstające powoduje również, że podejście formalne jest bardziej spójne: w końcu dobry punkt dźwigni ma duży wpływ na se, które składnikiem dopasowania LS / ML.
user603
3
+1 Bardzo fajny przykład. Rzeczywiste dane, które pokazują dwa pasowania, które są prawie ortogonalne, i w których wysoce wpływowe cztery w lewym górnym rogu nie będą miały największych reszt po dopasowaniu OLS.
Wayne
19

Ogólnie rzecz biorąc, obawiam się usuwania „wartości odstających”. Analiza regresji może być poprawnie zastosowana w przypadku błędów o rozkładzie normalnym, błędów wykazujących heteroskedastyczność lub wartości predyktorów / zmiennych niezależnych, które są „dalekie” od reszty. Prawdziwy problem z wartościami odstającymi polega na tym, że nie podążają one za modelem liniowym, za którym podążają wszystkie inne punkty danych. Skąd wiesz, czy tak jest? Ty nie.

Jeśli już, nie chcesz szukać wartości zmiennych, które są wartościami odstającymi; zamiast tego chcesz poszukać wartości reszt, które są wartościami odstającymi. Spójrz na te punkty danych. Czy ich zmienne są poprawnie rejestrowane? Czy jest jakiś powód, dla którego nie będą stosować tego samego modelu, co reszta danych?

Oczywiście powodem, dla którego te obserwacje mogą się przedstawiać jako wartości odstające (zgodnie z diagnostyką resztkową), może być to, że model jest nieprawidłowy. Mam profesora, który lubił mówić, że gdybyśmy wyrzucili wartości odstające, nadal wierzylibyśmy, że planety krążą wokół Słońca w idealnych kręgach. Kepler mógł wyrzucić Marsa, a historia na okrągłej orbicie wyglądałaby całkiem nieźle. Mars zapewnił kluczową wiedzę, że ten model jest nieprawidłowy i nie zauważyłby tego wyniku, gdyby zignorował tę planetę.

Wspomniałeś, że usunięcie wartości odstających nie zmienia bardzo wyników. Dzieje się tak, ponieważ masz tylko bardzo małą liczbę obserwacji, które usunąłeś w stosunku do próbki, lub są one dość spójne z twoim modelem. Może to sugerować, że chociaż same zmienne mogą wyglądać inaczej niż pozostałe, to ich reszty nie są tak wyjątkowe. Zostawiłbym je i nie próbowałem uzasadniać mojej decyzji o usunięciu niektórych punktów z moich krytyków.

Charlie
źródło
6
+1 Nie wyrzucaj danych, ponieważ jest to wartość odstająca. Dowiedz się, dlaczego niektóre dane są odległe.
Fomite
2
to okropna rada. Bardzo często wartości odstające są tak daleko od reszty danych, że przyciągają do nich linię regresji w taki sposób, że nie wyróżniają się na wykresie resztkowym (lub, co najgorsze: dają duże resztki dla oryginału punkty danych). W rzeczywistości można wykazać, że gdy tylko pojawi się więcej niż jedna wartość odstająca, nie można go wiarygodnie wykryć za pomocą wykresu resztkowego z klasycznej regresji. Nazywa się to efektem maskowania i dobrze to udokumentowałem, zwłaszcza w wielu przykładach danych rzeczywistych.
user603
Nawiasem mówiąc, właśnie dlatego unikałbym przykładu Marsa: ilustruje on procedurę, która działa tylko wtedy, gdy masz do czynienia z pojedynczą wartością odstającą. W większości zastosowań nie ma takiej gwarancji. Daje to błędne poczucie pewności co do ogólnie błędnej metodologii (którą jako statystycy naprawdę powinniśmy starać się zapobiegać).
user603,
15

+1 do @Charlie i @PeterFlom; dostajesz tam dobre informacje. Być może mogę tu wnieść niewielki wkład, kwestionując przesłankę pytania. Boxplot zazwyczaj (oprogramowanie mogą się zmieniać, a nie wiem na pewno, co robi SPSS) etykiet punktów więcej niż 1,5-krotność Inter-kwartyl zakresie powyżej (poniżej) trzeciego kwartyla (pierwszego) jako „odstających”. Możemy jednak zapytać, jak często powinniśmy spodziewać się znalezienia co najmniej jednego takiego punktu, skoro wiemy, że wszystkie punkty pochodzą z tego samego rozkładu? Prosta symulacja może pomóc nam odpowiedzieć na to pytanie:

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

To pokazuje, że takie punkty mogą wystąpić często (> 50% czasu) w przypadku próbek o wielkości 100, nawet jeśli nic nie jest nie tak. Jak wskazano w ostatnim zdaniu, prawdopodobieństwo znalezienia fałszywej „wartości odstającej” poprzez strategię pudełkową będzie zależeć od wielkości próby:

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

Istnieją inne strategie automatycznego identyfikowania wartości odstających, ale każda taka metoda czasami błędnie identyfikuje prawidłowe punkty jako „wartości odstające”, a czasem błędnie identyfikuje prawdziwe wartości odstające jako „ważne punkty”. (Możesz myśleć o nich jako o błędach typu I i typu II ). Myślę o tym (na ile warto) skupić się na efektach włączenia / wyłączenia omawianych punktów. Jeśli Twoim celem jest przewidywanie, możesz użyć weryfikacji krzyżowej, aby ustalić, czy / o ile uwzględnienie danych punktów zwiększa średni błąd kwadratowy prognozy . Jeśli Twoim celem jest wyjaśnienie, możesz spojrzeć na dfBeta(tj. sprawdź, jak bardzo szacunki beta twojego modelu zmieniają się w zależności od tego, czy dane punkty są uwzględnione, czy nie). Inną perspektywą (prawdopodobnie najlepszą) jest unikanie konieczności wyboru, czy nieprawidłowe punkty powinny być wyrzucane, i po prostu stosowanie solidnych analiz .

gung - Przywróć Monikę
źródło
Zalecane procedury działają niezawodnie tylko wtedy, gdy występuje co najwyżej jedna wartość odstająca (niezależnie od rozmiaru zbioru danych), co jest nierealistycznym założeniem. Tukey skalibrował regułę wąsów, aby wykluczyć około 1% obserwacji na każdym końcu, jeśli dane pochodzą z rozkładu Gaussa. Twoje symulacje to potwierdzają. Opinia Tukeya była taka, że ​​straty spowodowane pominięciem tak niewielkiej części danych w przypadkach, w których obserwacje są dobrze prowadzone, są dla wszystkich praktycznych problemów nieistotne. Zwłaszcza w odniesieniu do korzyści w przypadkach, gdy dane nie są.
user603
2
Dziękuję za komentarz, @ user603; to pozycja prowokująca do myślenia. Do jakich procedur, które zalecam, sprzeciwiacie się: używając np. Dfbeta do wykrycia możliwych wartości odstających lub wykorzystując solidne analizy (prototypowo bisquare Tukeya jako alternatywną funkcję utraty) jako ochronę przed ich wpływem zamiast wybierania punktów danych, które należy wyrzucić?
Gung - Przywróć Monikę
dzięki za zwrócenie uwagi na brak jasności w moim komentarzu (byłem ograniczony ograniczeniem długości). Oczywiście mam na myśli przede wszystkim te pierwsze: dfbeta i walidacja krzyżowa (ta druga jest problematyczna tylko wtedy, gdy obserwacje użyte do przeprowadzenia walidacji krzyżowej są losowo wyprowadzone z oryginalnej próbki. Przykładem przypadku, w którym można zastosować walidację krzyżową, byłoby znajdować się w tak zwanym ustawieniu kontroli jakości, w którym obserwacje wykorzystane do testowania pochodzą z tymczasowo rozłącznej próbki).
user603
Dziękujemy za wyjaśnienie, @ user603. Będę musiał grać z tymi pomysłami, aby je lepiej zrozumieć. Mam intuicję, że bardzo trudno byłoby nie zauważyć wartości odstających, które zakłócają twoje wyniki; wygląda na to, że wartości odstające zniekształcałyby wyniki po obu stronach w takim samym stopniu, w którym to przypadku bety byłyby w przybliżeniu bezstronne, a wyniki byłyby po prostu mniej „znaczące”.
gung - Przywróć Monikę
1
Moją intuicją jest to, że trudno byłoby nie zauważyć wartości odstających, które zniekształcają twoje wyniki, ale niestety faktem jest, że tak nie jest. Zobacz także przykład, który podam w mojej odpowiedzi.
user603
12

Najpierw powinieneś przyjrzeć się wykresom reszt: czy podążają one (z grubsza) za rozkładem normalnym? Czy wykazują oznaki heteroskedastyczności? Spójrz również na inne wykresy (nie używam SPSS, więc nie mogę powiedzieć dokładnie, jak to zrobić w tym programie, ani jakie wykresy, na które patrzysz; trudno jednak sobie wyobrazić, że gwiazdki oznaczają „nie tak źle”, prawdopodobnie oznaczają one że według niektórych kryteriów są to bardzo nietypowe punkty).

Następnie, jeśli masz wartości odstające, spójrz na nie i spróbuj dowiedzieć się, dlaczego.

Następnie możesz wypróbować regresję z wartościami odstającymi i bez nich. Jeśli wyniki są podobne, życie jest dobre. Zgłoś pełne wyniki wraz z przypisem. Jeśli nie jest podobny, należy wyjaśnić obie regresje.

Peter Flom - Przywróć Monikę
źródło
1
Dziękuję bardzo Peter. Sprawdziłem wykresy QQ i dane nie wydają się być zupełnie nienormalne. Kiedy usuwam wartości odstające, wydaje się, że nie mają one większego wpływu na wyniki. Dlatego powinienem je po prostu zostawić? Nadal chciałbym usłyszeć opinie innych na temat tabeli diagnostyki przypadków w SPSS. Wielkie dzięki.
Anon
1
Tak, zostawiłbym je z przypisem coś w rodzaju „analiza z usuniętymi kilkoma wartościami odstającymi pokazała bardzo podobne wyniki”
Peter Flom - Przywróć Monikę
2
Nawet zakładając, że można rzetelnie znaleźć wartości odstające, stosując taką procedurę (i przez większość czasu nie da się ), która nadal dziwnie nie rozwiązuje problemu, co robić, gdy nie można „dowiedzieć się” / wyjaśnić wartości odstające. Popieram radę, by trzymać się z dala od SPSS. -
user603,