Czy istnieje prosty sposób wykrywania wartości odstających?

14

Zastanawiam się, czy istnieje prosty sposób wykrywania wartości odstających.

W przypadku jednego z moich projektów, który był w zasadzie korelacją między liczbą osób biorących udział w aktywności fizycznej w ciągu tygodnia a liczbą posiłków poza domem (fast food) w ciągu tygodnia, narysowałem wykres rozrzutu i dosłownie usunąłem punkty danych, które były ekstremalne. (Wykres rozrzutu wykazał ujemną korelację).

Zostało to oparte na ocenie wartości (na podstawie wykresu rozrzutu, w którym te punkty danych były wyraźnie ekstremalne). Nie przeprowadziłem żadnych testów statystycznych.

Zastanawiam się tylko, czy to dobry sposób radzenia sobie z wartościami odstającymi.

Mam dane od 350 osób, więc utrata (powiedzmy) 20 punktów danych nie martwi mnie.

Amarald
źródło
Zobacz także odpowiedzi na podobne pytanie rygorystyczna definicja wartości odstającej
Jonas
3
Również bardzo blisko spokrewniony jest stats.stackexchange.com/questions/175 . Wiele potencjalnych metod wykrywania wartości odstających opisano w odpowiedziach na stronie stats.stackexchange.com/questions/213 . Bardziej jednak chodzi o kontekst : co robisz z tym planem rozrzutu? Jakie wnioski próbujesz z tego wyciągnąć? Niektóre wnioski będą w niewielkim stopniu zależeć od tego, co robisz z wartościami odstającymi, podczas gdy inne mogą zależeć od nich krytycznie. Oznacza to, że metody stosowane do identyfikacji i leczenia wartości odstających muszą zależeć od zamierzonej analizy.
whuber
W zestawach danych ekonomicznych standardową praktyką jest po prostu stwierdzenie: „Windsorizujemy zestaw danych o 2,5% i 97,5%”, lub alternatywnie 1% i 99%. Następnie po prostu usuwają obserwacje spoza tego zakresu kwantylowego.
@Harokitty Winsorising wydaje się oznaczać wycinanie wartości, a nie odrzucanie ich.
Peter Wood
Poleciłbym również raportowanie wykresu rozrzutu bez edycji oprócz błędów w zapisywaniu danych. Możliwe jest, że może istnieć jedna lub więcej dodatkowych odrębnych populacji. Przykład można znaleźć w Wikipedii dla diagramu Hertzsprung – Russell na en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram
Robert Jones

Odpowiedzi:

21

Nie ma prostego, dźwiękowego sposobu na usunięcie wartości odstających. Wartości odstające mogą być dwojakiego rodzaju:

1) Błędy wprowadzania danych. Często są to najłatwiejsze do wykrycia i zawsze najłatwiejsze w obsłudze. Jeśli możesz znaleźć odpowiednie dane, popraw je; jeśli nie, usuń go.

2) Uzasadnione dane, które są nietypowe. To jest znacznie trudniejsze. Dla danych dwuwymiarowych, takich jak twoje, wartość odstająca może być jednoczynnikowa lub dwuwymiarowa.

a) Univariate. Po pierwsze, „nietypowy” zależy od rozkładu i wielkości próby. Dajesz nam wielkość próbki 350, ale jaka jest dystrybucja? To oczywiście nie jest normalne, ponieważ jest to stosunkowo mała liczba całkowita. To, co niezwykłe w Poissonie, nie byłoby pod ujemnym dwumianem. Podejrzewałbym, że dwumianowy związek jest zawyżony przez zero.

Ale nawet jeśli masz rozkład, (możliwe) wartości odstające wpłyną na parametry. Możesz spojrzeć na rozkłady „pomiń jedno”, w których sprawdzasz, czy punkt danych q byłby wartością odstającą, jeśli dane miały wszystkie punkty oprócz q. Ale nawet wtedy, co jeśli jest wiele wartości odstających?

b) zmienna dwuwymiarowa. To tutaj wartość żadnej zmiennej nie jest sama w sobie niezwykła, ale razem są nieparzyste. Istnieje prawdopodobnie apokryficzny raport, że według spisu ludności w USA było 20 000 wdów po 12 latach. 12-latki nie są niczym niezwykłym, wdowy też nie są, ale 12-letnie wdowy też.

Biorąc to wszystko pod uwagę, może być łatwiej zgłosić solidną miarę relacji.

Peter Flom - Przywróć Monikę
źródło
Dzięki. Myślę, że może elipsa pewności byłaby dobrym wskaźnikiem wartości odstających, ponieważ pokazywałaby procent danych, które mieściłyby się w pewnym poziomie ufności (przy dwuwymiarowym rozkładzie normalnym).
Amarald
Twoje dane nie mogą być dwuwymiarowe normalne, ponieważ składają się z nieujemnych liczb całkowitych
Peter Flom - Przywróć Monikę
18

Przeprowadziłem wiele badań dotyczących wartości odstających, szczególnie gdy pracowałem nad walidacją danych energetycznych w Oak Ridge od 1978 do 1980 r. Istnieją formalne testy dla jednowymiarowych wartości odstających dla normalnych danych (np. Test Grubbsa i test współczynnika Dixona). Istnieją testy dla wielowymiarowych wartości odstających i szeregów czasowych. Książka Barnetta i Lewisa o „wartościach odstających w danych statystycznych” jest biblią o wartościach odstających i obejmuje prawie wszystko.

Kiedy pracowałem w Oak Ridge nad weryfikacją danych, mieliśmy duże wielowymiarowe zestawy danych. Dla jednowymiarowych wartości odstających istnieje kierunek skrajności (wysoko powyżej średniej i znacznie poniżej średniej). Jednak w przypadku wielowymiarowych wartości odstających istnieje wiele kierunków poszukiwania wartości odstających. Naszą filozofią było rozważenie, jakie jest zamierzone wykorzystanie danych. Jeśli próbujesz oszacować pewne parametry, takie jak korelacja dwuwymiarowa lub współczynnik regresji, to chcesz spojrzeć w kierunku, który zapewnia największy wpływ na parametr będący przedmiotem zainteresowania. W tym czasie czytałem niepublikowany artykuł Mallowsa na temat funkcji wpływu. Wykorzystanie funkcji wpływu do wykrywania wartości odstających jest opisane w książce analiz wielowymiarowych Gnanadesikana. Oczywiście można go również znaleźć w Barnett i Lewis.

Funkcja wpływu dla parametru jest definiowana w punktach w przestrzeni wielowymiarowej obserwacji i zasadniczo mierzy różnicę między oszacowaniem parametru, gdy punkt danych jest uwzględniany, a kiedy jest pomijany. Możesz dokonać takich oszacowań dla każdego punktu próbkowania, ale zwykle możesz uzyskać fajną funkcjonalną formę dla funkcji wpływu, która daje wgląd i szybsze obliczenia.

Na przykład w moim artykule w American Journal of Mathematical and Management Science z 1982 r. „Funkcja wpływu i jej zastosowanie do walidacji danych” przedstawiam wzór analityczny dla funkcji wpływu dla korelacji dwuwariantowej i że kontury stałego wpływu są hiperbolami. Kontury pokazują więc kierunek w płaszczyźnie, w której funkcja wpływu zwiększa się najszybciej.

W swoim artykule pokazuję, w jaki sposób zastosowaliśmy funkcję wpływu do korelacji dwuwymiarowej z danymi FPC Form 4 dotyczącymi wytwarzania i zużycia energii. Istnieje wyraźna, wysoka dodatnia korelacja między nimi, i znaleźliśmy kilka wartości odstających, które miały duży wpływ na oszacowanie korelacji. Dalsze dochodzenie wykazało, że co najmniej jeden z punktów był błędny i byliśmy w stanie go naprawić.

Ale ważną kwestią, o której zawsze wspominam, omawiając wartości odstające, jest to, że automatyczne odrzucanie jest błędne. Ta wartość odstająca nie zawsze jest błędem i czasami dostarcza ważnych informacji o danych. Prawidłowe dane nie powinny być usuwane tylko dlatego, że nie są zgodne z naszą teorią rzeczywistości. Bez względu na to, czy jest to trudne, zawsze należy zbadać powód wystąpienia wartości odstającej.

Powinienem wspomnieć, że nie jest to pierwszy przypadek, gdy wartości wielowymiarowe są omawiane na tej stronie. Poszukiwanie wartości odstających prawdopodobnie doprowadziłoby do szeregu pytań, w których omawiane były wartości wieloznaczne. Wiem, że odwoływałem się wcześniej do mojej pracy i tych książek i podałem do nich linki.

Również, gdy dyskutowane jest odrzucenie wartości odstających, wielu z nas na tej stronie odradziło to, szczególnie jeśli jest to wykonane wyłącznie na podstawie testu statystycznego. Peter Huber często wymienia solidne oszacowanie jako alternatywę dla odrzucenia wartości odstających. Chodzi o to, że solidne procedury obniżą wartości odstające, zmniejszając ich wpływ na oszacowanie, bez ciężkiego kroku polegającego na ich odrzuceniu i zastosowaniu nieszablonowego estymatora.

Funkcja wpływu została pierwotnie opracowana przez Franka Hampela w jego rozprawie doktorskiej na początku lat siedemdziesiątych (chyba 1974). Jego pomysłem było wykorzystanie funkcji wpływu do identyfikacji estymatorów, które nie były odporne na wartości odstające i aby pomóc w opracowaniu niezawodnych estymatorów.

Oto link do poprzedniej dyskusji na ten temat, w której wspomniałem o mojej pracy nad wykrywaniem wartości odstających w szeregach czasowych za pomocą funkcji wpływu.

Michael R. Chernick
źródło
2

Innym prostym podejściem do radzenia sobie z wartościami odstającymi jest stosowanie statystyki nieparametrycznej. Prawdopodobnie przy wielkości twojej próbki rho Spearmana działałoby dobrze jako indeks korelacji. (Pamiętaj jednak, że nieparametryczne statystyki uporządkowania rang niewiele pomagają w relacjach nieliniowych).

Jeśli chcesz użyć r Pearsona (statystyki parametrycznej) i nie jesteś w stanie obliczyć odległości Cooka, możesz zastosować standardową zasadę, że dowolny punkt danych jest większy niż 2,67 odchylenia standardowego (sd) od średniej lub 4,67 sd ze średniej jest odpowiednio wartością odstającą lub skrajną. Są to typowe wartości odcięcia dla wartości odstających i skrajnych punktów danych, które są używane w jednym standardowym programie analizy statystycznej (SPSS).

To, że punkt danych jest wartością odstającą, nie oznacza, że ​​odrzucenie danych jest złe. Możesz obliczyć swoją korelację z ekstremalnymi punktami i bez nich i przejść stamtąd.

Joel W.
źródło
1

Możesz spróbować Dystans Cooka. Zobacz sugerowane odcięcia w artykule na Wikipedii. Ponadto, jeśli zmierzasz w kierunku jakiegoś modelu regresji, możesz wypróbować solidną regresję.

Eric Brown
źródło
1
To bardziej przypomina komentarz niż odpowiedź; odpowiedzi są zwykle dłuższe i bardziej szczegółowe. Na przykład, jeśli podasz uzasadnienie, dlaczego dystans Cooka jest dobrym sprawdzianem dla wartości odstających i tak, to byłaby odpowiedź.
Peter Flom - Przywróć Monikę
1

Po pierwsze, nie usuwaj nietypowych wartości, chyba że masz pewność, że nie jesteś w badaniu! Mogą zawierać ważne informacje (zmienność). Powinieneś je upuścić, jeśli oczywiste jest, że wartość odstająca wynika z nieprawidłowo wprowadzonych lub zmierzonych danych. Jeśli nie znasz metody próbkowania użytej do uzyskania danych, powinieneś zidentyfikować nietypowe wartości i ich skutki w następujący sposób:

  1. mija

  2. hjajahjaja

  3. ja-ty.
    Odległość Cooka lub D Cooka to powszechnie stosowane oszacowanie wpływu punktu danych. :redoja=mija2)·hjaja/[(1-hjaja)·p]

Możliwe rozwiązania:

  • Przekształcanie zmiennych i / lub dodawanie nowych zmiennych do modelu.
  • W przypadku wpływowych obserwacji, które są niczym innym jak wartościami odstającymi, jeśli nie jest ich wiele, możesz usunąć te osoby.
użytkownik7334982
źródło