Rygorystyczna definicja wartości odstającej?

44

Ludzie często mówią o radzeniu sobie z wartościami odstającymi w statystykach. Niepokoi mnie to, że o ile mogę stwierdzić, definicja wartości odstającej jest całkowicie subiektywna. Na przykład, jeśli prawdziwy rozkład jakiejś zmiennej losowej jest bardzo gruboogonowy lub bimodalny, każda standardowa wizualizacja lub statystyka podsumowująca do wykrywania wartości odstających niepoprawnie usunie części rozkładu, z którego chcesz próbkować. Jaka jest rygorystyczna definicja wartości odstającej, jeśli taka istnieje, i jak można sobie z nią poradzić bez wprowadzania nieuzasadnionej subiektywności do analizy?

dsimcha
źródło
Jeśli chcesz wiedzieć o konkretnej dystrybucji, zapytaj o swój przykład. Będzie inaczej w różnych sytuacjach.
Jan
8
Cóż, spodziewam się, że będziesz miał czas, rigorous definition of an outlierkiedy będziesz mógł określić unreasonable amounts of subjectivityobiektywny sposób ;-), Dzięki
zjedz
1
Ale definicja może się różnić w zależności od podstawowej dystrybucji i sytuacji. Mógłbym powiedzieć ± 1,5 IQR lub 3 SD, lub coś w tym rodzaju. Ale mógłbym przyjąć zupełnie inne podejście, jeśli mam dwa rodzaje środków, powiedzmy czas reakcji i dokładność. Mogę powiedzieć, że RT zależy od poziomu dokładności. Wszystkie mogą być dobre i rygorystyczne matematycznie oraz mieć różne zastosowania i znaczenia.
Jan
2
Istnieje WIELE rygorystycznych definicji wartości odstających. Ale wybór spośród nich może wydawać się arbitralny. Myślę jednak, że jest to część błędnego przekonania, że ​​statystyka jest tematem, w którym każdy problem ma jedną poprawną odpowiedź.
Peter Flom - Przywróć Monikę

Odpowiedzi:

23

Tak długo, jak twoje dane pochodzą ze znanego rozkładu o znanych właściwościach, możesz rygorystycznie zdefiniować wartość odstającą jako zdarzenie, które jest mało prawdopodobne, aby zostało wygenerowane przez obserwowany proces (jeśli uważasz, że „zbyt mało prawdopodobne” jest nie rygorystyczne, to wszystkie testy hipotez są).

Takie podejście jest jednak problematyczne na dwóch poziomach: zakłada, że ​​dane pochodzą ze znanego rozkładu o znanych właściwościach i niesie ryzyko, że wartości odstające będą postrzegane jako punkty danych przemycone do twojego zestawu danych przez niektóre magiczne wróżki.

W przypadku braku magicznych faerie danych, wszystkie dane pochodzą z eksperymentu, a zatem nie jest możliwe uzyskanie wartości odstających, po prostu dziwne wyniki. Mogą one wynikać z błędów zapisu (np. 400000 sypialni za 4 dolary), systematycznych problemów pomiarowych (algorytm analizy obrazu zgłasza ogromne obszary, jeśli obiekt znajduje się zbyt blisko granicy) problemów eksperymentalnych (czasami kryształy wytrącają się z roztworu, które dają bardzo wysoki sygnał) lub funkcje twojego systemu (komórka może czasem podzielić się na trzy zamiast dwóch), ale mogą być również wynikiem mechanizmu, którego nikt nigdy nie wziął pod uwagę, ponieważ jest rzadki i prowadzisz badania, co oznacza, że ​​niektóre rzeczy, które robisz, po prostu nie są jeszcze znane.

Najlepiej jest poświęcić czas na zbadanie każdej wartości odstającej i usunąć ją ze zbioru danych dopiero wtedy, gdy zrozumiesz, dlaczego nie pasuje do twojego modelu. Jest to czasochłonne i subiektywne, ponieważ przyczyny są w dużej mierze zależne od eksperymentu, ale alternatywa jest gorsza: jeśli nie rozumiesz, skąd pochodzą wartości odstające, masz wybór między pozostawieniem wyników „odstraszających” wyniki, lub zdefiniowanie „matematycznie rygorystycznego” podejścia, aby ukryć swój brak zrozumienia. Innymi słowy, dążąc do „matematycznej rygorystyczności”, wybierasz między nie uzyskaniem znaczącego efektu a nie dostaniem się do nieba.

EDYTOWAĆ

Jeśli masz tylko listę liczb, nie wiedząc, skąd pochodzą, nie możesz w żaden sposób stwierdzić, czy jakiś punkt danych jest wartością odstającą, ponieważ zawsze możesz przyjąć rozkład, w którym wszystkie dane są wartościami odstającymi.

Jonas
źródło
3
Jednak nie wszystkie wartości odstające są generowane na podstawie eksperymentu. Pracowałem z dużym zbiorem danych, który obejmował zbieranie informacji o nieruchomościach w regionie (cena sprzedaży, liczba sypialni, powierzchnia itp.), I od czasu do czasu pojawiały się błędy przy wprowadzaniu danych i miałbym Dom za 400 000 sypialni kosztuje 4 dolary lub coś takiego bezsensownego. Wydaje mi się, że częścią celu ustalenia wartości odstającej jest sprawdzenie, czy można wygenerować dane, czy tylko błąd wpisu.
Christopher Aden
2
@Christopher Aden: Rozważę tę część eksperymentalnego procesu. Zasadniczo, aby móc usunąć wartości odstające, musisz zrozumieć, w jaki sposób zostały wygenerowane dane, tj. Nie usuwać wartości odstających bez uzasadnionego powodu. W przeciwnym razie po prostu stylizujesz swoje dane. Zredagowałem swoją odpowiedź, aby lepiej to odzwierciedlić.
Jonas
Jest to całkowicie uzasadnione, ale zakłada się, że masz już dość przyzwoitą wiedzę na temat prawdziwej dystrybucji. Myślałem bardziej w kategoriach scenariuszy, w których nie masz i może to być bardzo gruby ogon lub bimodalny.
dsimcha
@dsimcha: Nie sądzę, żebyś w tym przypadku mógł zidentyfikować wartości odstające (zobacz także moją edycję).
Jonas
2
@dsimcha - zawsze masz wcześniejszą wiedzę! bo w jaki sposób dane zostały ci przekazane? ty zawsze zawsze wiem, że dużo. dane nie pojawiają się magicznie. i zawsze możesz przyjmować wstępne założenia. „wartości odstające” oparte na tych założeniach w zasadzie dają ci wskazówkę, że coś w twoich założeniach jest złe. studiując „wartość odstającą” (która zawsze jest względna) możesz ulepszyć swój model.
prawdopodobieństwo prawdopodobieństwo
13

Masz rację, że usuwanie wartości odstających może wyglądać jak ćwiczenie subiektywne, ale to nie znaczy, że jest złe. Kompulsywna potrzeba, by zawsze mieć ścisły matematyczny powód każdej decyzji dotyczącej analizy danych, jest często tylko cienką zasłoną sztucznego rygoru w stosunku do tego, co okazuje się być ćwiczeniem subiektywnym. Jest to szczególnie prawdziwe, jeśli chcesz zastosować to samo matematyczne uzasadnienie do każdej napotkanej sytuacji. (Gdyby istniały kuloodporne jasne reguły matematyczne dla wszystkiego, nie potrzebowałbyś statystyk.)

Na przykład w sytuacji z rozkładem długich ogonów nie ma gwarantowanej metody, aby po prostu zdecydować na podstawie liczb, czy masz jeden bazowy rozkład odsetek z wartościami odstającymi lub dwa bazowe rozkłady odsetek, przy czym wartości odstające są częścią tylko jednej z nich. Albo, nie daj Boże, sama dystrybucja danych.

Im więcej danych zbierzesz, tym więcej dotrzesz do regionów o niskim prawdopodobieństwie dystrybucji. Jeśli pobierzesz 20 próbek, jest bardzo mało prawdopodobne, że uzyskasz wartość z wynikiem Z wynoszącym 3,5. Jeśli pobierzesz 10 000 próbek, najprawdopodobniej otrzymasz jedną i jest to naturalna część dystrybucji. Biorąc pod uwagę powyższe, w jaki sposób decydujesz tylko dlatego, że wykluczenie tego jest ekstremalne?

Wybór najlepszych ogólnie metod analizy jest często subiektywny. To, czy jest to nieuzasadnione subiektywne, zależy od wyjaśnienia decyzji i wartości odstającej.

Jan
źródło
+1 Barnett i Lewis, którzy napisali książkę o wartościach odstających , twierdzą, że „wartość odstająca w zbiorze danych [jest] obserwacją (lub podzbiorem obserwacji), która wydaje się być niezgodna z pozostałą częścią tego zbioru danych ” [w p . 7]. Kontynuują: „Jest kwestią subiektywnego osądu ze strony obserwatora, czy pewne obserwacje… są wybierane do kontroli.… To, co charakteryzuje„ wartość odstającą ”, to wpływ na obserwatora… „
whuber
„książka” jest tu nieco niejednoznaczna. Barnett i Lewis uważam za wiodącą monografię, ale nie jest to jedyna książka o wartościach odstających. amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955 jest nowy . Jest też starsza książka autorstwa DM Hawkinsa.
Nick Cox,
9

Nie sądzę, że możliwe jest zdefiniowanie wartości odstającej bez założenia modelu leżącego u podstaw procesu, w wyniku którego powstają dane. Bez takiego modelu nie mamy ram odniesienia, aby zdecydować, czy dane są anomalne, czy „błędne”. Definicja wartości odstającej, którą uznałem za przydatną, polega na tym, że wartość odstająca jest obserwacją (lub obserwacjami), której nie można pogodzić z modelem, który w innym przypadku działałby dobrze.

Dikran Torbacz
źródło
2
Hmm ... W swoim tekście EDA John Tukey specjalnie zdefiniował wartości odstające bez użycia jakichkolwiek modeli.
whuber
7
Możesz definiować wartości odstające bez modelu, ale uważam, że takie definicje są nieprzydatne. BTW, według modelu, niekoniecznie mam na myśli model statystyczny, który został wyraźnie dopasowany do danych. Każda definicja wartości odstającej wymaga przyjęcia pewnych założeń dotyczących tego, jakiego rodzaju wartości się spodziewasz i jakich wartości się nie spodziewasz. Myślę, że lepiej jest, jeśli te założenia (tj. Model) zostaną wyraźnie określone. Istnieje również kwestia, że ​​w EDA eksplorujesz dane, twoja definicja wartości odstającej może być bardzo różna dla EDA niż w przypadku dopasowania ostatecznego modelu.
Dikran Torbacz
6

Istnieje tutaj wiele doskonałych odpowiedzi. Chciałbym jednak zaznaczyć, że dwa pytania są mylone. Pierwszym z nich jest „czym jest wartość odstająca?”, A dokładniej określenie „ścisłej definicji” takiej wartości. To jest proste:

Wartość odstająca to punkt danych pochodzący z innego procesu generowania populacji / dystrybucji / danych niż ten, który zamierzałeś zbadać / resztę swoich danych.

Drugie pytanie brzmi: „skąd mam wiedzieć / wykryć, że punkt danych jest wartością odstającą?” Niestety jest to bardzo trudne. Jednak podane tutaj odpowiedzi (które są naprawdę bardzo dobre i których nie mogę poprawić) będą bardzo pomocne w tym zadaniu.

gung - Przywróć Monikę
źródło
1
99(0,1)2.52.5(4,1)21402
whuber
1
@ whuber, tak. Mówię, że jest to wartość odstająca, chociaż nigdy byś jej nie zauważył (co, jak podejrzewam, rozumiesz przez pojęcie praktycznie).
gung - Przywróć Monikę
1
Doceniam to, co czynisz. Chciałem tylko zwrócić uwagę na ostry kontrast między twoją definicją a większością innych definicji lub opisów wartości odstających w tym wątku. Wydaje się, że nie może to prowadzić do zadowalających procedur praktycznych: zawsze musiałbyś zaakceptować fakt, że ogromna część zestawu danych może być „oddalona”, ale bez możliwości wykrycia lub rozwiązania tego problemu.
whuber
@ whuber, zgadzam się z całego serca. Widzę to jako luźno analogiczne do testowania hipotez, w którym (np.) 2 grupy mogą różnić się bardzo małą, niewykrywalną ilością lub mogą różnić się umiarkowaną ilością, ale próbki, z którymi skończyłeś, były bardzo podobne przez przypadek; niemniej jednak z teoretycznego punktu widzenia warto zrozumieć i zachować rozróżnienie.
gung - Przywróć Monikę
1
@ whuber masz rację. Niektórzy dokonują tego rozróżnienia, ale wielu nie ma jasności co do tych pomysłów. Moje stanowisko jest takie, że nie ma znaczącej rzeczywistości „wartości odstającej” innej niż zanieczyszczenie . Niemniej jednak ludzie powinni również / zamiast tego myśleć o tym, że martwią się o punkt (y), jeśli wyniki są napędzane przez nich samych (niezależnie od tego, czy są „rzeczywiste”, czy nie), a zatem wyniki są bardzo kruche. Krótko mówiąc, nie ma powodu, aby martwić się o punkt (y), które pochodzą od twojej populacji i nie wpływają jednoznacznie na twoje wyniki; kiedy już poradzisz sobie z tymi dwoma problemami, nie ma już nic do „odstania”.
gung - Przywróć Monikę
6

Definicja 1: Jak już wspomniano, wartość odstająca w grupie danych odzwierciedlających ten sam proces (powiedzmy proces A) jest obserwacją (lub zbiorem obserwacji), która prawdopodobnie nie będzie wynikiem procesu A.

Ta definicja z pewnością obejmuje oszacowanie funkcji prawdopodobieństwa procesu A (stąd model) i ustalenie, co jest mało prawdopodobne (tj. Podjęcie decyzji, gdzie zatrzymać ...). Ta definicja leży u podstaw odpowiedzi, którą tu podałem . Jest to bardziej związane z ideami testowania hipotez o znaczeniu lub trafności dopasowania .

xGx

Ta definicja obejmuje „dany model” i miarę dokładności. Myślę, że ta definicja jest bardziej praktyczna i bardziej leży u podstaw wartości odstających. W Origin wykrywanie wartości odstających było narzędziem do tworzenia solidnych statystyk .

Oczywiście te definicje mogą być bardzo podobne, jeśli zrozumiesz, że obliczanie prawdopodobieństwa w pierwszej definicji obejmuje modelowanie i obliczanie wyniku :)

Robin Girard
źródło
2

Wartość odstająca to punkt danych, który jest dla mnie niewygodny, biorąc pod uwagę moje bieżące rozumienie procesu generującego te dane.

Uważam, że ta definicja jest tak rygorystyczna, jak to tylko możliwe.

Wayne
źródło
Porównaj to z definicją Johna Tukeya (użył terminu „na zewnątrz”): „Kiedy patrzymy na niektóre partie wartości, widzimy, że pewne wartości najwyraźniej odchodzą daleko poza inne ... Wygodne jest stosowanie reguły kciuk, który wybiera pewne wartości jako „na zewnątrz” ... ”Później podsumowuje to jako„ ... identyfikację poszczególnych wartości, które mogą być niezwykłe ”. [EDA, rozdział 2]. Podkreśla w całej książce, że opisujemy dane, a nie udajemy, że „rozumiemy proces”, i że zawsze można podać wiele poprawnych opisów.
whuber
Podobnie, „wartości odstające są wartościami próby, które powodują zaskoczenie w stosunku do większości próby” (WN Venables i BD Ripley. 2002. Nowoczesne statystyki stosowane z S. New York: Springer, str. 119). Jednak niespodzianka jest w umyśle obserwatora i zależy od jakiegoś milczącego lub jawnego modelu danych. Może istnieć inny model, w którym wartość odstająca wcale nie jest zaskakująca, powiedzmy, dane naprawdę są logarytmiczne lub gamma, a nie normalne.
Nick Cox
@Nick To jest spójne z Barnettem i Lewisem, których cytuję w komentarzu do odpowiedzi Johna .
whuber
@whuber: Mówisz „Kontrastuj to”, co moim zdaniem oznacza, że ​​się nie zgadzasz, ale nie jestem pewien. Twierdziłbym, że tworzenie modeli - być może ukryte i naiwne - jest powodem, dla którego widzimy wzorce w danych, człowieka na Księżycu lub wartości odstające. Model może nie mieć podstaw fizyki / chemii / ekonomii, ale postawiliśmy hipotezę. W przeciwnym razie nie ma niespodzianki, nie ma „na zewnątrz”.
Wayne
Tukey nalega, aby w opisie danych niekoniecznie je modelowaliśmy . Rozsądnie jest rozszerzyć definicję „modelu” o opis danych, ale wówczas termin staje się prawie zbyt ogólny, aby był użyteczny. Z punktu widzenia Tukeya (jak to interpretuję oczywiście) nie ma obaw o utratę twarzy, ani też nie jest to kwestia wygody czy nie. Tak więc, choć szanuję twoją motywację, myślę, że twoje podejście (odzwierciedlone w „oszczędzaniu twarzy” i „niewygodnym”) jest mniej konstruktywne niż inne podejścia do tego pytania.
whuber
0

zdefiniuj wartość odstającą jako element tego minimalnego zestawu elementów, który należy usunąć z zestawu danych o rozmiarze n, aby zapewnić 100% zgodność z testami RUM przeprowadzonymi przy poziomie ufności 95% na wszystkich (2 ^ n -1) unikalnych podzbiorach dane. Zobacz tekst Kariana i Dudewicza na temat dopasowania danych do plików PDF za pomocą R (wrzesień 2010 r.) W celu zdefiniowania testu RUM.

Jerry Alderman
źródło
-2

Wartości odstające są ważne tylko w dziedzinie częstych. Jeśli pojedynczy punkt danych doda odchylenie do twojego modelu, które jest zdefiniowane przez rozkład podstawowy określony przez twoją teorię, jest to wartość odstająca dla tego modelu. Subiektywność polega na tym, że jeśli twoja teoria zakłada inny model, możesz mieć inny zestaw punktów jako wartości odstające.


źródło
1
Czy twierdzisz, że wartości odstające są nieistotne w analizie danych bayesowskich?
whuber