Ludzie często mówią o radzeniu sobie z wartościami odstającymi w statystykach. Niepokoi mnie to, że o ile mogę stwierdzić, definicja wartości odstającej jest całkowicie subiektywna. Na przykład, jeśli prawdziwy rozkład jakiejś zmiennej losowej jest bardzo gruboogonowy lub bimodalny, każda standardowa wizualizacja lub statystyka podsumowująca do wykrywania wartości odstających niepoprawnie usunie części rozkładu, z którego chcesz próbkować. Jaka jest rygorystyczna definicja wartości odstającej, jeśli taka istnieje, i jak można sobie z nią poradzić bez wprowadzania nieuzasadnionej subiektywności do analizy?
outliers
definition
dsimcha
źródło
źródło
rigorous definition of an outlier
kiedy będziesz mógł określićunreasonable amounts of subjectivity
obiektywny sposób ;-), DziękiOdpowiedzi:
Tak długo, jak twoje dane pochodzą ze znanego rozkładu o znanych właściwościach, możesz rygorystycznie zdefiniować wartość odstającą jako zdarzenie, które jest mało prawdopodobne, aby zostało wygenerowane przez obserwowany proces (jeśli uważasz, że „zbyt mało prawdopodobne” jest nie rygorystyczne, to wszystkie testy hipotez są).
Takie podejście jest jednak problematyczne na dwóch poziomach: zakłada, że dane pochodzą ze znanego rozkładu o znanych właściwościach i niesie ryzyko, że wartości odstające będą postrzegane jako punkty danych przemycone do twojego zestawu danych przez niektóre magiczne wróżki.
W przypadku braku magicznych faerie danych, wszystkie dane pochodzą z eksperymentu, a zatem nie jest możliwe uzyskanie wartości odstających, po prostu dziwne wyniki. Mogą one wynikać z błędów zapisu (np. 400000 sypialni za 4 dolary), systematycznych problemów pomiarowych (algorytm analizy obrazu zgłasza ogromne obszary, jeśli obiekt znajduje się zbyt blisko granicy) problemów eksperymentalnych (czasami kryształy wytrącają się z roztworu, które dają bardzo wysoki sygnał) lub funkcje twojego systemu (komórka może czasem podzielić się na trzy zamiast dwóch), ale mogą być również wynikiem mechanizmu, którego nikt nigdy nie wziął pod uwagę, ponieważ jest rzadki i prowadzisz badania, co oznacza, że niektóre rzeczy, które robisz, po prostu nie są jeszcze znane.
Najlepiej jest poświęcić czas na zbadanie każdej wartości odstającej i usunąć ją ze zbioru danych dopiero wtedy, gdy zrozumiesz, dlaczego nie pasuje do twojego modelu. Jest to czasochłonne i subiektywne, ponieważ przyczyny są w dużej mierze zależne od eksperymentu, ale alternatywa jest gorsza: jeśli nie rozumiesz, skąd pochodzą wartości odstające, masz wybór między pozostawieniem wyników „odstraszających” wyniki, lub zdefiniowanie „matematycznie rygorystycznego” podejścia, aby ukryć swój brak zrozumienia. Innymi słowy, dążąc do „matematycznej rygorystyczności”, wybierasz między nie uzyskaniem znaczącego efektu a nie dostaniem się do nieba.
EDYTOWAĆ
Jeśli masz tylko listę liczb, nie wiedząc, skąd pochodzą, nie możesz w żaden sposób stwierdzić, czy jakiś punkt danych jest wartością odstającą, ponieważ zawsze możesz przyjąć rozkład, w którym wszystkie dane są wartościami odstającymi.
źródło
Masz rację, że usuwanie wartości odstających może wyglądać jak ćwiczenie subiektywne, ale to nie znaczy, że jest złe. Kompulsywna potrzeba, by zawsze mieć ścisły matematyczny powód każdej decyzji dotyczącej analizy danych, jest często tylko cienką zasłoną sztucznego rygoru w stosunku do tego, co okazuje się być ćwiczeniem subiektywnym. Jest to szczególnie prawdziwe, jeśli chcesz zastosować to samo matematyczne uzasadnienie do każdej napotkanej sytuacji. (Gdyby istniały kuloodporne jasne reguły matematyczne dla wszystkiego, nie potrzebowałbyś statystyk.)
Na przykład w sytuacji z rozkładem długich ogonów nie ma gwarantowanej metody, aby po prostu zdecydować na podstawie liczb, czy masz jeden bazowy rozkład odsetek z wartościami odstającymi lub dwa bazowe rozkłady odsetek, przy czym wartości odstające są częścią tylko jednej z nich. Albo, nie daj Boże, sama dystrybucja danych.
Im więcej danych zbierzesz, tym więcej dotrzesz do regionów o niskim prawdopodobieństwie dystrybucji. Jeśli pobierzesz 20 próbek, jest bardzo mało prawdopodobne, że uzyskasz wartość z wynikiem Z wynoszącym 3,5. Jeśli pobierzesz 10 000 próbek, najprawdopodobniej otrzymasz jedną i jest to naturalna część dystrybucji. Biorąc pod uwagę powyższe, w jaki sposób decydujesz tylko dlatego, że wykluczenie tego jest ekstremalne?
Wybór najlepszych ogólnie metod analizy jest często subiektywny. To, czy jest to nieuzasadnione subiektywne, zależy od wyjaśnienia decyzji i wartości odstającej.
źródło
Nie sądzę, że możliwe jest zdefiniowanie wartości odstającej bez założenia modelu leżącego u podstaw procesu, w wyniku którego powstają dane. Bez takiego modelu nie mamy ram odniesienia, aby zdecydować, czy dane są anomalne, czy „błędne”. Definicja wartości odstającej, którą uznałem za przydatną, polega na tym, że wartość odstająca jest obserwacją (lub obserwacjami), której nie można pogodzić z modelem, który w innym przypadku działałby dobrze.
źródło
Istnieje tutaj wiele doskonałych odpowiedzi. Chciałbym jednak zaznaczyć, że dwa pytania są mylone. Pierwszym z nich jest „czym jest wartość odstająca?”, A dokładniej określenie „ścisłej definicji” takiej wartości. To jest proste:
Drugie pytanie brzmi: „skąd mam wiedzieć / wykryć, że punkt danych jest wartością odstającą?” Niestety jest to bardzo trudne. Jednak podane tutaj odpowiedzi (które są naprawdę bardzo dobre i których nie mogę poprawić) będą bardzo pomocne w tym zadaniu.
źródło
Definicja 1: Jak już wspomniano, wartość odstająca w grupie danych odzwierciedlających ten sam proces (powiedzmy proces A) jest obserwacją (lub zbiorem obserwacji), która prawdopodobnie nie będzie wynikiem procesu A.
Ta definicja z pewnością obejmuje oszacowanie funkcji prawdopodobieństwa procesu A (stąd model) i ustalenie, co jest mało prawdopodobne (tj. Podjęcie decyzji, gdzie zatrzymać ...). Ta definicja leży u podstaw odpowiedzi, którą tu podałem . Jest to bardziej związane z ideami testowania hipotez o znaczeniu lub trafności dopasowania .
Ta definicja obejmuje „dany model” i miarę dokładności. Myślę, że ta definicja jest bardziej praktyczna i bardziej leży u podstaw wartości odstających. W Origin wykrywanie wartości odstających było narzędziem do tworzenia solidnych statystyk .
Oczywiście te definicje mogą być bardzo podobne, jeśli zrozumiesz, że obliczanie prawdopodobieństwa w pierwszej definicji obejmuje modelowanie i obliczanie wyniku :)
źródło
Wartość odstająca to punkt danych, który jest dla mnie niewygodny, biorąc pod uwagę moje bieżące rozumienie procesu generującego te dane.
Uważam, że ta definicja jest tak rygorystyczna, jak to tylko możliwe.
źródło
zdefiniuj wartość odstającą jako element tego minimalnego zestawu elementów, który należy usunąć z zestawu danych o rozmiarze n, aby zapewnić 100% zgodność z testami RUM przeprowadzonymi przy poziomie ufności 95% na wszystkich (2 ^ n -1) unikalnych podzbiorach dane. Zobacz tekst Kariana i Dudewicza na temat dopasowania danych do plików PDF za pomocą R (wrzesień 2010 r.) W celu zdefiniowania testu RUM.
źródło
Wartości odstające są ważne tylko w dziedzinie częstych. Jeśli pojedynczy punkt danych doda odchylenie do twojego modelu, które jest zdefiniowane przez rozkład podstawowy określony przez twoją teorię, jest to wartość odstająca dla tego modelu. Subiektywność polega na tym, że jeśli twoja teoria zakłada inny model, możesz mieć inny zestaw punktów jako wartości odstające.
źródło