Wykrywanie wartości odstających w przekrzywionych rozkładach

24

Zgodnie z klasyczną definicją wartości odstającej jako punktu danych poza IQR 1,5 * z górnego lub dolnego kwartylu, zakłada się rozkład nieskośny. W przypadku rozkładów skośnych (wykładnicza, Poissona, geometryczna itp.) Czy najlepszym sposobem na wykrycie wartości odstającej jest analiza transformacji oryginalnej funkcji?

Na przykład rozkłady luźno rządzone rozkładem wykładniczym można przekształcić za pomocą funkcji logarytmicznej - w którym momencie dopuszczalne jest szukanie wartości odstających na podstawie tej samej definicji IQR?

Eric
źródło
4
Na tej stronie znajduje się wiele pytań dotyczących oceny wartości odstających. Jedną rzeczą, którą musisz tutaj dodać, aby uzyskać rozsądną odpowiedź, jest to, co naprawdę próbujesz zrobić lub dowiedzieć się. Ale na początek 1.5*IQRdefinicja wartości odstającej nie jest powszechnie akceptowana. Spróbuj rozładować pytanie i rozwinąć problem, który próbujesz rozwiązać.
Jan
Stwierdzenie, że wartość przekraczająca 1,5 IQR jest wartością odstającą, jest po prostu nonsensem. Dane przekraczające 1,5 IQR byłyby całkowicie spójne z nieskończoną liczbą rozkładów, a ponieważ wielkość próbki staje się duża, można mieć niemal całkowitą pewność, że takie dane NIE są wartościami odstającymi.
wilki

Odpowiedzi:

18

Zgodnie z klasyczną definicją wartości odstającej jako punktu danych poza IQR 1,5 * od górnego lub dolnego kwartylu,

Jest to reguła określania punktów poza końcami wąsów na wykresie pudełkowym. Sam Tukey bez wątpienia sprzeciwiałby się nazywaniu ich wartościami odstającymi na tej podstawie (niekoniecznie uważał punkty poza tymi granicami za wartości odstające). Są to raczej punkty, które - jeśli spodziewano się, że dane pochodzą z dystrybucji nieco podobnej do dystrybucji normalnej - można by poddać dalszemu badaniu (na przykład sprawdzeniu, czy nie transponowano dwóch cyfr, na przykład) - co najwyżej te mogą być potencjalnymi wartościami odstającymi. Jak zauważył Nick Cox w komentarzach pod tą odpowiedzią , ogon wielu takich punktów zostałby potraktowany bardziej jako wskaźnik, że ponowne wyrażenie może być odpowiednie niż wskazanie potrzeby traktowania punktów jako wartości odstających.

zakłada się, że rozkład nie jest przekrzywiony.

Zakładam, że przez „nie wypaczony” masz na myśli symetryczny. Zatem założenie to coś więcej niż tylko to. Gruboziarnisty, ale symetryczny rozkład może mieć wiele punktów poza granicami tej reguły.

W przypadku rozkładów skośnych (wykładnicza, Poissona, geometryczna itp.) Czy najlepszym sposobem na wykrycie wartości odstającej jest analiza transformacji oryginalnej funkcji?

To zależy od tego, co stanowi wartość odstającą dla twoich celów. Nie ma jednej definicji, która byłaby odpowiednia dla każdego celu - w rzeczywistości prawdopodobnie lepiej jest robić inne rzeczy, które (powiedzmy) wybierają wartości odstające i je pomijają.

W przypadku wykładniczej lub geometrycznej możesz wykonać podobne obliczenia jak w przypadku wykresu pudełkowego, ale zidentyfikowałoby to podobny ułamek tylko w prawym ogonie (nie będziesz miał niższych punktów końcowych zidentyfikowanych w wykładniczym lub geometrycznym) ... albo możesz zrobić coś innego.

W dużych próbkach wykres pudełkowy oznacza około 0,35% punktów na każdym końcu lub łącznie około 0,7%. W przypadku wykładniczego możesz na przykład oznaczyć wielokrotność mediany. Jeśli chcesz oznaczyć w przybliżeniu 0,7% punktów dla rzeczywistego wykładniczego, sugerowałoby to oznaczenie punktów powyżej około 7,1 razy mediany.

Oznaczenie punktów powyżej 7,1 razy mediany dla n = 1000 zwykle będzie wynosić od 0,4% do 1,1% wartości:

ae <- rexp(1000)
table( ae > 7.1*median(ae) )

FALSE  TRUE 
  993     7 

Na przykład rozkłady luźno rządzone rozkładem wykładniczym można przekształcić za pomocą funkcji logarytmicznej - w którym momencie dopuszczalne jest szukanie wartości odstających na podstawie tej samej definicji IQR?

To całkowicie zależy od tego, co rozumiesz przez „akceptowalny”. Pamiętaj jednak, że -

i) wynikowy rozkład nie jest w rzeczywistości symetryczny, ale wyraźnie odchyla się w lewo.

wprowadź opis zdjęcia tutaj

W rezultacie zazwyczaj zaznaczasz punkty tylko na lewym końcu (tj. Blisko zera, gdzie i tak spodziewasz się wartości wykładniczych), a nie na prawym (gdzie mogą być „wartości odstające”), chyba że tak naprawdę skrajny.

ii) odpowiedniość takiej reguły będzie w dużym stopniu zależna od tego, co robisz.

Jeśli martwisz się dziwną, dziwną wartością mającą wpływ na twoje wnioskowanie, na ogół prawdopodobnie lepiej jest zastosować solidne procedury niż formalnie identyfikować wartości odstające.

Jeśli naprawdę chcesz użyć reguły opartej na normie dla transformowanych danych wykładniczych lub Poissona, przynajmniej sugerowałbym zastosowanie jej do pierwiastka kwadratowego dla Poissona (o ile średnia nie jest zbyt mała , powinno to być z grubsza normalne) i pierwiastek sześcianowy, a nawet czwarty pierwiastek wykładniczy (i być może, przez rozszerzenie, geometryczny).

lub być może , jak w transformacji AnscombeX+38

wprowadź opis zdjęcia tutaj

W przypadku wykładniczym, w dużych próbkach podejście z pierwiastkiem sześciennym będzie miało tendencję do oznaczania punktów tylko w górnym ogonie (mniej więcej w tym samym tempie oznacza je w górnej części ogona dla normalnej), a podejście z czwartym pierwiastkiem oznacza punkty w obu ogonach (nieco więcej w dolnym ogonie, w sumie przy czymś zbliżonym do 40% stawki robi to normalnie). Spośród możliwości pierwiastek sześcienny ma dla mnie więcej sensu niż pozostałe dwa, ale niekoniecznie zaleciłbym użycie tego jako twardej i szybkiej reguły.

Glen_b - Przywróć Monikę
źródło
1
„Gruboziarnisty, ale symetryczny rozkład może mieć wiele punktów poza granicami tej reguły.” Zawsze jest dokładnie 50% wszystkich punktów w IQR, prawda?
JulienD
2
(Q11.5×IQR,Q3+1.5×IQR)
@Glen_b Górny próg odrzucenia wykładniczego w twojej odpowiedzi zakłada, że ​​parametr shift (lub theta) jest znany. Myślę, że należy o tym wspomnieć.
user603
1
@ user603 Termin „ rozkład wykładniczy ” (patrz także tutaj ) bez jakiegokolwiek przymiotnika modyfikującego (jak „przesunięty” lub „dwuparametrowy”) najbardziej konwencjonalnie odnosi się do wersji jednoparametrowej. Niektóre osoby nazywają przesuniętą wersję „rozkładem wykładniczym”, ale jest to stosunkowo rzadkie; tylko nieco bardziej powszechne niż nazywanie przesuniętej dystrybucji logarytmicznej „lognormalną dystrybucją”.
Glen_b
1
@ user603 Och, przepraszam, prosta nieporozumienie - w takim przypadku tak, nie sądzę, żebyśmy mieli jakikolwiek spór merytoryczny - tam, gdzie jest jakakolwiek możliwość wystąpienia dużych wartości odstających po lewej, podejście, o którym wspomniałem, nie ma żadnego sensu . Po prostu nie próbowałem poradzić sobie z jakimkolwiek potencjałem takiej sytuacji (ale w mojej obronie nie wydawało mi się, że OP uznał to za możliwą - wątpię, by wzięcie logów przyszło mi do głowy, gdyby tak było).
Glen_b
14

Odpowiem na wasze pytania w odwrotnej kolejności, w jakiej je zadaliście, aby ekspozycja przebiegała od szczegółowej do ogólnej.

Po pierwsze, zastanówmy się nad sytuacją, w której można założyć, że poza niewielką liczbą wartości odstających, większość twoich danych można dobrze opisać znanym rozkładem (w twoim przypadku wykładniczym).

x

pX(x)=σ1exp((xθ)σ),x>0;σ>0

xθ=0

Typowym estymatorem MLE parametrów jest [0, p 506]:

θ^=minjaxja

i

σ^=zdrowaśkajaxja-minjaxja

Oto przykład w R:

n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)

MLE to .2,08σ2.08

Niestety szacunki MLE są bardzo wrażliwe na występowanie wartości odstających. Na przykład, jeśli uszkodzenie próbek przez zastąpienie 20% z „S o : - x ixja-xja

m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)

MLE oparciu o uszkodzoną próbkę wynosi teraz (!). Jako drugi przykład, jeśli próbkę, zastępując 20% przez (powiedzmy, jeśli miejsce dziesiętne zostało przypadkowo niewłaściwie umieszczone):11,12 x i 100 x iσ11.12xi100xi

m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)

MLE oparty na tej drugiej uszkodzonej próbce wynosi teraz (!).54σ54

Alternatywą dla surowego MLE jest (a) znalezienie wartości odstających za pomocą solidnej reguły identyfikacji wartości odstających , (b) odłożenie ich na bok jako fałszywych danych i (c) obliczenie MLE na nie fałszywej części próbki.

Najbardziej znaną z tych solidnych reguł identyfikacji wartości odstających jest reguła med / mad zaproponowana przez Hampela [3], który przypisał ją Gaussowi (zilustrowałem tę zasadę tutaj ). W regule med / mad próg odrzucenia opiera się na założeniu, że prawdziwe obserwacje w próbie są dobrze przybliżone przez rozkład normalny.

Oczywiście, jeśli masz dodatkowe informacje (na przykład wiedząc, że rozkład prawdziwych obserwacji jest dobrze przybliżony rozkładem Poissona, jak w tym przykładzie ), nic nie stoi na przeszkodzie, abyś przekształcił swoje dane i używał podstawowej reguły odrzucania wartości odstających ( med / mad), ale wydaje mi się to trochę niewygodne w przetwarzaniu danych w celu zachowania tego, co przecież jest regułą ad-hoc.

Wydaje mi się o wiele bardziej logiczne zachowanie danych, ale dostosowanie reguł odrzucania. Następnie nadal używałbyś 3-etapowej procedury, którą opisałem w pierwszym linku powyżej, ale z progiem odrzucenia dostosowanym do rozkładu, który, jak podejrzewasz, ma spora część danych. Poniżej podaję zasadę odrzucenia w sytuacjach, w których prawdziwe obserwacje są dobrze dopasowane rozkładem wykładniczym. W takim przypadku możesz skonstruować dobre progi odrzucenia, korzystając z następującej reguły:

1) oszacuj przy użyciu [1]:θ

θ^=medixi3.476Qn(x)ln2

Qn jest solidnym oszacowaniem rozproszenia, które nie jest ukierunkowane na dane symetryczne. Jest szeroko implementowany, na przykład w pakiecie R solidbase . W przypadku wykładniczych danych rozproszonych Qn mnoży się przez współczynnik spójności wynoszący , więcej informacji można znaleźć w [1].3.476

2) odrzucić jako fałszywe wszystkie obserwacje poza [2, s. 188]

[θ^,9(1+2/n)medixi+θ^]

(współczynnik 9 w powyższej regule jest uzyskiwany jako 7,1 w powyższej odpowiedzi Glen_b, ale przy użyciu wyższej wartości granicznej. Współczynnik (1 + 2 / n) jest małym współczynnikiem korygującym próbkę, który został uzyskany przez symulacje w [2]. W przypadku wystarczająco dużych próbek jest to zasadniczo 1).

3) użyj MLE na niepozornych danych, aby oszacować :σ

σ^=aveiHximiniHxi

gdzie .H.={ja:θ^xja9(1+2)/n)medjaxja+θ^}

Korzystając z tej reguły w poprzednich przykładach, uzyskasz:

library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])

solidne oszacowanie wynosi teraz (bardzo blisko wartości MLE, gdy dane są czyste). Na drugim przykładzie:σ2.05

theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])

Solidne oszacowanie wynosi teraz (bardzo blisko wartości, którą uzyskalibyśmy bez wartości odstających).σ2.2

W trzecim przykładzie:

theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])

Solidne oszacowanie wynosi teraz (bardzo blisko wartości, którą uzyskalibyśmy bez wartości odstających).σ2.2

Dodatkową korzyścią tego podejścia jest to, że daje podzbiór indeksów podejrzanych obserwacji, które należy oddzielić od reszty danych, być może badając jako przedmiot zainteresowania same w sobie (członkowie ).{ja:jaH.}

Teraz, w ogólnym przypadku, w którym nie masz dobrego rozkładu kandydatów, który pasowałby do większości twoich obserwacji poza wiedzą, że rozkład symetryczny nie zadziała, możesz użyć skorygowanego wykresu pudełkowego [4]. Jest to uogólnienie wykresu pudełkowego, który bierze pod uwagę (nieparametryczną i odstającą solidną) miarę skośności twoich danych (tak, że gdy większość danych jest symetryczna, zapada się do zwykłego wykresu pudełkowego). Możesz także sprawdzić odpowiedź w celu zilustrowania.

  • [0] Johnson NL, Kotz S., Balakrishnan N. (1994). Continuous Univariate Distribution, Tom 1, wydanie drugie.
  • [1] Rousseeuw PJ i Croux C. (1993). Alternatywy dla mediany bezwzględnego odchylenia. Journal of the American Statistics Association, t. 88, nr 424, s. 1273--1283.
  • [2] JK Patel, CH Kapadia i DB Owen, Dekker (1976). Podręcznik rozkładów statystycznych.
  • [3] Hampel (1974). Krzywa wpływu i jej rola w rzetelnym oszacowaniu. Journal of the American Statistics Association Vol. 69, nr 346 (Jun., 1974), s. 383–393.
  • [4] Vandervieren, E., Hubert, M. (2004) „Skorygowany wykres pudełkowy dla wypaczonych rozkładów”. Statystyka obliczeniowa i analiza danych Tom 52, wydanie 12, 15 sierpnia 2008 r., Strony 5186–5201.
użytkownik603
źródło
1

Najpierw zakwestionowałbym definicję, klasyczną lub inną. „Odstęp” to zaskakujący punkt. Stosowanie jakiejkolwiek konkretnej reguły (nawet w przypadku rozkładów symetrycznych) jest błędem, szczególnie w dzisiejszych czasach, gdy istnieje tak wiele ogromnych zestawów danych. W zbiorze danych (powiedzmy) miliona obserwacji (nie tak dużych, w niektórych dziedzinach), będzie wiele wielu przypadków poza limit 1,5 IQR, który przytaczasz, nawet jeśli rozkład jest całkowicie normalny.

Po drugie, sugeruję poszukiwanie wartości odstających od oryginalnych danych. Prawie zawsze będzie bardziej intuicyjny. Na przykład w przypadku danych o dochodach rejestrowanie dzienników jest dość powszechne. Ale nawet tutaj szukałbym wartości odstających w oryginalnej skali (dolary, euro lub cokolwiek innego), ponieważ lepiej wyczuwamy takie liczby. (Jeśli pobierasz dzienniki, sugerowałbym logarytm o podstawie 10, przynajmniej do wykrywania wartości odstających, ponieważ jest on co najmniej trochę intuicyjny).

Po trzecie, szukając wartości odstających, wystrzegaj się maskowania.

Wreszcie, obecnie badam algorytm „wyszukiwania do przodu” zaproponowany przez Atkinsona i Riani dla różnego rodzaju danych i problemów. To wygląda bardzo obiecująco.

Peter Flom - Przywróć Monikę
źródło