Zgodnie z klasyczną definicją wartości odstającej jako punktu danych poza IQR 1,5 * z górnego lub dolnego kwartylu, zakłada się rozkład nieskośny. W przypadku rozkładów skośnych (wykładnicza, Poissona, geometryczna itp.) Czy najlepszym sposobem na wykrycie wartości odstającej jest analiza transformacji oryginalnej funkcji?
Na przykład rozkłady luźno rządzone rozkładem wykładniczym można przekształcić za pomocą funkcji logarytmicznej - w którym momencie dopuszczalne jest szukanie wartości odstających na podstawie tej samej definicji IQR?
1.5*IQR
definicja wartości odstającej nie jest powszechnie akceptowana. Spróbuj rozładować pytanie i rozwinąć problem, który próbujesz rozwiązać.Odpowiedzi:
Jest to reguła określania punktów poza końcami wąsów na wykresie pudełkowym. Sam Tukey bez wątpienia sprzeciwiałby się nazywaniu ich wartościami odstającymi na tej podstawie (niekoniecznie uważał punkty poza tymi granicami za wartości odstające). Są to raczej punkty, które - jeśli spodziewano się, że dane pochodzą z dystrybucji nieco podobnej do dystrybucji normalnej - można by poddać dalszemu badaniu (na przykład sprawdzeniu, czy nie transponowano dwóch cyfr, na przykład) - co najwyżej te mogą być potencjalnymi wartościami odstającymi. Jak zauważył Nick Cox w komentarzach pod tą odpowiedzią , ogon wielu takich punktów zostałby potraktowany bardziej jako wskaźnik, że ponowne wyrażenie może być odpowiednie niż wskazanie potrzeby traktowania punktów jako wartości odstających.
Zakładam, że przez „nie wypaczony” masz na myśli symetryczny. Zatem założenie to coś więcej niż tylko to. Gruboziarnisty, ale symetryczny rozkład może mieć wiele punktów poza granicami tej reguły.
To zależy od tego, co stanowi wartość odstającą dla twoich celów. Nie ma jednej definicji, która byłaby odpowiednia dla każdego celu - w rzeczywistości prawdopodobnie lepiej jest robić inne rzeczy, które (powiedzmy) wybierają wartości odstające i je pomijają.
W przypadku wykładniczej lub geometrycznej możesz wykonać podobne obliczenia jak w przypadku wykresu pudełkowego, ale zidentyfikowałoby to podobny ułamek tylko w prawym ogonie (nie będziesz miał niższych punktów końcowych zidentyfikowanych w wykładniczym lub geometrycznym) ... albo możesz zrobić coś innego.†
Oznaczenie punktów powyżej 7,1 razy mediany dla n = 1000 zwykle będzie wynosić od 0,4% do 1,1% wartości:
To całkowicie zależy od tego, co rozumiesz przez „akceptowalny”. Pamiętaj jednak, że -
i) wynikowy rozkład nie jest w rzeczywistości symetryczny, ale wyraźnie odchyla się w lewo.
W rezultacie zazwyczaj zaznaczasz punkty tylko na lewym końcu (tj. Blisko zera, gdzie i tak spodziewasz się wartości wykładniczych), a nie na prawym (gdzie mogą być „wartości odstające”), chyba że tak naprawdę skrajny.
ii) odpowiedniość takiej reguły będzie w dużym stopniu zależna od tego, co robisz.
Jeśli martwisz się dziwną, dziwną wartością mającą wpływ na twoje wnioskowanie, na ogół prawdopodobnie lepiej jest zastosować solidne procedury niż formalnie identyfikować wartości odstające.
Jeśli naprawdę chcesz użyć reguły opartej na normie dla transformowanych danych wykładniczych lub Poissona, przynajmniej sugerowałbym zastosowanie jej do pierwiastka kwadratowego dla Poissona (o ile średnia nie jest zbyt mała , powinno to być z grubsza normalne) i pierwiastek sześcianowy, a nawet czwarty pierwiastek wykładniczy (i być może, przez rozszerzenie, geometryczny).‡
√‡ lub być może , jak w transformacji AnscombeX+38−−−−−√
W przypadku wykładniczym, w dużych próbkach podejście z pierwiastkiem sześciennym będzie miało tendencję do oznaczania punktów tylko w górnym ogonie (mniej więcej w tym samym tempie oznacza je w górnej części ogona dla normalnej), a podejście z czwartym pierwiastkiem oznacza punkty w obu ogonach (nieco więcej w dolnym ogonie, w sumie przy czymś zbliżonym do 40% stawki robi to normalnie). Spośród możliwości pierwiastek sześcienny ma dla mnie więcej sensu niż pozostałe dwa, ale niekoniecznie zaleciłbym użycie tego jako twardej i szybkiej reguły.
źródło
Odpowiem na wasze pytania w odwrotnej kolejności, w jakiej je zadaliście, aby ekspozycja przebiegała od szczegółowej do ogólnej.
Po pierwsze, zastanówmy się nad sytuacją, w której można założyć, że poza niewielką liczbą wartości odstających, większość twoich danych można dobrze opisać znanym rozkładem (w twoim przypadku wykładniczym).
Typowym estymatorem MLE parametrów jest [0, p 506]:
i
Oto przykład w
R
:MLE to .≈ 2,08σ ≈ 2,08
Niestety szacunki MLE są bardzo wrażliwe na występowanie wartości odstających. Na przykład, jeśli uszkodzenie próbek przez zastąpienie 20% z „S o : - x ixja - xja
MLE oparciu o uszkodzoną próbkę wynosi teraz (!). Jako drugi przykład, jeśli próbkę, zastępując 20% przez (powiedzmy, jeśli miejsce dziesiętne zostało przypadkowo niewłaściwie umieszczone):≈ 11,12 x i 100 x iσ ≈11.12 xi 100xi
MLE oparty na tej drugiej uszkodzonej próbce wynosi teraz (!).≈ 54σ ≈54
Alternatywą dla surowego MLE jest (a) znalezienie wartości odstających za pomocą solidnej reguły identyfikacji wartości odstających , (b) odłożenie ich na bok jako fałszywych danych i (c) obliczenie MLE na nie fałszywej części próbki.
Najbardziej znaną z tych solidnych reguł identyfikacji wartości odstających jest reguła med / mad zaproponowana przez Hampela [3], który przypisał ją Gaussowi (zilustrowałem tę zasadę tutaj ). W regule med / mad próg odrzucenia opiera się na założeniu, że prawdziwe obserwacje w próbie są dobrze przybliżone przez rozkład normalny.
Oczywiście, jeśli masz dodatkowe informacje (na przykład wiedząc, że rozkład prawdziwych obserwacji jest dobrze przybliżony rozkładem Poissona, jak w tym przykładzie ), nic nie stoi na przeszkodzie, abyś przekształcił swoje dane i używał podstawowej reguły odrzucania wartości odstających ( med / mad), ale wydaje mi się to trochę niewygodne w przetwarzaniu danych w celu zachowania tego, co przecież jest regułą ad-hoc.
Wydaje mi się o wiele bardziej logiczne zachowanie danych, ale dostosowanie reguł odrzucania. Następnie nadal używałbyś 3-etapowej procedury, którą opisałem w pierwszym linku powyżej, ale z progiem odrzucenia dostosowanym do rozkładu, który, jak podejrzewasz, ma spora część danych. Poniżej podaję zasadę odrzucenia w sytuacjach, w których prawdziwe obserwacje są dobrze dopasowane rozkładem wykładniczym. W takim przypadku możesz skonstruować dobre progi odrzucenia, korzystając z następującej reguły:
1) oszacuj przy użyciu [1]:θ
Qn jest solidnym oszacowaniem rozproszenia, które nie jest ukierunkowane na dane symetryczne. Jest szeroko implementowany, na przykład w pakiecie R solidbase . W przypadku wykładniczych danych rozproszonych Qn mnoży się przez współczynnik spójności wynoszący , więcej informacji można znaleźć w [1].≈3.476
2) odrzucić jako fałszywe wszystkie obserwacje poza [2, s. 188]
(współczynnik 9 w powyższej regule jest uzyskiwany jako 7,1 w powyższej odpowiedzi Glen_b, ale przy użyciu wyższej wartości granicznej. Współczynnik (1 + 2 / n) jest małym współczynnikiem korygującym próbkę, który został uzyskany przez symulacje w [2]. W przypadku wystarczająco dużych próbek jest to zasadniczo 1).
3) użyj MLE na niepozornych danych, aby oszacować :σ
gdzie .H.= { i : θ^′≤ xja≤ 9 ( 1 + 2 / n ) medjaxja+ θ^′}
Korzystając z tej reguły w poprzednich przykładach, uzyskasz:
solidne oszacowanie wynosi teraz (bardzo blisko wartości MLE, gdy dane są czyste). Na drugim przykładzie:σ ≈ 2,05
Solidne oszacowanie wynosi teraz (bardzo blisko wartości, którą uzyskalibyśmy bez wartości odstających).σ ≈ 2.2
W trzecim przykładzie:
Solidne oszacowanie wynosi teraz (bardzo blisko wartości, którą uzyskalibyśmy bez wartości odstających).σ ≈ 2.2
Dodatkową korzyścią tego podejścia jest to, że daje podzbiór indeksów podejrzanych obserwacji, które należy oddzielić od reszty danych, być może badając jako przedmiot zainteresowania same w sobie (członkowie ).{ i : i ∉ H.}
Teraz, w ogólnym przypadku, w którym nie masz dobrego rozkładu kandydatów, który pasowałby do większości twoich obserwacji poza wiedzą, że rozkład symetryczny nie zadziała, możesz użyć skorygowanego wykresu pudełkowego [4]. Jest to uogólnienie wykresu pudełkowego, który bierze pod uwagę (nieparametryczną i odstającą solidną) miarę skośności twoich danych (tak, że gdy większość danych jest symetryczna, zapada się do zwykłego wykresu pudełkowego). Możesz także sprawdzić tę odpowiedź w celu zilustrowania.
źródło
Najpierw zakwestionowałbym definicję, klasyczną lub inną. „Odstęp” to zaskakujący punkt. Stosowanie jakiejkolwiek konkretnej reguły (nawet w przypadku rozkładów symetrycznych) jest błędem, szczególnie w dzisiejszych czasach, gdy istnieje tak wiele ogromnych zestawów danych. W zbiorze danych (powiedzmy) miliona obserwacji (nie tak dużych, w niektórych dziedzinach), będzie wiele wielu przypadków poza limit 1,5 IQR, który przytaczasz, nawet jeśli rozkład jest całkowicie normalny.
Po drugie, sugeruję poszukiwanie wartości odstających od oryginalnych danych. Prawie zawsze będzie bardziej intuicyjny. Na przykład w przypadku danych o dochodach rejestrowanie dzienników jest dość powszechne. Ale nawet tutaj szukałbym wartości odstających w oryginalnej skali (dolary, euro lub cokolwiek innego), ponieważ lepiej wyczuwamy takie liczby. (Jeśli pobierasz dzienniki, sugerowałbym logarytm o podstawie 10, przynajmniej do wykrywania wartości odstających, ponieważ jest on co najmniej trochę intuicyjny).
Po trzecie, szukając wartości odstających, wystrzegaj się maskowania.
Wreszcie, obecnie badam algorytm „wyszukiwania do przodu” zaproponowany przez Atkinsona i Riani dla różnego rodzaju danych i problemów. To wygląda bardzo obiecująco.
źródło