Czy istnieje wariant boxplot dla danych rozproszonych Poisson?

33

Chciałbym wiedzieć, czy istnieje wariant boxplot przystosowany do danych rozproszonych Poissona (a może innych dystrybucji)?

Przy rozkładzie Gaussa, wąsy umieszczone na L = Q1 - 1,5 IQR i U = Q3 + 1,5 IQR, wykres pudełkowy ma właściwość, że będzie mniej więcej tyle niskich wartości odstających (punkty poniżej L), ile jest wysokich wartości odstających (punkty powyżej U ).

Jeśli jednak dane są rozproszone Poissona, nie ma to już miejsca z powodu dodatniej skośności otrzymujemy Pr (X <L) <Pr (X> U) . Czy istnieje alternatywny sposób umieszczenia wąsów tak, aby „pasował” do rozkładu Poissona?

caas
źródło
2
Spróbuj najpierw zalogować? Możesz także powiedzieć, do czego chcesz, aby twoja fabuła była „dobrze przystosowana”.
conjugateprior
2
Jest jeden problem z wykonaniem takiej modyfikacji - ludzie są przyzwyczajeni do standardowej definicji wykresu pudełkowego i najprawdopodobniej przyjmą ją, patrząc na fabułę, czy ci się to podoba, czy nie. Może to powodować więcej zamieszania niż zysku.
@mbq:> chodzi o to, że boxplots łączą dwie funkcje w jedno narzędzie; funkcja wizualizacji danych (pudełko) i funkcja wykrywania wartości odstających (wąsy). To, co mówisz, jest absolutnie prawdziwe w przypadku pierwszego, ale w późniejszym przypadku można użyć korekty pochylenia.
user603
@conjugateprior Oto próbka Poissona: 0, 0, 1, 0, 1, 2, 0, 0, 1, 0, 0 .... zauważasz problem z pobieraniem logów?
Glen_b
@Glen_b Właśnie dlatego jest to komentarz, a nie odpowiedź. I dlaczego składa się z dwóch części.
conjugateprior

Odpowiedzi:

31

Wykresy pudełkowe nie zostały zaprojektowane w celu zapewnienia niskiego prawdopodobieństwa przekroczenia końców wąsów we wszystkich przypadkach: są przeznaczone i zwykle używane jako proste graficzne charakterystyki większości zbioru danych. Jako takie są w porządku, nawet jeśli dane mają bardzo wypaczone rozkłady (chociaż mogą nie ujawniać tak wielu informacji, jak robią w przybliżeniu nieskrzywione rozkłady).

Kiedy wykresy pudełkowe zostaną wypaczone, podobnie jak w przypadku rozkładu Poissona, następnym krokiem jest ponowne wyrażenie podstawowej zmiennej (z monotoniczną, rosnącą transformacją) i przerysowanie wykresów pudełkowych. Ponieważ wariancja rozkładu Poissona jest proporcjonalna do jego średniej, dobrą transformacją do zastosowania jest pierwiastek kwadratowy.

Każdy wykres przedstawia 50 losowań iidów z rozkładu Poissona o danej intensywności (od 1 do 10, z dwiema próbami dla każdej intensywności). Zauważ, że skośność jest zwykle niska.

równoległe wykresy pudełkowe

Te same dane w skali pierwiastkowej mają tendencję do posiadania wykresów pudełkowych, które są nieco bardziej symetryczne i (z wyjątkiem najniższej intensywności) mają w przybliżeniu równe IQR niezależnie od intensywności).

wykresy przekształconych danych

Podsumowując, nie zmieniaj algorytmu boxplot: zamiast tego ponownie wyraż dane.


Nawiasem mówiąc, odpowiednie szanse na obliczenia są następujące: jaka jest szansa, że ​​niezależna zmienna normalna przekroczy górne (dolne) ogrodzenie ( ), oszacowane na podstawie niezależnych losowań z tego samego rozkładu? XULn Wynika to z faktu, że ogrodzenia na wykresie pudełkowym nie są obliczane z rozkładu podstawowego, ale są szacowane na podstawie danych. W większości przypadków szanse są znacznie większe niż 1%! Na przykład tutaj (na podstawie 10 000 prób Monte-Carlo) jest histogram szansy na log (podstawa 10) dla przypadku :n=9

histogram szans

(Ponieważ rozkład normalny jest symetryczny, histogram dotyczy obu ogrodzeń). Logarytm 1% / 2 wynosi około -2,3. Oczywiście, przez większość czasu prawdopodobieństwo jest większe niż to. Około 16% czasu przekracza 10%!

Okazuje się (nie zaśmiecam tej odpowiedzi szczegółami), że rozkłady tych szans są porównywalne z normalnym przypadkiem (dla małego ) nawet dla rozkładów Poissona o natężeniu tak niskim jak 1, co jest dość wypaczone. Główną różnicą jest to, że zwykle mniej prawdopodobne jest znalezienie niskiej wartości odstającej, a nieco większe prawdopodobieństwo znalezienia wysokiej wartości odstającej.n

Whuber
źródło
1
+1, nie widziałem wcześniej tego wątku. Uczyniłem (sądzę) ten sam punkt, który jest omawiany tutaj po regule horyzontalnej w inny sposób w tym poście: Czy usunąć przypadki oznaczone jako odstające przez oprogramowanie statystyczne .
Gung - Przywróć Monikę
Tak, to ten sam punkt @ gung - i opublikowałeś tam ładną odpowiedź.
whuber
26

Istnieje uogólnienie standardowych wykresów pudełkowych, o których wiem, w których długości wąsów są dostosowywane w celu uwzględnienia wypaczonych danych. Szczegóły lepiej wyjaśniono w bardzo jasnym i zwięzłym białym papierze (Vandervieren, E., Hubert, M. (2004) „Skorygowany wykres pudełkowy dla wypaczonych rozkładów”, patrz tutaj ).

Istnieje implementacja tego ( ), a także matlab (w bibliotece o nazwie ).Rlibrarobustbase::adjbox()libra

Osobiście uważam, że jest to lepsza alternatywa dla transformacji danych (choć opiera się ona również na zasadzie ad hoc, patrz biała księga).

Nawiasem mówiąc, tutaj mam coś do dodania do przykładu Whubera. W zakresie, w jakim omawiamy zachowanie wąsów, naprawdę powinniśmy również wziąć pod uwagę to, co dzieje się, rozważając skażone dane:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

W tym modelu zanieczyszczenia B1 ma zasadniczo logarytmiczny rozkład, z wyjątkiem 20% danych, które są w połowie w lewo, w połowie w prawych odstępach (punkt podziału na sąsiednie pole jest taki sam jak w przypadku zwykłych wykresów pudełkowych, tzn. Zakłada, że 25 procent danych może być złych).

Wykresy przedstawiają klasyczne wykresy pudełkowe transformowanych danych (z wykorzystaniem transformacji pierwiastka kwadratowego)

klasyczny wykres na podstawie pierwiastka kwadratowego z danych

oraz skorygowany wykres pudełkowy nietransformowanych danych.

skorygowano wykres pudełkowy nieprzetworzonych danych

W porównaniu do skorygowanych wykresów pudełkowych, pierwsza opcja maskuje rzeczywiste wartości odstające i oznacza dobre dane jako wartości odstające. Ogólnie rzecz biorąc, przyczyni się do ukrycia wszelkich dowodów asymetrii w danych poprzez klasyfikację punktów obrażających jako wartości odstających.

W tym przykładzie podejście polegające na użyciu standardowego wykresu pudełkowego na pierwiastku kwadratowym danych znajduje 13 wartości odstających (wszystkie po prawej), podczas gdy dostosowany wykres pudełkowy znajduje 10 prawych i 14 lewych wartości odstających.

EDYCJA: skorygowane wykresy pudełkowe w pigułce.

W „klasycznych” pudełkach wąsy umieszczane są w:

Pytanie 3Q1 -1,5 * IQR i + 1,5 * IQRQ3

gdzie IQR to zakres między kwantylami, to 25. percentyl, a to 75. percentyl danych. Ogólna zasada polega na traktowaniu wszystkiego poza płotem jako wątpliwych danych (płot to odstęp między dwoma wąsami).Pytanie 3Q1Q3

Ta ogólna zasada jest ad-hoc: uzasadnieniem jest to, że jeśli niezanieczyszczona część danych jest w przybliżeniu gaussowska, wówczas mniej niż 1% dobrych danych zostanie sklasyfikowanych jako złe przy użyciu tej reguły.

Słabością tej reguły ogrodzenia, jak wskazał PO, jest to, że długość dwóch wąsów jest identyczna, co oznacza, że ​​zasada ogrodzenia ma sens tylko wtedy, gdy niezanieczyszczona część danych ma rozkład symetryczny.

Popularnym podejściem jest zachowanie reguły ogrodzenia i dostosowanie danych. Chodzi o to, aby przekształcić dane przy użyciu monotonicznej transformacji skośnej (pierwiastek kwadratowy lub log lub bardziej ogólnie przekształcenia box-cox). Jest to nieco niechlujne podejście: opiera się na logice kołowej (transformacja powinna zostać wybrana, aby skorygować skośność niezanieczyszczonej części danych, która na tym etapie jest nieobserwowalna) i ma tendencję do utrudniania interpretacji danych naocznie. W każdym razie jest to dziwna procedura, w ramach której zmienia się dane, aby zachować to, co przecież jest regułą ad hoc.

Alternatywą jest pozostawienie danych nietkniętych i zmiana reguły wąsów. Skorygowany wykres pudełkowy pozwala zmieniać długość każdego wąsa zgodnie z indeksem mierzącym skośność niezanieczyszczonej części danych:

Q1 - 1,5 * IQR i + 1,5 * IQRexp(M,α)Q3exp(M,β)

Gdzie jest indeksem skośności niezanieczyszczonej części danych (tj. Tak jak mediana jest miarą lokalizacji niezanieczyszczonej części danych lub MAD miarą rozprzestrzeniania się dla niezanieczyszczonej części danych) i są liczbami wybranymi w taki sposób, że w przypadku niezanieczyszczonych rozkładów skośnych prawdopodobieństwo leżenia na zewnątrz ogrodzenia jest względnie małe w dużej kolekcji przekrzywionych rozkładów (jest to doraźna część reguły ogrodzenia).Mα β

W przypadkach, gdy duża część danych jest symetryczna, i wracamy do klasycznych wąsów.M0

Autorzy sugerują użycie pary medycznej jako estymatora (patrz odniesienie w białej księdze) ze względu na jego wysoką wydajność (chociaż w zasadzie można zastosować dowolny solidny wskaźnik pochylenia). Wybierając , obliczyli następnie optymalnie i empirycznie (używając dużej liczby przekrzywionych rozkładów) jako:MMαβ

Q1 - 1,5 * IQR i + 1,5 * IQR, jeśliexp(4M)Q3exp(3M)M0

exp ( - 3 M ) Q 3 exp ( 4 M ) M < 0Q1 - 1,5 * IQR i + 1,5 * IQR, jeśliexp(3M)Q3exp(4M)M<0

użytkownik603
źródło
1
Chciałbym wiedzieć, jak uważasz mój przykład za „nieprzydatny” - samo oznakowanie go jako takiego nie jest konstruktywne. Przyznaję, że przykład jest nieco rozczarowujący w tym sensie, że transformacja danych nie stanowi spektakularnej poprawy. To wina rozkładów Poissona: po prostu nie są one wystarczająco pochylone, aby były warte zawracania głowy tą analizą!
whuber
@ whuber:> po pierwsze, przepraszam za ton: pochodzi z nie edytowanego pierwszego szkicu i został poprawiony (zazwyczaj piszę skróty akapitów jako notatkę do siebie, a następnie wielokrotnie je przeglądam - ten zagubił się w długa reakcja między zwojami). Teraz dla samego krytyka: Twój przykład przedstawia zachowanie rozwiązania wykorzystującego transformację w przypadku niezanieczyszczonych danych. IMHO zasada „wąsów” powinna - być może wstępna - zostać oceniona z uwzględnieniem modelu zanieczyszczenia.
user603,
@ użytkownik Dziękujemy za wyjaśnienie. Nie przeszkadza mi krytyka, która jest interesująca i doceniam odniesienia do dostosowanych wykresów pudełkowych. (+1)
whuber
Zgadzam się z użytkownikiem 603, że istnieje różnica w tym, czy sprawdzasz czystą dystrybucję (na przykład odpowiedź Whubera), czy masz dane z dystrybucji plus niektóre wartości odstające (omówione tutaj jako zanieczyszczenie ). Z mojego punktu widzenia w rzeczywistych ustawieniach do wykrycia wartości odstających używa się wykresu pudełkowego. Następnie analiza wykresów pudełkowych, które pomijają wartości odstające, w jakiś sposób nie trafia w sedno. Dlatego wydaje się, że ta odpowiedź lepiej służy celowi użycia wykresów pudełkowych.
Henrik
2
@Henrik Identyfikacja wartości odstających jest tylko jednym z wielu celów wykresów pudełkowych. Podejście Tukeya polegało na znalezieniu odpowiedniego ponownego wyrażenia danych, które sprawiły, że środek ich rozkładu był w przybliżeniu symetryczny. To eliminuje potrzebę jakiejkolwiek regulacji skośności. To już wiele osiąga, jeśli chodzi o umożliwianie porównań między wykresami pudełkowymi, i tam stają się naprawdę przydatne. „Dostosowanie” wąsów całkowicie pomija ten fundamentalny problem. Dlatego byłbym ostrożny w stosowaniu dostosowania: jego potrzeba jest sygnałem, że analiza nie jest przeprowadzana dobrze.
whuber