Chciałbym wiedzieć, czy istnieje wariant boxplot przystosowany do danych rozproszonych Poissona (a może innych dystrybucji)?
Przy rozkładzie Gaussa, wąsy umieszczone na L = Q1 - 1,5 IQR i U = Q3 + 1,5 IQR, wykres pudełkowy ma właściwość, że będzie mniej więcej tyle niskich wartości odstających (punkty poniżej L), ile jest wysokich wartości odstających (punkty powyżej U ).
Jeśli jednak dane są rozproszone Poissona, nie ma to już miejsca z powodu dodatniej skośności otrzymujemy Pr (X <L) <Pr (X> U) . Czy istnieje alternatywny sposób umieszczenia wąsów tak, aby „pasował” do rozkładu Poissona?
Odpowiedzi:
Wykresy pudełkowe nie zostały zaprojektowane w celu zapewnienia niskiego prawdopodobieństwa przekroczenia końców wąsów we wszystkich przypadkach: są przeznaczone i zwykle używane jako proste graficzne charakterystyki większości zbioru danych. Jako takie są w porządku, nawet jeśli dane mają bardzo wypaczone rozkłady (chociaż mogą nie ujawniać tak wielu informacji, jak robią w przybliżeniu nieskrzywione rozkłady).
Kiedy wykresy pudełkowe zostaną wypaczone, podobnie jak w przypadku rozkładu Poissona, następnym krokiem jest ponowne wyrażenie podstawowej zmiennej (z monotoniczną, rosnącą transformacją) i przerysowanie wykresów pudełkowych. Ponieważ wariancja rozkładu Poissona jest proporcjonalna do jego średniej, dobrą transformacją do zastosowania jest pierwiastek kwadratowy.
Każdy wykres przedstawia 50 losowań iidów z rozkładu Poissona o danej intensywności (od 1 do 10, z dwiema próbami dla każdej intensywności). Zauważ, że skośność jest zwykle niska.
Te same dane w skali pierwiastkowej mają tendencję do posiadania wykresów pudełkowych, które są nieco bardziej symetryczne i (z wyjątkiem najniższej intensywności) mają w przybliżeniu równe IQR niezależnie od intensywności).
Podsumowując, nie zmieniaj algorytmu boxplot: zamiast tego ponownie wyraż dane.
Nawiasem mówiąc, odpowiednie szanse na obliczenia są następujące: jaka jest szansa, że niezależna zmienna normalna przekroczy górne (dolne) ogrodzenie ( ), oszacowane na podstawie niezależnych losowań z tego samego rozkładu?X U L. n Wynika to z faktu, że ogrodzenia na wykresie pudełkowym nie są obliczane z rozkładu podstawowego, ale są szacowane na podstawie danych. W większości przypadków szanse są znacznie większe niż 1%! Na przykład tutaj (na podstawie 10 000 prób Monte-Carlo) jest histogram szansy na log (podstawa 10) dla przypadku :n = 9
(Ponieważ rozkład normalny jest symetryczny, histogram dotyczy obu ogrodzeń). Logarytm 1% / 2 wynosi około -2,3. Oczywiście, przez większość czasu prawdopodobieństwo jest większe niż to. Około 16% czasu przekracza 10%!
Okazuje się (nie zaśmiecam tej odpowiedzi szczegółami), że rozkłady tych szans są porównywalne z normalnym przypadkiem (dla małego ) nawet dla rozkładów Poissona o natężeniu tak niskim jak 1, co jest dość wypaczone. Główną różnicą jest to, że zwykle mniej prawdopodobne jest znalezienie niskiej wartości odstającej, a nieco większe prawdopodobieństwo znalezienia wysokiej wartości odstającej.n
źródło
Istnieje uogólnienie standardowych wykresów pudełkowych, o których wiem, w których długości wąsów są dostosowywane w celu uwzględnienia wypaczonych danych. Szczegóły lepiej wyjaśniono w bardzo jasnym i zwięzłym białym papierze (Vandervieren, E., Hubert, M. (2004) „Skorygowany wykres pudełkowy dla wypaczonych rozkładów”, patrz tutaj ).
Istnieje implementacja tego ( ), a także matlab (w bibliotece o nazwie ).R librarobustbase::adjbox() libra
Osobiście uważam, że jest to lepsza alternatywa dla transformacji danych (choć opiera się ona również na zasadzie ad hoc, patrz biała księga).
Nawiasem mówiąc, tutaj mam coś do dodania do przykładu Whubera. W zakresie, w jakim omawiamy zachowanie wąsów, naprawdę powinniśmy również wziąć pod uwagę to, co dzieje się, rozważając skażone dane:
W tym modelu zanieczyszczenia B1 ma zasadniczo logarytmiczny rozkład, z wyjątkiem 20% danych, które są w połowie w lewo, w połowie w prawych odstępach (punkt podziału na sąsiednie pole jest taki sam jak w przypadku zwykłych wykresów pudełkowych, tzn. Zakłada, że 25 procent danych może być złych).
Wykresy przedstawiają klasyczne wykresy pudełkowe transformowanych danych (z wykorzystaniem transformacji pierwiastka kwadratowego)
oraz skorygowany wykres pudełkowy nietransformowanych danych.
W porównaniu do skorygowanych wykresów pudełkowych, pierwsza opcja maskuje rzeczywiste wartości odstające i oznacza dobre dane jako wartości odstające. Ogólnie rzecz biorąc, przyczyni się do ukrycia wszelkich dowodów asymetrii w danych poprzez klasyfikację punktów obrażających jako wartości odstających.
W tym przykładzie podejście polegające na użyciu standardowego wykresu pudełkowego na pierwiastku kwadratowym danych znajduje 13 wartości odstających (wszystkie po prawej), podczas gdy dostosowany wykres pudełkowy znajduje 10 prawych i 14 lewych wartości odstających.
EDYCJA: skorygowane wykresy pudełkowe w pigułce.
W „klasycznych” pudełkach wąsy umieszczane są w:
Pytanie 3Q1 -1,5 * IQR i + 1,5 * IQRQ3
gdzie IQR to zakres między kwantylami, to 25. percentyl, a to 75. percentyl danych. Ogólna zasada polega na traktowaniu wszystkiego poza płotem jako wątpliwych danych (płot to odstęp między dwoma wąsami).Pytanie 3Q1 Q3
Ta ogólna zasada jest ad-hoc: uzasadnieniem jest to, że jeśli niezanieczyszczona część danych jest w przybliżeniu gaussowska, wówczas mniej niż 1% dobrych danych zostanie sklasyfikowanych jako złe przy użyciu tej reguły.
Słabością tej reguły ogrodzenia, jak wskazał PO, jest to, że długość dwóch wąsów jest identyczna, co oznacza, że zasada ogrodzenia ma sens tylko wtedy, gdy niezanieczyszczona część danych ma rozkład symetryczny.
Popularnym podejściem jest zachowanie reguły ogrodzenia i dostosowanie danych. Chodzi o to, aby przekształcić dane przy użyciu monotonicznej transformacji skośnej (pierwiastek kwadratowy lub log lub bardziej ogólnie przekształcenia box-cox). Jest to nieco niechlujne podejście: opiera się na logice kołowej (transformacja powinna zostać wybrana, aby skorygować skośność niezanieczyszczonej części danych, która na tym etapie jest nieobserwowalna) i ma tendencję do utrudniania interpretacji danych naocznie. W każdym razie jest to dziwna procedura, w ramach której zmienia się dane, aby zachować to, co przecież jest regułą ad hoc.
Alternatywą jest pozostawienie danych nietkniętych i zmiana reguły wąsów. Skorygowany wykres pudełkowy pozwala zmieniać długość każdego wąsa zgodnie z indeksem mierzącym skośność niezanieczyszczonej części danych:
Gdzie jest indeksem skośności niezanieczyszczonej części danych (tj. Tak jak mediana jest miarą lokalizacji niezanieczyszczonej części danych lub MAD miarą rozprzestrzeniania się dla niezanieczyszczonej części danych) i są liczbami wybranymi w taki sposób, że w przypadku niezanieczyszczonych rozkładów skośnych prawdopodobieństwo leżenia na zewnątrz ogrodzenia jest względnie małe w dużej kolekcji przekrzywionych rozkładów (jest to doraźna część reguły ogrodzenia).M α β
W przypadkach, gdy duża część danych jest symetryczna, i wracamy do klasycznych wąsów.M≈0
Autorzy sugerują użycie pary medycznej jako estymatora (patrz odniesienie w białej księdze) ze względu na jego wysoką wydajność (chociaż w zasadzie można zastosować dowolny solidny wskaźnik pochylenia). Wybierając , obliczyli następnie optymalnie i empirycznie (używając dużej liczby przekrzywionych rozkładów) jako:M M α β
exp ( - 3 M ) Q 3 exp ( 4 M ) M < 0Q1 - 1,5 * IQR i + 1,5 * IQR, jeśliexp(−3M) Q3 exp(4M) M<0
źródło