Wykres pudełkowo-wąsowy do dystrybucji multimodalnej

13

Czy mogę używać wykresów pudełkowych i wąsów również do dystrybucji multimodalnej, czy tylko do dystrybucji unimodalnej?

użytkownik1091344
źródło
Zwykłym terminem dla dystrybucji z więcej niż jednym trybem byłoby „ multimodalny ”. Jeśli to masz na myśli, edytuj, aby użyć zwykłego terminu. Jeśli masz na myśli coś innego, zdefiniuj ten termin.
Glen_b
1
Wykresy pudełkowe nie zawsze są pomocne w przypadku skomplikowanych kształtów rozkładu. Kształty bimodalne ... multimodalne (domyślam się, że jest to termin bardziej powszechny niż „polimodalny”) kształty często będą ukryte. Wiele zależy od tego, jak silne jest odejście od nieimodalności. W przeciwnym razie nie zadzwoni dzwonek i nie pojawi się komunikat błędu. Ale nawet histogram lub oszacowanie gęstości jądra może zaburzać skomplikowane rozkłady; niektórzy uważają to za cechę, ponieważ łatwo jest nadmiernie akceptować tryby, które są po prostu dziwactwami w próbce. Powiedziałbym, że jedynym rodzajem spisku, który nie traci informacji, jest splot kwantowy.
Nick Cox
@Glen_b zrobiłem. W mojej książce mówią o dystynkcji wielomodalnej. Czy unimodal dla jednego piku jest poprawny?
user1091344,
1
Z pewnością możesz użyć fabuły - kto by Cię powstrzymał? Problem polega na tym, że zwykły wykres pudełkowy nie podaje wskazania liczby trybów (chociaż istnieją modyfikacje wykresów pudełkowych, które mogą wskazywać na multimodalność). Wykresy pudełkowe są lepsze, gdy zainteresowania skupiają się na porównaniach międzygrupowych lokalizacji i rozprzestrzeniania się (w wielu grupach), niż gdy bezpośredni wpływ ma kształt dystrybucji. Jeśli multimodalność jest ważna do pokazania - szczególnie jeśli jest kilka grup - zdecydowanie zalecam użycie innego wyświetlacza, a może kilku. (
Zamienię
1
Twoje dowody nie skłaniają nas do przemyślenia tej książki.
Nick Cox,

Odpowiedzi:

20

Problem polega na tym, że zwykły wykres pudełkowy * ogólnie nie może wskazywać liczby trybów. Podczas gdy w niektórych (generalnie rzadkich) okolicznościach można uzyskać wyraźne wskazanie, że najmniejsza liczba trybów przekracza 1, częściej dany wykres pudełkowy jest zgodny z jednym lub większą liczbą trybów.

* zasugerowano kilka modyfikacji zwykłych rodzajów wykresów pudełkowych, które robią więcej, aby wskazać zmiany w gęstości i można użyć kamery do identyfikacji wielu trybów, ale nie sądzę, że są one celem tego pytania.

Na przykład, podczas gdy działka nie wskazują na obecność przynajmniej dwóch trybach (dane zostały wygenerowane w taki sposób, aby dokładnie dwa) -

wprowadź opis zdjęcia tutaj

i odwrotnie, ten ma dwa bardzo wyraźne tryby dystrybucji, ale po prostu nie można tego stwierdzić na podstawie wykresu pudełkowego:

wprowadź opis zdjęcia tutaj

n=

Rzeczywiście, rysunek 1 tutaj (który moim zdaniem jest dokumentem roboczym opublikowanym później w [1]) pokazuje cztery różne zestawy danych z tym samym wykresem skrzynek.

Nie mam tych danych pod ręką, ale stworzenie podobnego zestawu danych jest trywialną sprawą - jak wskazano w powyższym linku związanym z pięciocyfrowym podsumowaniem, musimy jedynie ograniczyć nasze dystrybucje, aby mieściły się w prostokątnych polach, które pięciocyfrowe podsumowanie ogranicza nas do.

Oto kod R, który wygeneruje podobne dane jak w artykule:

x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1)  # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])

Oto podobny obraz do powyższego w artykule (oprócz tego, że pokazuję tutaj wszystkie cztery wykresy pudełkowe):

wprowadź opis zdjęcia tutaj

Uważaj jednak - histogramy również mogą mieć problemy ; faktycznie widzimy tutaj jeden z jego problemów, ponieważ rozkład w trzecim histogramie „z pikami” jest w rzeczywistości wyraźnie bimodalny; szerokość pojemnika histogramu jest po prostu zbyt szeroka, aby go pokazać. Ponadto, jak zauważa Nick Cox w komentarzach, szacunki gęstości jądra mogą również wpływać na wrażenie liczby trybów (czasami rozmazywanie trybów ... lub czasami sugerowanie małych trybów, w których żaden nie występuje w pierwotnym rozkładzie). Należy zachować ostrożność przy interpretacji wielu popularnych wyświetlaczy.

Istnieją modyfikacje wykresu pudełkowego, które mogą lepiej wskazywać multimodalność (wykresy wazonów, wykresy skrzypiec i wykresy fasoli, między innymi). W niektórych sytuacjach mogą się przydać, ale jeśli chcę znaleźć tryby, zwykle patrzę na inny rodzaj wyświetlacza.

x4

[1]: Choonpradub, C., i McNeil, D. (2005),
„Czy można poprawić wykres pudełkowy?”
Songklanakarin J. Sci. Technol. , 27 : 3, s. 649–657.
http://www.jourlib.org/paper/2081800
pdf

Glen_b - Przywróć Monikę
źródło
2
Dwa szersze komentarze na temat trybów. 1. Dobrym testem określonego wzoru modalności jest to, czy wielokrotnie powtarza się w próbkach tej samej wielkości. Z mojego doświadczenia wynika, że ​​tryby mogą być bardzo zmienne w tym sensie. 2. Rozważając tryby, zawsze warto zapytać, czy tryb ma interpretację merytoryczną. Ale każdy argument może się mylić; o ile dobrze pamiętam, większość ludzi domyśla się, że mieszanka mężczyzn i kobiet nadałaby dwumodalność rozkładowi wysokości, ale trudno to wykryć nawet w wysokiej jakości dużych próbkach.
Nick Cox
1
@NickCox dzięki; tak naprawdę sądziłbym, że wysokości nie byłyby bimodalne; wyobraź sobie, że (jako przybliżone przybliżenie do rzeczywistości) rozważaliśmy dwa rozkłady normalne z podobnymi odchyleniami standardowymi, których średnie różnią się o około 1sd, z mniej więcej taką samą liczbą mężczyzn jak kobiet. Zatem w rzeczywistości połączony (mieszanina dwóch normalnych) rozkład jest jednomodalny. Rzeczywistość jest nieco bardziej złożona, oczywiście - obie dystrybucje są mieszankami grup etnicznych, są wypaczone nawet wśród płci i grup etnicznych, mają różne wariancje i środki różnią się o więcej niż 1sd, ale wynik (niejednoznaczność) nie powinien nas zaskoczyć
Glen_b - Przywróć Monikę
3
Warto oznaczyć, że JW Tukey w swojej analizie danych eksploracyjnych (Reading, MA: Addison-Wesley, 1977) uwzględnił wykres punktowy danych Rayleigha, co doprowadziło do odkrycia argonu, jako bimodalny wzór, dla którego wykresy pudełkowe są bezużyteczne, a kolejne display, w przypadku Tukeya, potrzebny jest wykres punktowy, aby zobaczyć strukturę. Tukey, jak wiadomo, nazywał się fabułą pudełkową i nie jest tak dobrze znany, ponieważ jego nowy wynalazca.
Nick Cox,
7

Istnieje wiele opcji wykrywania multimodalności za pomocą R. Dane dla poniższych wykresów zostały wygenerowane w trzech trybach (-3,0,1). Wykresy pudełkowe są wyraźnie lepsze niż inne (wykres skrzypiec wygląda tak, jakby miał inne domyślne ustawienia gęstości jądra), ale tak naprawdę żaden nie rozróżnia trybów 0 i 1. Naprawdę mało jest powodów, aby używać wykresów pudełkowych w erze komputerów. Po co wyrzucać informacje?

wprowadź opis zdjęcia tutaj

dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))

par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")

require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")

require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")

require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")
Wściekły
źródło