Najlepszy sposób na umieszczenie dwóch histogramów w tej samej skali?

Załóżmy, że mam dwa rozkłady, które chcę szczegółowo porównać, tj. W taki sposób, aby kształt, skala i przesunięcie były łatwo widoczne. Jednym dobrym sposobem na to jest wykreślenie histogramu dla każdej dystrybucji, umieszczenie ich w tej samej skali X i ułożenie jednego pod drugim.

W jaki sposób należy to zrobić? Czy oba histogramy powinny używać tych samych granic bin, nawet jeśli jeden rozkład jest znacznie bardziej rozproszony niż drugi, jak na zdjęciu 1 poniżej? Czy binowanie powinno być wykonywane niezależnie dla każdego histogramu przed powiększeniem, jak na obrazku 2 poniżej? Czy jest w tym jakaś dobra zasada?

Zdjęcie 1 Zdjęcie 2

data-visualization histogram pdf binning dsimcha
źródło

Wykresy QQ są znacznie lepszymi narzędziami do dokładnego porównania rozkładów empirycznych. Używanie ich pozwala całkowicie uniknąć problemu binowania.

whuber

@ whuber: Zgadzam się, jeśli chcesz tylko wrażliwą wizualizację, czy dwie dystrybucje są różne, ale podejście histogramowe jest IMHO lepsze, jeśli chcesz uzyskać szczegółowy wgląd w to, jak się różnią.

dsimcha

@dsimcha Moje doświadczenie było odwrotne. Wykres QQ wyraźnie pokazuje (w sposób ilościowy) różnice skali, umiejscowienia i kształtu, szczególnie w grubości ogonów. (Spróbuj porównać dwa SD bezpośrednio z histogramów, na przykład: jest to niemożliwe, gdy są bliskie wartości. Na wykresie QQ wystarczy porównać tylko nachylenia, które są szybkie i względnie dokładne.) Wykres QQ jest gorszy od histogramu pod względem wybierania trybów, ale żaden histogram nie jest w tym dobry, dopóki nie zostanie zebrana przyzwoita ilość danych i nie zostanie dokonany dobry wybór pojemników.

whuber

Zgadzam się, że wykresy QQ są najlepszym rozwiązaniem, chociaż nie unikają problemu bin, po prostu zmuszają cię do umieszczania pojemników w określonych miejscach (kwantyle :-) Z drugiej strony oznacza to, że pojemniki nie , rzeczywiście nie powinny być udostępniane przez dwie dystrybucje.

conjugateprior

@dsimcha, myślę, że coś w rodzaju wykresów wieku / płci może być przydatnym obrazem. W każdym razie, po co do tego używać histogramów? Wystarczy wydrukować funkcje dystrybucji bezpośrednio. Jeśli jednak bawisz się rzeczami empirycznymi, najlepszym wyborem jest propozycja fabuły QQ.

Dmitrij Celov,

Odpowiedzi:

Myślę, że musisz użyć tych samych pojemników. W przeciwnym razie umysł nabierze na ciebie sztuczki. Normalna (0,2) wygląda bardziej rozproszona w porównaniu do Normalnej (0,1) na zdjęciu nr 2 niż na zdjęciu nr 1. Nie ma to nic wspólnego ze statystykami. Wygląda na to, że Normalny (0,1) przeszedł na „dietę”.

-Ralph Winters

Punkty środkowe i punkty końcowe histogramu mogą również zmieniać postrzeganie dyspersji. Zauważ, że w tym aplecie maksymalny wybór przedziału oznacza zakres> 1,5 - ~ 5, podczas gdy minimalny wybór przedziału oznacza zakres <1 -> 5,5

http://www.stat.sc.edu/~west/javahtml/Histogram.html

Ralph Winters
źródło

Czy możesz podać teoretyczne uzasadnienie tej opinii?

whuber

Nie, tylko opinia. Ale gdybym miał czas, zacząłem swoje badania od świata opakowań detalicznych (postrzeganie cienkiego ciała) i włączyłem część pracy Tufte.

Ralph Winters

@ whuber: jest to głównie związane ze sposobem, w jaki nasz mózg przetwarza informacje. Kiedy są mniejsze pojemniki, nasz umysł również „kurczy” granice krzywej. Spróbuj odwrócić rozmiar pojemników na ryc. # 2, aby zobaczyć, co mam na myśli.

nico,

@nico Tak, pytanie zawiera element percepcyjny. Ale na pierwszym planie jest problem statystyczny, ponieważ ma on znacznie większy wpływ: mniejsze pojemniki ==> większa zmienność próbki w pojemnikach ==> więcej „nierównych” histogramów ==> większa trudność w porównaniu. Tak więc, IMO, każda wartościowa odpowiedź powinna przynosić poparcie teorii statystycznej (przynajmniej).

whuber

@whuber: Miałem na myśli fakt, że dystrybucja wygląda inaczej rozproszona na dwóch obrazach. Oczywiście ich wygląd nie ma nic wspólnego z tym, jak bardzo są rozproszeni.

nico

Innym podejściem byłoby wykreślenie różnych rozkładów na tym samym wykresie i użycie czegoś takiego jak alphaparametr w ggplot2celu rozwiązania problemów z wykreślaniem. Użyteczność tej metody będzie zależeć od różnic lub podobieństw w twojej dystrybucji, ponieważ zostaną one wykreślone z tymi samymi pojemnikami. Inną alternatywą byłoby wyświetlanie wygładzonych krzywych gęstości dla każdego rozkładu. Oto przykład tych opcji i innych opcji omówionych w wątku:

library(ggplot2)

df <- melt(
    data.frame( 
        x = rnorm(1000)
        , y = rnorm(1000, 0, 2)
    )
)


ggplot(data = df) + 
#   geom_bar(aes(x = value, fill = variable), alpha = 1/2)
#   geom_bar(aes(x = value)) + facet_grid(variable ~ .)
#   geom_density(aes(x = value, colour = variable))
#   stat_qq(aes(sample = value, colour = variable))

Gonić
źródło

Czy to nie sprowadza pytania do kwestii wyboru odpowiednich szerokości jądra i czy (i jak) można porównać dwie wygładzenia przy użyciu różnych szerokości jądra?

whuber

@ whuber - ważny punkt. Nie próbowałem sugerować, że krzywe gęstości byłyby metodą do końca, oferując po prostu inne alternatywy. Z tego postu jasno wynika, że w każdym podejściu są zalety i wady, więc zaoferował to jako kolejną realną alternatywę do wrzucenia do miksu.

Chase

W świetle tego głosuję nad twoją odpowiedzią +1.

whuber

Czyli chodzi o utrzymanie tego samego rozmiaru pojemnika lub utrzymanie takiej samej liczby pojemników? Widzę argumenty dla obu stron. Obejściem byłoby najpierw ujednolicenie wartości. Wtedy możesz utrzymać oba.

Xan
źródło

Działałoby to, gdy dwie wielkości próbek są podobne. Ale gdy są one różne, wspólny rozmiar pojemnika (nawet w standardowych jednostkach) może być odpowiedni dla jednego lub drugiego histogramu, ale nie dla obu. Jak poradziłbyś sobie z tą sprawą?

whuber

Może myślimy o różnych znaczeniach standaryzacji. Miałem na myśli tę, z którą powiązałem, na przykład jeśli jedna populacja ma stdev 5, a druga stdev 10, po standaryzacji oba miałyby stdev równe 1. Mogłyby wtedy być bardziej sprawiedliwie porównane z tym samym rozmiar pojemnika, ponieważ każdy pojemnik ma porównywalną liczbę pikseli i danych. A może miałeś problem z tym, że „odpowiedni rozmiar pojemnika” jest trochę czarną sztuką i jest unikalny dla każdego zestawu danych ...

Xan

Mamy takie samo znaczenie „standaryzuj”. Wybór rozmiaru pojemnika wymaga oceny i znajomości kontekstu, ale określenie go jako „czarnej sztuki” jest bardzo trudne : patrz np . Stats.stackexchange.com/q/798/919 .

whuber