Załóżmy, że mam dwa rozkłady, które chcę szczegółowo porównać, tj. W taki sposób, aby kształt, skala i przesunięcie były łatwo widoczne. Jednym dobrym sposobem na to jest wykreślenie histogramu dla każdej dystrybucji, umieszczenie ich w tej samej skali X i ułożenie jednego pod drugim.
W jaki sposób należy to zrobić? Czy oba histogramy powinny używać tych samych granic bin, nawet jeśli jeden rozkład jest znacznie bardziej rozproszony niż drugi, jak na zdjęciu 1 poniżej? Czy binowanie powinno być wykonywane niezależnie dla każdego histogramu przed powiększeniem, jak na obrazku 2 poniżej? Czy jest w tym jakaś dobra zasada?
data-visualization
histogram
pdf
binning
dsimcha
źródło
źródło
Odpowiedzi:
Myślę, że musisz użyć tych samych pojemników. W przeciwnym razie umysł nabierze na ciebie sztuczki. Normalna (0,2) wygląda bardziej rozproszona w porównaniu do Normalnej (0,1) na zdjęciu nr 2 niż na zdjęciu nr 1. Nie ma to nic wspólnego ze statystykami. Wygląda na to, że Normalny (0,1) przeszedł na „dietę”.
-Ralph Winters
Punkty środkowe i punkty końcowe histogramu mogą również zmieniać postrzeganie dyspersji. Zauważ, że w tym aplecie maksymalny wybór przedziału oznacza zakres> 1,5 - ~ 5, podczas gdy minimalny wybór przedziału oznacza zakres <1 -> 5,5
http://www.stat.sc.edu/~west/javahtml/Histogram.html
źródło
Innym podejściem byłoby wykreślenie różnych rozkładów na tym samym wykresie i użycie czegoś takiego jak
alpha
parametr wggplot2
celu rozwiązania problemów z wykreślaniem. Użyteczność tej metody będzie zależeć od różnic lub podobieństw w twojej dystrybucji, ponieważ zostaną one wykreślone z tymi samymi pojemnikami. Inną alternatywą byłoby wyświetlanie wygładzonych krzywych gęstości dla każdego rozkładu. Oto przykład tych opcji i innych opcji omówionych w wątku:źródło
Czyli chodzi o utrzymanie tego samego rozmiaru pojemnika lub utrzymanie takiej samej liczby pojemników? Widzę argumenty dla obu stron. Obejściem byłoby najpierw ujednolicenie wartości. Wtedy możesz utrzymać oba.
źródło