Histogramy dają dobre wyobrażenie o rozkładzie zmiennej. Wykresy pudełkowe próbują zrobić to samo, jednak nie dają tak dobrego obrazu rozkładu tej zmiennej.
Nie rozumiem, dlaczego ludzie używają wykresów pudełkowych. Histogramy są lepsze pod każdym względem. Czy jest powód, dla którego chciałbym użyć ich obu?
Jedyne, co myślę, że wykresy pudełkowe zapewniają: wartości odstające! Mówi nam, które obserwacje mogą być odstające.
Odpowiedzi:
Fakt, że wykresy pudełkowe stanowią bardziej podsumowanie rozkładu, może być również postrzegany jako zaleta w niektórych przypadkach. Czasami, gdy porównujemy rozkłady, nie dbamy o ogólny kształt, ale raczej o to, gdzie rozkład leży względem siebie. Wykreślenie kwantyli obok siebie może być użytecznym sposobem na zrobienie tego bez rozpraszania nas innymi szczegółami, które mogą nas nie obchodzić.
źródło
W przypadku jednowymiarowym wykresy ramkowe dostarczają pewnych informacji, których nie zapewnia histogram (przynajmniej nie jawnie). Oznacza to, że zazwyczaj zapewnia medianę, 25. i 75. percentyl, min / max, która nie jest wartością odstającą i wyraźnie oddziela punkty uważane za wartości odstające. To wszystko może być „oczodołowe” z histogramu (i może lepiej być oczko w przypadku wartości odstających).
Jednak znacznie większą zaletą jest porównywanie dystrybucji w wielu różnych grupach jednocześnie. Przy ponad 10 grupach jest to męczące zadanie z histogramami obok siebie, ale bardzo łatwe z wykresami pudełkowymi.
Jak wspomniałeś, wykresy skrzypiec (lub wykresy fasoli) są nieco bardziej pouczającymi alternatywami. Wymagają one jednak nieco więcej wiedzy statystycznej niż wykresy pudełkowe (tzn. Jeśli przedstawiane są statystycznym odbiorcom, może to być nieco bardziej onieśmielające), a wykresy pudełkowe były o wiele dłuższe niż estymatory gęstości jądra, stąd ich większa popularność.
źródło
Jeśli pokażę ci histogram i zapytam, gdzie jest mediana, być może będziesz miał dość czasu, by go rozgryźć ... a wtedy dostaniesz tylko jego przybliżenie. Jeśli zrobię to samo z fabułą, masz ją natychmiast; jeśli tym jesteś zainteresowany, oczywiście fabuły wygrywają.
Zgadzam się, że wykresy pudełkowe nie są tak skuteczne, jak opis rozkładu pojedynczej próbki, ponieważ zmniejszają ją do kilku punktów i to niewiele mówi.
Jeśli jednak porównujesz kilkadziesiąt dystrybucji, posiadanie wszystkich szczegółów każdej z nich może być większą ilością informacji niż jest to łatwe do porównania - możesz zredukować te informacje do mniejszej liczby rzeczy do porównania.
Jeśli więcej informacji jest lepszych, istnieje wiele lepszych możliwości niż histogram; na przykład wykres łodygi i liścia lub wykres ekdf / kwantyl.
Lub możesz dodać informacje do histogramu:
(wykresy z tej odpowiedzi )
Pierwszy z nich - dodanie wąskiego wykresu pudełkowego do marginesu - daje wszelkie korzyści, które można uzyskać z obu ekranów.
źródło
Wykresy słupkowe zapewniają jedynie zakres częstotliwości obserwacji, podczas gdy wykresy ramkowe lepiej wskazują, gdzie leży kilka parametrów rozkładu, przykładowa średnia i wariancje, których wykresy słupkowe nie mogą. Wykresy pudełkowe są zatem stosowane jako skuteczne narzędzie porównawcze, jeśli ma się kilka rozkładów.
źródło