Jakie informacje zawiera wykres polowy, którego nie ma histogram?

13

Histogramy dają dobre wyobrażenie o rozkładzie zmiennej. Wykresy pudełkowe próbują zrobić to samo, jednak nie dają tak dobrego obrazu rozkładu tej zmiennej.

Nie rozumiem, dlaczego ludzie używają wykresów pudełkowych. Histogramy są lepsze pod każdym względem. Czy jest powód, dla którego chciałbym użyć ich obu?

Jedyne, co myślę, że wykresy pudełkowe zapewniają: wartości odstające! Mówi nam, które obserwacje mogą być odstające.

Jan
źródło
1
Czy histogram jest gorszy pod każdym względem niż przedstawienie całej dystrybucji?
Anthony Martin
2
W zależności od tego, co chcesz, z wykresu ramkowego możesz mieć pewne dokładne wartości (np. Mediana, P75), których nie masz z histogramem. Wyświetla mniej informacji, ale jest bardziej syntetyczny. Chodzi mi o to, że nawet histogram jest uproszczeniem i marnotrawstwem informacji w porównaniu z całym rozkładem. Ale może być łatwiejszy w użyciu
Anthony Martin
2
Przeciwny punkt widzenia na temat użyteczności histogramów został dobrze wyrażony i dobrze zilustrowany w wysoko cenionym poście na stronie stats.stackexchange.com/a/51753 (który można znaleźć, przeszukując naszą witrynę pod kątem „histogramu”).
whuber
3
Interesująca myśl - ale zwiększenie rozmiaru pojemnika zmniejszyłoby histogram do postaci podobnej do wykresu pudełkowego, zachowując niefortunną zależność od wyboru punktów odcięcia. IMHO, prawdziwe zalety wykresów pudełkowych można najlepiej docenić, badając wykorzystanie przez Tukeya podsumowania N-liter do analizy eksploracyjnej danych wielowymiarowych i pamiętając, że obliczał on wtedy ołówkiem i papierem. W przypadku wizualizacji takich jak „wędrujący schematyczny ślad” inne jednoznaczne podsumowania odpowiedzi warunkowych, takie jak histogramy lub wykresy skrzypcowe, po prostu nie działałyby.
whuber
1
Dwie awarie (imo) histogramu występują, gdy jest kilka próbek lub gdy pola mają niewłaściwe rozmiary. Słabość dobrego wykresu pudełkowego (i myślę, że zmienność JMP, kiedy to mówię) to multimodalność i drobne szczegóły. Jednym z miejsc, w którym świeci wykres pudełkowy, jest kilka próbek. Podoba mi się również, gdy istnieje wiele zmiennych na różnych poziomach - dlatego wykres zmienności JMP.
EngrStudent

Odpowiedzi:

16

Fakt, że wykresy pudełkowe stanowią bardziej podsumowanie rozkładu, może być również postrzegany jako zaleta w niektórych przypadkach. Czasami, gdy porównujemy rozkłady, nie dbamy o ogólny kształt, ale raczej o to, gdzie rozkład leży względem siebie. Wykreślenie kwantyli obok siebie może być użytecznym sposobem na zrobienie tego bez rozpraszania nas innymi szczegółami, które mogą nas nie obchodzić.

dsaxton
źródło
1
To najlepsza odpowiedź. Wykresy pudełkowe są lepsze do porównywania rozkładów niż histogramy!
kjetil b halvorsen
14

W przypadku jednowymiarowym wykresy ramkowe dostarczają pewnych informacji, których nie zapewnia histogram (przynajmniej nie jawnie). Oznacza to, że zazwyczaj zapewnia medianę, 25. i 75. percentyl, min / max, która nie jest wartością odstającą i wyraźnie oddziela punkty uważane za wartości odstające. To wszystko może być „oczodołowe” z histogramu (i może lepiej być oczko w przypadku wartości odstających).

Jednak znacznie większą zaletą jest porównywanie dystrybucji w wielu różnych grupach jednocześnie. Przy ponad 10 grupach jest to męczące zadanie z histogramami obok siebie, ale bardzo łatwe z wykresami pudełkowymi.

Jak wspomniałeś, wykresy skrzypiec (lub wykresy fasoli) są nieco bardziej pouczającymi alternatywami. Wymagają one jednak nieco więcej wiedzy statystycznej niż wykresy pudełkowe (tzn. Jeśli przedstawiane są statystycznym odbiorcom, może to być nieco bardziej onieśmielające), a wykresy pudełkowe były o wiele dłuższe niż estymatory gęstości jądra, stąd ich większa popularność.

Cliff AB
źródło
3
+1. Korekta, wykresy pudełkowe zapewniają mediany, a nie środki.
Greenparker
3
Każdy może mieć rację. Wykresy pudełkowe, jak zwykle drukowane, pokazują mediany (widziałem to zaprzeczone, ale nie przypominam sobie, aby widział przykład). Ale niektóre implementacje pozwalają również pokazać środki. To często dobry pomysł.
Nick Cox
Dzięki za zwrócenie na to uwagi. Ciągle (błędnie) myślę, że jest to zwykle środek, który w skrajnych przypadkach może prowadzić do bardzo dziwnych fabuł.
Cliff AB
1
byłoby miło, gdyby były do ​​tego dołączone zdjęcia, które pokazują wartość porównań równoległych z wykresami pudełkowymi a histogramami
Rudolf Olah
7
  1. Jeśli pokażę ci histogram i zapytam, gdzie jest mediana, być może będziesz miał dość czasu, by go rozgryźć ... a wtedy dostaniesz tylko jego przybliżenie. Jeśli zrobię to samo z fabułą, masz ją natychmiast; jeśli tym jesteś zainteresowany, oczywiście fabuły wygrywają.

  2. Zgadzam się, że wykresy pudełkowe nie są tak skuteczne, jak opis rozkładu pojedynczej próbki, ponieważ zmniejszają ją do kilku punktów i to niewiele mówi.

    Jeśli jednak porównujesz kilkadziesiąt dystrybucji, posiadanie wszystkich szczegółów każdej z nich może być większą ilością informacji niż jest to łatwe do porównania - możesz zredukować te informacje do mniejszej liczby rzeczy do porównania.

  3. Jeśli więcej informacji jest lepszych, istnieje wiele lepszych możliwości niż histogram; na przykład wykres łodygi i liścia lub wykres ekdf / kwantyl.

    Lub możesz dodać informacje do histogramu:

histogram z marginalnym wykresem pudełkowym wykres rugowy z fluktuacją histogram z paskiem

(wykresy z tej odpowiedzi )

Pierwszy z nich - dodanie wąskiego wykresu pudełkowego do marginesu - daje wszelkie korzyści, które można uzyskać z obu ekranów.

Glen_b - Przywróć Monikę
źródło
1

Wykresy słupkowe zapewniają jedynie zakres częstotliwości obserwacji, podczas gdy wykresy ramkowe lepiej wskazują, gdzie leży kilka parametrów rozkładu, przykładowa średnia i wariancje, których wykresy słupkowe nie mogą. Wykresy pudełkowe są zatem stosowane jako skuteczne narzędzie porównawcze, jeśli ma się kilka rozkładów.

Shiv_90
źródło
Rzadko zdarza się, aby wykres pudełkowy wyświetlał średnią - prawie zawsze używają median - i nigdy nie reprezentują wariancji bezpośrednio. Należy również zauważyć, że wielkości te zwykle nie są uważane za „parametry rozkładu”: są to statystyki opisowe dla partii danych .
whuber
Dokładnie, są dobrym narzędziem do opisu rozkładu bez wykonywania zbyt wielu obliczeń. I wyświetlają więcej median, a ponieważ w wielu przypadkach oba miary się pokrywają, wykresy pudełkowe są dobrym narzędziem do przybliżenia średniej.
Shiv_90,
Twój komentarz wydaje się nadal mylić dane z podstawową dystrybucją . Bardzo rzadko średnia równa się medianie w dowolnej partii danych. Ponadto jednym z lepszych i najczęstszych zastosowań wykresu pudełkowego jest identyfikacja asymetrii, co zwykle implikuje ważną różnicę między średnią a medianą. Jedną z podstawowych zasad oryginalnej koncepcji wykresu pudełkowego jest to, że jest to solidne narzędzie eksploracyjne - co oznacza, że ​​lepiej nie opierać się na wrażliwych statystykach, takich jak średnia lub wariancja.
whuber