Czy właściwe jest wykreślenie średniej na histogramie?

13

Czy „w porządku” jest dodanie pionowej linii do histogramu w celu wizualizacji wartości średniej?

Wydaje mi się to w porządku, ale nigdy nie widziałem tego w podręcznikach i tym podobnych, więc zastanawiam się, czy istnieje jakaś konwencja, aby tego nie robić?

Wykres dotyczy pracy semestralnej, chcę tylko upewnić się, że nie złamię przypadkowo jakiejś bardzo ważnej zasady niewypowiedzianych statystyk. :)

Gość
źródło
Dlaczego nie. Aby dodać komentarz. Średnia jest wartością podsumowującą, podobnie jak histogram. Możesz zmieniać stopień dostarczanych informacji, zmieniając na przykład rozmiar wiadra histogramu. Jednak zwykle histogram zawiera więcej informacji niż tylko średnią. Możesz w rzeczywistości oszacować średnią wartość z histogramu. Myślę, że dlatego zwykle nie są one dostarczane razem.
Simone
Czasami widzi się histogramy z nałożonym rozkładem (np. Najczęściej z mojego doświadczenia, rozkład normalny wykreślany przy użyciu średniej próbki i odchylenia standardowego.) Co robi to samo (i nieco więcej) jak narysowanie linii pionowej (wskazując, gdzie próbka średnia jest ze szczytem krzywej.)
James Stanley

Odpowiedzi:

30

Oczywiście, czemu nie?

histogram ze średnią

Oto przykład (jeden z kilkudziesięciu, które znalazłem przy prostym wyszukiwaniu w Google):

hist ze średnią i medianą

(Źródło obrazu to blog mierzący użyteczność tutaj .)

Widziałem średnie, średnie plus lub minus odchylenie standardowe, różne kwantyle (takie jak mediana, kwartyle, 10 i 90 percentyle) wyświetlane na różne sposoby.

Zamiast rysować linię w poprzek wykresu, możesz zaznaczyć informacje wzdłuż dolnej części wykresu:

histogram z marginalnym wykresem pudełkowym

Jest tu przykład (jeden z wielu do znalezienia) z wykreśleniem pola u góry zamiast u dołu, tutaj .

Czasami ludzie zaznaczają w danych:

wykres rugowy z fluktuacją
(Lekko podskoczyłem lokalizacje danych, ponieważ wartości zostały zaokrąglone do liczb całkowitych i nie było dobrze widać gęstości względnej).

Jest to przykład tego rodzaju, wykonane w Stata, na tej stronie (patrz trzeci tutaj )

Histogramy są lepsze z odrobiną dodatkowych informacji - same w sobie mogą wprowadzać w błąd

Musisz tylko wyjaśnić, z czego składa się Twoja fabuła! (Na początek chciałbyś mieć lepszy tytuł i etykietę osi X niż ja tu użyłem. Plus wyjaśnienie w podpisie cyfrowym wyjaśniające, co na nim zaznaczyłeś).

-

Ostatnia fabuła:

histogram z paskiem

-

Moje wykresy są generowane w R.

Edytować:

Jak przypuszczał @gung, abline(v=mean...użyto go do narysowania linii środkowej w poprzek wykresu i rugużyto do narysowania wartości danych (chociaż tak naprawdę użyłem, rug(jitter(...ponieważ dane zostały zaokrąglone do liczb całkowitych).

Oto sposób wykonania wykresu pudełkowego między histogramem a osią:

hist(Davis2[,2],n=30)
boxplot(Davis2[,2],
  add=TRUE,horizontal=TRUE,at=-0.75,border="darkred",boxwex=1.5,outline=FALSE)

Nie zamierzam wymieniać, po co wszystko jest, ale możesz sprawdzić argumenty w pomocy ( ?boxplot), aby dowiedzieć się, do czego służą i grać z nimi sam.

Nie jest to jednak ogólne rozwiązanie - nie gwarantuję, że zawsze będzie działać tak dobrze, jak tutaj (pamiętaj, że już zmieniłem opcje ati boxwex*). Jeśli nie napiszesz inteligentnej funkcji, która zajmie się wszystkim, musisz zwrócić uwagę na to, co wszystko robi, aby upewnić się, że robi to, co chcesz.

Oto, jak stworzyć dane, których użyłem (próbowałem pokazać, w jaki sposób regresja Theila była w stanie poradzić sobie z kilkoma wpływowymi wartościami odstającymi). Tak się złożyło, że były to dane, którymi się bawiłem, kiedy po raz pierwszy odpowiedziałem na to pytanie.

 library("car")
 add <- data.frame(sex=c("F","F"),
       weight=c(150,130),height=c(NA,NA),repwt=c(55,50),repht=c(NA,NA))
 Davis2 <- rbind(Davis,add)

* - odpowiednia wartość dla atto około -0,5-krotność wartości boxwex; byłoby to dobre ustawienie domyślne, jeśli napiszesz funkcję, aby to zrobić; boxwexmusiałby zostać przeskalowany w sposób, który odnosi się do skali y (wysokość) wykresu pudełkowego; Sugerowałbym 0,04 do 0,05 razy górna granica y może często być w porządku.

Kod marginalnego wykresu paskowego:

 hist(Davis2[,2],n=30)
 stripchart(jitter(Davis2[,2],amount=.5),
       method="jitter",jitter=.5,pch=16,cex=.05,add=TRUE,at=-.75,col='purple3')
Glen_b - Przywróć Monikę
źródło
+1, są ładne; chcesz dodać kod? abline(v=mean(Davis2[,2]))I rug(Davis2[,2])przypuszczam, ale jak klin Wykres pudełkowy tam?
Gung - Przywróć Monikę
1
@gung Zobacz edycję, aby uzyskać krótkie szczegóły, w tym odtwarzalny przykład podobny do tego ze schematem pudełkowym. Naprawdę nie robi nic mądrzejszego niż wykorzystanie kilku argumentów boxplotfunkcji. Pomiędzy boxploti boxpmożesz zrobić kilka dość sprytnych rzeczy przy niewielkim wysiłku.
Glen_b
Mądrość na przestrzeni wieków: „Jeśli nie napiszesz inteligentnej funkcji, aby zająć się wszystkim, musisz zwrócić uwagę na to, co wszystko robi, aby upewnić się, że robi to, co chcesz” ;-).
Gung - Przywróć Monikę
Tak. Zastanawiałem się nawet nad napisaniem czegoś sprytnego do ustawienia ati boxwextak dalej ... ale w najlepszym razie robię tylko kilka takich fabuł rocznie i za każdym razem wpisywanie? I rysowanie odpowiednich opcji zajmuje kilka sekund za każdym razem. Uznałem, że łatwiej jest po prostu zwrócić uwagę na to, co robię.
Glen_b
@gung Zredagowałem, aby dać kod do utworzenia danych Davis2, których używałem. Mam nadzieję, że to pomaga.
Glen_b
3

Oczywiście, że możesz. Pamiętaj tylko, aby wyraźnie oznaczyć / wskazać, co oznacza linia, i unikać nadmiernego zajmowania fabuły.

Nie ma nic gorszego niż wykres, który przekazuje zbyt wiele informacji, aby można je było łatwo zrozumieć. Tabela jest często pomijanym sposobem wyświetlania statystyk podsumowujących w jasnej, zwięzłej sprawie.

TLJ
źródło
2

Poprzednie odpowiedzi stanowią doskonałe punkty, ale tutaj należy dodać jedną z podstawowych zasad.

Średnia to środek ciężkości rozkładu, a więc punkt obrotu histogramu. To tutaj rozkład byłby zrównoważony. Istnieje więc wzajemna relacja: nie tylko średnia może pomóc ci myśleć o histogramie, ale także histogram może pomóc ci myśleć o średniej. Jest to nawet bardziej przydatne, gdy rozkład jest wypaczony, a średnia rozkładu niekoniecznie jest pośrodku.

Nick Cox
źródło
1

Nie widzę z tym problemu, widzę to , to i to jako przykłady.

RS18
źródło