Czy „w porządku” jest dodanie pionowej linii do histogramu w celu wizualizacji wartości średniej?
Wydaje mi się to w porządku, ale nigdy nie widziałem tego w podręcznikach i tym podobnych, więc zastanawiam się, czy istnieje jakaś konwencja, aby tego nie robić?
Wykres dotyczy pracy semestralnej, chcę tylko upewnić się, że nie złamię przypadkowo jakiejś bardzo ważnej zasady niewypowiedzianych statystyk. :)
Odpowiedzi:
Oczywiście, czemu nie?
Oto przykład (jeden z kilkudziesięciu, które znalazłem przy prostym wyszukiwaniu w Google):
(Źródło obrazu to blog mierzący użyteczność tutaj .)
Widziałem średnie, średnie plus lub minus odchylenie standardowe, różne kwantyle (takie jak mediana, kwartyle, 10 i 90 percentyle) wyświetlane na różne sposoby.
Zamiast rysować linię w poprzek wykresu, możesz zaznaczyć informacje wzdłuż dolnej części wykresu:
Jest tu przykład (jeden z wielu do znalezienia) z wykreśleniem pola u góry zamiast u dołu, tutaj .
Czasami ludzie zaznaczają w danych:
(Lekko podskoczyłem lokalizacje danych, ponieważ wartości zostały zaokrąglone do liczb całkowitych i nie było dobrze widać gęstości względnej).
Jest to przykład tego rodzaju, wykonane w Stata, na tej stronie (patrz trzeci tutaj )
Histogramy są lepsze z odrobiną dodatkowych informacji - same w sobie mogą wprowadzać w błąd
Musisz tylko wyjaśnić, z czego składa się Twoja fabuła! (Na początek chciałbyś mieć lepszy tytuł i etykietę osi X niż ja tu użyłem. Plus wyjaśnienie w podpisie cyfrowym wyjaśniające, co na nim zaznaczyłeś).
-
Ostatnia fabuła:
-
Moje wykresy są generowane w R.
Edytować:
Jak przypuszczał @gung,
abline(v=mean...
użyto go do narysowania linii środkowej w poprzek wykresu irug
użyto do narysowania wartości danych (chociaż tak naprawdę użyłem,rug(jitter(...
ponieważ dane zostały zaokrąglone do liczb całkowitych).Oto sposób wykonania wykresu pudełkowego między histogramem a osią:
Nie zamierzam wymieniać, po co wszystko jest, ale możesz sprawdzić argumenty w pomocy (
?boxplot
), aby dowiedzieć się, do czego służą i grać z nimi sam.Nie jest to jednak ogólne rozwiązanie - nie gwarantuję, że zawsze będzie działać tak dobrze, jak tutaj (pamiętaj, że już zmieniłem opcje
at
iboxwex
*). Jeśli nie napiszesz inteligentnej funkcji, która zajmie się wszystkim, musisz zwrócić uwagę na to, co wszystko robi, aby upewnić się, że robi to, co chcesz.Oto, jak stworzyć dane, których użyłem (próbowałem pokazać, w jaki sposób regresja Theila była w stanie poradzić sobie z kilkoma wpływowymi wartościami odstającymi). Tak się złożyło, że były to dane, którymi się bawiłem, kiedy po raz pierwszy odpowiedziałem na to pytanie.
* - odpowiednia wartość dla
at
to około -0,5-krotność wartościboxwex
; byłoby to dobre ustawienie domyślne, jeśli napiszesz funkcję, aby to zrobić;boxwex
musiałby zostać przeskalowany w sposób, który odnosi się do skali y (wysokość) wykresu pudełkowego; Sugerowałbym 0,04 do 0,05 razy górna granica y może często być w porządku.Kod marginalnego wykresu paskowego:
źródło
abline(v=mean(Davis2[,2]))
Irug(Davis2[,2])
przypuszczam, ale jak klin Wykres pudełkowy tam?boxplot
funkcji. Pomiędzyboxplot
iboxp
możesz zrobić kilka dość sprytnych rzeczy przy niewielkim wysiłku.at
iboxwex
tak dalej ... ale w najlepszym razie robię tylko kilka takich fabuł rocznie i za każdym razem wpisywanie? I rysowanie odpowiednich opcji zajmuje kilka sekund za każdym razem. Uznałem, że łatwiej jest po prostu zwrócić uwagę na to, co robię.Oczywiście, że możesz. Pamiętaj tylko, aby wyraźnie oznaczyć / wskazać, co oznacza linia, i unikać nadmiernego zajmowania fabuły.
Nie ma nic gorszego niż wykres, który przekazuje zbyt wiele informacji, aby można je było łatwo zrozumieć. Tabela jest często pomijanym sposobem wyświetlania statystyk podsumowujących w jasnej, zwięzłej sprawie.
źródło
Poprzednie odpowiedzi stanowią doskonałe punkty, ale tutaj należy dodać jedną z podstawowych zasad.
Średnia to środek ciężkości rozkładu, a więc punkt obrotu histogramu. To tutaj rozkład byłby zrównoważony. Istnieje więc wzajemna relacja: nie tylko średnia może pomóc ci myśleć o histogramie, ale także histogram może pomóc ci myśleć o średniej. Jest to nawet bardziej przydatne, gdy rozkład jest wypaczony, a średnia rozkładu niekoniecznie jest pośrodku.
źródło
Nie widzę z tym problemu, widzę to , to i to jako przykłady.
źródło