Pochodzę ze środowisk ekonomicznych i zazwyczaj w tej dyscyplinie statystyki podsumowujące zmienne są przedstawione w tabeli. Chciałbym je jednak nakreślić.
Mógłbym zmodyfikować wykres pudełkowy, aby wyświetlał średnią, odchylenie standardowe, minimum i maksimum, ale nie chcę tego robić, ponieważ wykresy pudełkowe są tradycyjnie używane do wyświetlania median oraz Q1 i Q3.
Wszystkie moje zmienne mają różne skale. Byłoby wspaniale, gdyby ktoś mógł zasugerować sensowny sposób, w jaki mógłbym wykreślić te podsumowujące statystyki. Mogę pracować z R lub Statą.
r
data-visualization
boxplot
Ridhima
źródło
źródło
R
polecenia, to pytanie jest tutaj nie na temat. Ale wydaje się, że pytasz przede wszystkim o to, jak wyglądałaby dobra fabuła, a po drugie o to, jak ją stworzyć. Jeśli tak, sugeruję usunięcie „z R” z tytułu i być może stwierdzenie w treści, że maszR
dostępne.Odpowiedzi:
Istnieje powód, dla którego wykres pudełkowy Tukeya jest uniwersalny, można go stosować do danych pochodzących z różnych rozkładów, od Gaussa do Poissona itp. Mediana, MAD (mediana bezwzględnego odchylenia) lub IQR (zakres międzykwartylowy) są bardziej miarodajnymi miarami, gdy dane odbiegają od normalność. Jednak średnie i SD są bardziej podatne na wartości odstające i należy je interpretować w odniesieniu do rozkładu podstawowego. Poniższe rozwiązanie jest bardziej odpowiednie dla danych normalnych lub logarytmicznych. Możesz przeglądać wybór solidnych środków tutaj i odkrywania pakiet WRS R tutaj .
Dodatkowo, dodając
+ geom_jitter()
lub+ geom_point()
do powyższego kodu, możesz jednocześnie wizualizować wartości surowych danych.Podziękowania dla @Roland za wskazanie fabuły skrzypiec . Ma to tę zaletę, że wizualizuje gęstość prawdopodobieństwa w tym samym czasie, co statystyka podsumowująca:
Oba przykłady pokazano poniżej.
źródło
Istnieją niezliczone możliwości.
Jedną z używanych przeze mnie opcji, która pozwala uniknąć pomyłek ze wykresami pudełkowymi (przy założeniu, że masz mediany lub oryginalne dane), jest wykreślenie wykresu pudełkowego i dodanie symbolu, który oznacza średnią (mam nadzieję, że z legendą, aby to wyraźnie zaznaczyć). Wspomniana jest ta wersja wykresu pudełkowego, która dodaje znacznik średniej, na przykład w Frigge i wsp. (1989) [1]:
Lewy wykres pokazuje symbol + jako znacznik średni, a prawy wykres wykorzystuje trójkąt na krawędzi, dostosowując średni znacznik z wykresu wiązki i podparcia Doane & Tracy [2].
Zobacz także ten post SO i ten
Jeśli nie masz (lub naprawdę nie chcesz pokazać) mediany, potrzebny będzie nowy wykres, a wtedy dobrze byłoby, aby był wizualnie odmienny od wykresu pudełkowego.
Być może coś takiego:
... która rysuje minimum, maksimum, średnią i średnią sd dla każdej próbki przy użyciu różnych symboli, a następnie rysuje prostokąt, a może lepiej, coś takiego:±
... która rysuje minimum, maksimum, średnią i średnią sd dla każdej próbki za pomocą różnych symboli, a następnie rysuje linię (w rzeczywistości jest to obecnie prostokąt, jak poprzednio, ale narysowany wąsko; należy go zmienić na rysunek linia)±
Jeśli twoje liczby są w bardzo różnych skalach, ale wszystkie są dodatnie, możesz rozważyć pracę z logami lub możesz zrobić małe wielokrotności z różnymi (ale wyraźnie zaznaczonymi) skalami
Kod (obecnie niezbyt „miły” kod, ale w tej chwili to tylko odkrywanie pomysłów, nie jest to samouczek na temat pisania dobrego kodu R):
[1] Frigge, M., DC Hoaglin i B. Iglewicz (1989),
„Niektóre realizacje fabuły pudełkowej”.
American Statistician , 43 (luty): 50-54.
[2] Doane DP i RL Tracy (2000),
„Korzystanie z wyświetlaczy Beam i Fulcrum do badania danych”
American Statistician , 54 (4): 289–290, listopad
źródło