Pokaż średnią zamiast mediany w boxplot [zamknięte]

15

Podczas kreślenia wykresu pudełkowego za pomocą python matplotblib linie w połowie wykresu są medianą rozkładu.

Czy istnieje możliwość, aby zamiast tego linia była średnia. Lub nakreśl go obok w innym stylu.

Ponadto, ponieważ linia jest często medianą, czy naprawdę dezorientuje moich czytelników, jeśli ustawię ją jako średnią (oczywiście dodam notatkę, co jest środkową linią)?

Peter Smit
źródło

Odpowiedzi:

25

Ten kod powoduje, że wykresy pudełkowe następnie umieszczają okrąg oznaczający średnią dla każdego pudełka. Możesz użyć innego symbolu, określając argument znacznika w wywołaniu do scatter.

import numpy as np
import pylab

# 3 boxes
data = [[np.random.rand(100)] for i in range(3)]
pylab.boxplot(data)

# mark the mean    
means = [np.mean(x) for x in data]
pylab.scatter([1, 2, 3], means)

alternatywny tekst

ars
źródło
3
Zobacz stackoverflow.com/questions/2492947/... dla rozwiązań wykorzystujących R
James
1
@James: Nie staram się być palantem i wyróżniać cię, ale twój komentarz nasuwa pytanie. Dlaczego za każdym razem, gdy ktoś na tym forum wyraźnie pyta, jak zrobić coś w języku innym niż R (skoro R jest de facto domyślny), ktoś zawsze musi sugerować użycie R? Nie uważam wiele za rozmowę. Programiści SAS zazwyczaj nie komentują „Jak zrobić X w R?” pytania z „Oto jak to zrobić w SAS ...”. Wiem, że ludzie kochają R (i ja też), ale ...
Josh Hemann
20

Aby odpowiedzieć na twoje drugie pytanie: Tak, myślę, że wprowadzanie linii na środku zamiast mediany będzie mylące. Dokładne zasady kontrolujące długość „wąsów” (jeśli istnieją) i sposób traktowania wartości odstających są różne, ale wszyscy trzymają się pola używanego przez Tukeya jako wyświetlającego medianę oraz dolne i górne kwartyle. W przypadku rozkładów o dużym nachyleniu średnia może być na zewnątrz ramką, co wyglądałoby bardzo dziwnie. Częstym zastosowaniem jest to, że mediana idzie w parze z przedziałem międzykwartylowym, podczas gdy średnia idzie w parze ze standardowym odchyleniem (lub standardowym błędem średniej, jeśli interesuje cię wnioskowanie, a nie opis danych). Jeśli chcesz pokazać środek wizualnie, użyłbym innego symbolu, aby go wyświetlić, aby uniknąć zamieszania.

jeden przystanek
źródło