Pracuję nad stworzeniem strony internetowej, która wyświetla dane ze spisu dla wybranego przez użytkownika wielokąta i chciałbym graficznie pokazać rozkład różnych parametrów (jeden wykres na parametr).
Dane zwykle mają następujące właściwości:
- Wielkość próby jest zwykle duża (powiedzmy około 10 000 punktów danych)
- Zakres wartości wydaje się być dość duży (na przykład minimalna populacja może być mniejsza niż 100, a maksymalna może wynosić około 500 000)
- q1 zwykle jest bliskie minimum (powiedzmy 200), podczas gdy q2 i q3 będą w granicach 10.000
- Nie wygląda to jak normalna dystrybucja
Nie jestem statystykiem i dlatego mój opis może nie być do końca jasny.
Chciałbym pokazać tę dystrybucję na wykresie, który będzie widoczny dla obywateli (laika, jeśli chcesz).
Wolałbym używać histogramu, ale nie jest to możliwe ze względu na duży zakres wartości, dzięki czemu tworzenie koszy nie jest tak naprawdę łatwe i proste.
Z tego, co niewiele wiem o statystykach, wykres pudełkowy jest często używany do wyświetlania tego rodzaju danych, ale uważam, że dla laika rozszyfrowanie wykresu pudełkowego nie jest łatwe.
Jakie są moje opcje, aby wyświetlać te dane w łatwy do zrozumienia sposób?
źródło
Odpowiedzi:
Fabuła nie jest tak skomplikowana. W końcu wystarczy obliczyć trzy kwartyle oraz min i max, które określają zakres; subtelność powstaje, gdy chcemy narysować wąsy i zaproponowano różne metody. Na przykład, w polu wykresu Tukeya wartości przekraczające 1,5 razy interkwartyl z pierwszego lub trzeciego kwartylu byłyby uważane za wartości odstające i wyświetlane jako proste punkty. Zobacz także Metody prezentacji informacji statystycznych: Wykres pudełkowy dla dobrego przeglądu , autorstwa Kristin Potter. R oprogramowanie realizuje nieco inną zasadę, ale kod źródłowy jest dostępny, jeśli chcesz studiować (patrz
boxplot()
iboxplot.stats()
Funkcje). Jednak nie jest to bardzo przydatne, gdy chodzi o identyfikację wartości odstających z bardzo wypaczonej dystrybucji (ale patrz: Skorygowany wykres pudełkowy dla wypaczonych dystrybucji , autorstwa Huberta i Vandervierena, CSDA 2008 52 (12)).Jeśli chodzi o wizualizację online, proponuję spojrzeć na Protovis, który jest darmowym zestawem narzędzi js do interaktywnych wyświetlaczy internetowych. Strona przykładów zawiera bardzo ilustracje tego, co można z tym osiągnąć, w kilku liniach.
źródło
Możesz także rzucić okiem na beanplots .
[ Źródło ]
Wdrożony w pakiecie R przez Peter Kampstra.
źródło
Sugeruję, abyś wytrwał z histogramami. Są one znacznie szerzej rozumiane niż alternatywy. Użyj skali dziennika, aby poradzić sobie z dużym zakresem wartości. Oto przykład, który przygotowałem w ciągu kilku minut w Stata:
Przyznaję, że etykiety numeryczne na osi X nie były całkowicie proste lub automatyczne, ale kiedy tworzysz stronę internetową, jestem pewien, że twoje umiejętności programistyczne są wystarczające wyzwanie!
źródło
Oto funkcja Matlab do kreślenia wielu histogramów obok siebie w 2D jako alternatywa dla wykresu ramkowego. Zobacz zdjęcie na górze. A oto kolejny
Pasek gęstości jest kolejną alternatywą dla wykresu pudełkowego. Jest to zacieniony monochromatyczny pasek, którego ciemność w punkcie jest proporcjonalna do gęstości prawdopodobieństwa ilości w tym punkcie. To jest implementacja R paska gęstości
źródło
źródło
Jeśli kierujesz reklamy do ogólnej populacji (tj. Odbiorców nieobeznanych statystycznie), powinieneś skupić się na oczach, a nie na statystycznej dokładności.
Zapomnij o skrzynkach, nie mówiąc już o skrzypcach (osobiście uważam je za bardzo trudne do odczytania)! Gdybyś zapytał przeciętnego człowieka z ulicy, co to jest kwantyl, przeważnie zapadłaby cisza z szeroko otwartymi oczami ...
Powinieneś używać wykresów słupkowych, wykresów bąbelkowych, może niektórych wykresów kołowych (brrrr). Zapomnij o paskach błędów (chociaż umieściłbym SD w tekście gdzieś, gdzie ma to zastosowanie).
Używaj kolorów, kształtów, grubych linii, 3D. Każdy wykres powinien być unikalny i natychmiast łatwy do zrozumienia, nawet bez konieczności czytania wszystkich legend / osi itp. Inteligentnie korzystaj z map, kolorując je.
Informacja jest piękna, jest bardzo dobrym źródłem pomysłów. Spójrz na przykład na tę tabelę: Kofeina i kalorie : każdy może to zrozumieć i jest przyjemny dla oka.
I, oczywiście, spójrz na prace Edwarda Tufte'a.
źródło
Raczej lubię fabuły skrzypiec , ponieważ daje to wyobrażenie o kształcie dystrybucji. Jeśli jednak problemem jest duży zakres wartości, być może lepiej byłoby sporządzić dziennik danych niż wartości surowe, co spowodowałoby wybranie rozmiarów skrzynek dla histogramów itp. Ponieważ wyświetlacz jest dla laików, nie należy nie wspominaj dzienników i zaznacz oś 10, 100, 1000, 10000, 100000, 1000000 itp.
źródło