Jakie są alternatywy dla fabuły?

20

Pracuję nad stworzeniem strony internetowej, która wyświetla dane ze spisu dla wybranego przez użytkownika wielokąta i chciałbym graficznie pokazać rozkład różnych parametrów (jeden wykres na parametr).

Dane zwykle mają następujące właściwości:

  1. Wielkość próby jest zwykle duża (powiedzmy około 10 000 punktów danych)
  2. Zakres wartości wydaje się być dość duży (na przykład minimalna populacja może być mniejsza niż 100, a maksymalna może wynosić około 500 000)
  3. q1 zwykle jest bliskie minimum (powiedzmy 200), podczas gdy q2 i q3 będą w granicach 10.000
  4. Nie wygląda to jak normalna dystrybucja

Nie jestem statystykiem i dlatego mój opis może nie być do końca jasny.

Chciałbym pokazać tę dystrybucję na wykresie, który będzie widoczny dla obywateli (laika, jeśli chcesz).

Wolałbym używać histogramu, ale nie jest to możliwe ze względu na duży zakres wartości, dzięki czemu tworzenie koszy nie jest tak naprawdę łatwe i proste.

Z tego, co niewiele wiem o statystykach, wykres pudełkowy jest często używany do wyświetlania tego rodzaju danych, ale uważam, że dla laika rozszyfrowanie wykresu pudełkowego nie jest łatwe.

Jakie są moje opcje, aby wyświetlać te dane w łatwy do zrozumienia sposób?

Devdatta Tengshe
źródło
co dokładnie wyświetlasz? Nie jest dla mnie jasne, jakie dane reprezentuje jeden punkt danych.
mpiktas,
1
Co powiesz na wykres gęstości jądra? statmethods.net/graphs/density.html
Roman Luštrik
@mpiktas: Moje dane to Dane spisowe dla wiosek. Moja witryna pozwoli użytkownikowi wybrać obszar na mapie, a następnie znajdzie wszystkie wioski w tym obszarze. Dane spisowe dla wsi składają się z różnych wartości, takich jak: populacja mężczyzn, populacja kobiet, średni dochód gospodarstwa domowego itp. Dla tej wioski. Mam nadzieję, że pokażę rozkład danych dla określonej wartości (np .: Całkowita liczba ludności) dla wszystkich wiosek należących do obszaru wybranego przez użytkownika.
Devdatta Tengshe,

Odpowiedzi:

13

Fabuła nie jest tak skomplikowana. W końcu wystarczy obliczyć trzy kwartyle oraz min i max, które określają zakres; subtelność powstaje, gdy chcemy narysować wąsy i zaproponowano różne metody. Na przykład, w polu wykresu Tukeya wartości przekraczające 1,5 razy interkwartyl z pierwszego lub trzeciego kwartylu byłyby uważane za wartości odstające i wyświetlane jako proste punkty. Zobacz także Metody prezentacji informacji statystycznych: Wykres pudełkowy dla dobrego przeglądu , autorstwa Kristin Potter. R oprogramowanie realizuje nieco inną zasadę, ale kod źródłowy jest dostępny, jeśli chcesz studiować (patrz boxplot()iboxplot.stats()Funkcje). Jednak nie jest to bardzo przydatne, gdy chodzi o identyfikację wartości odstających z bardzo wypaczonej dystrybucji (ale patrz: Skorygowany wykres pudełkowy dla wypaczonych dystrybucji , autorstwa Huberta i Vandervierena, CSDA 2008 52 (12)).

Jeśli chodzi o wizualizację online, proponuję spojrzeć na Protovis, który jest darmowym zestawem narzędzi js do interaktywnych wyświetlaczy internetowych. Strona przykładów zawiera bardzo ilustracje tego, co można z tym osiągnąć, w kilku liniach.

chl
źródło
3
Pracuję w badaniach biologicznych. Znam kilku kolegów (to znaczy ludzi z doktoratem), którzy tak naprawdę nie potrafią pojąć fabuły. Nie użyłbym ich, by dotrzeć do ogółu odbiorców.
nico
1
@nico To słuszna kwestia. Ale nie jest to powód, aby nie używać wydajnego podsumowania graficznego. Schematyczna ilustracja tego, co faktycznie robi wykres pudełkowy, może pomóc czytelnikowi.
chl
1
tak naprawdę zależy to od tego, kim są docelowi odbiorcy i jaki jest cel witryny. Wyjaśnienie wykresów pudełkowych na pewno by pomogło, ale niektórzy ludzie mają problem z koncepcją dystrybucji.
nico
@nico Tak, zgadzam się. Chociaż boxplot nie jest wspomniany w A Tour through the Visualization Zoo - ale są to dla dużych i złożonych zestawów danych, po prostu mi się podoba i przepraszam, że nie jest on zbyt często wykorzystywany w naukach eksperymentalnych. Nakładanie surowych danych jest sposobem na ułatwienie czytelnikowi wizualizacji dystrybucji.
chl
1
Wiem! Zawsze staram się „konwertować” moich współpracowników na wykresy pudełkowe, przynajmniej jeśli chodzi o pisanie artykułów, tworzenie prezentacji itp., Ale czasem tak jest!
nico
7

Sugeruję, abyś wytrwał z histogramami. Są one znacznie szerzej rozumiane niż alternatywy. Użyj skali dziennika, aby poradzić sobie z dużym zakresem wartości. Oto przykład, który przygotowałem w ciągu kilku minut w Stata: Histogram ze skalą logarytmiczną na osi wartości
Przyznaję, że etykiety numeryczne na osi X nie były całkowicie proste lub automatyczne, ale kiedy tworzysz stronę internetową, jestem pewien, że twoje umiejętności programistyczne są wystarczające wyzwanie!

jeden przystanek
źródło
Słuszna uwaga. Histogramy (lub wykresy gęstości z eksperymentem z przepustowością) są tutaj świetnym rozwiązaniem.
suncoolsu,
Masz całkowitą rację, że histogram jest najbardziej zrozumiałym sposobem pokazania rozkładu. Spróbuję wykonać histogramy dla obu osi w skali logarytmicznej.
Devdatta Tengshe,
2
Sugeruję jedynie użycie skali logarytmicznej dla osi X. Nie sądzę, aby skala logarytmiczna dla osi częstotliwości byłaby dobrym pomysłem, ponieważ wtedy zacieniony obszar każdego słupka histogramu nie byłby proporcjonalny do liczby obserwacji.
onestop
5

Oto funkcja Matlab do kreślenia wielu histogramów obok siebie w 2D jako alternatywa dla wykresu ramkowego. Zobacz zdjęcie na górze. A oto kolejny

Pasek gęstości jest kolejną alternatywą dla wykresu pudełkowego. Jest to zacieniony monochromatyczny pasek, którego ciemność w punkcie jest proporcjonalna do gęstości prawdopodobieństwa ilości w tym punkcie. To jest implementacja R paska gęstości

George Dontas
źródło
1
(+1) Zapomniałem o tym. Może się przydać.
chl
1
Właśnie znalazłem nieużywaną wersję PDF Wyświetlanie niepewności z cieniowaniem .
chl
@chl: ten link nie działa
kjetil b halvorsen
4

x%x=0,10,20,...,100

mpiktas
źródło
3
Cytując mojego przyjaciela: jeśli chcesz „ukryć” coś w papierze, umieść to w tekście, a nie na rysunku. Jeśli chcesz się upewnić, że nikt tego nie czyta, umieść go w tabeli! ;) Oczywiście tylko żartuję, ale posiadam stronę internetową z interaktywnymi mapami, aby użytkownicy mogli kliknąć itd. Wszystko po to, żeby dostać stolik ... cóż, to by było rozczarowujące!
nico
@nico, tak, ale czasami tabele są znacznie bardziej pouczające niż wykresy. Na przykład wolę tabelę niż zły wykres. W tym przypadku tabela nadal może być reprezentowana przez wykres, a ja zasugerowałem kwantyle, ponieważ nie mają problemów z wartościami odstającymi.
mpiktas,
Właśnie to robię obecnie (pokazując decyle na wykresie), ale po pokazaniu go niektórym z naszych docelowych odbiorców otrzymaliśmy informację zwrotną, że wykresy nie były łatwe do zrozumienia.
Devdatta Tengshe
2

Jeśli kierujesz reklamy do ogólnej populacji (tj. Odbiorców nieobeznanych statystycznie), powinieneś skupić się na oczach, a nie na statystycznej dokładności.

Zapomnij o skrzynkach, nie mówiąc już o skrzypcach (osobiście uważam je za bardzo trudne do odczytania)! Gdybyś zapytał przeciętnego człowieka z ulicy, co to jest kwantyl, przeważnie zapadłaby cisza z szeroko otwartymi oczami ...

Powinieneś używać wykresów słupkowych, wykresów bąbelkowych, może niektórych wykresów kołowych (brrrr). Zapomnij o paskach błędów (chociaż umieściłbym SD w tekście gdzieś, gdzie ma to zastosowanie).

Używaj kolorów, kształtów, grubych linii, 3D. Każdy wykres powinien być unikalny i natychmiast łatwy do zrozumienia, nawet bez konieczności czytania wszystkich legend / osi itp. Inteligentnie korzystaj z map, kolorując je.

Informacja jest piękna, jest bardzo dobrym źródłem pomysłów. Spójrz na przykład na tę tabelę: Kofeina i kalorie : każdy może to zrozumieć i jest przyjemny dla oka.

I, oczywiście, spójrz na prace Edwarda Tufte'a.

Nico
źródło
Uwaga: Nie sugerowałem, że użyje wykresów skrzypiec do swoich zastosowań, ale histogram z logarytmicznie rozmieszczonymi pojemnikami. Wykresy skrzypcowe były odpowiedzią na pytanie zawarte w tytule (które różniło się raczej od pytania w samym poście).
Dikran Torbacz
3
Prawdopodobnie spodoba ci się Many Eyes , dataviz , datavisualization.ch i Ideas2evidence , aby wymienić tylko kilka.
chl
2

Raczej lubię fabuły skrzypiec , ponieważ daje to wyobrażenie o kształcie dystrybucji. Jeśli jednak problemem jest duży zakres wartości, być może lepiej byłoby sporządzić dziennik danych niż wartości surowe, co spowodowałoby wybranie rozmiarów skrzynek dla histogramów itp. Ponieważ wyświetlacz jest dla laików, nie należy nie wspominaj dzienników i zaznacz oś 10, 100, 1000, 10000, 100000, 1000000 itp.

Dikran Torbacz
źródło