Jakie najlepsze praktyki należy stosować przygotowując działki?

40

Przygotowując działki, zwykle dokonuję własnych wyborów. Zastanawiam się jednak, czy istnieją jakieś najlepsze praktyki generowania wykresów.

Uwaga: komentarz Roba do odpowiedzi na to pytanie jest tutaj bardzo istotny.

użytkowników28
źródło

Odpowiedzi:

23

Zasady Tufte są bardzo dobrymi praktykami przy przygotowywaniu działek. Zobacz także jego książkę Beautiful Evidence

Zasady obejmują:

  • Zachowaj wysoki stosunek atramentu do danych
  • Usuń śmieci z wykresów
  • Nadaj elementowi graficznemu wiele funkcji
  • Pamiętaj o gęstości danych

Wyszukiwany termin to Wizualizacja informacji

Peter Smit
źródło
4
Wizualne wyświetlanie informacji ilościowych przez Tufte ( amazon.com/o/ASIN/0961392142/ref=nosim/gettgenedone-20 ) jest lepsze niż IMO Beautiful Evidence. Wszystkie cztery jego książki są dobre, a jeśli masz okazję uczestniczyć w jednym z jego kursów, zrób to.
Stephen Turner
5
Zgadzam się z większością tego, co mówi Tufte, ale muszę powiedzieć, że jego niskie dane: wykresy atramentu są po prostu idiotyczne. Myślę, że potrzeba mi 3-4 razy więcej czasu niż na standardowych wykresach pudełkowych. Domyślne R są znacznie lepsze (chociaż linie na końcach ogonów są niepotrzebne). Tradycyjne wykresy pudełkowe mają tę dodatkową zaletę, że mogą reprezentować wielkość próbki (z szerokością) i odchylenia standardowe (z wycięciami).
naught101 20.04.2012
2
+1 @ naught101 kilku innych podziela tę opinię pod adresem SO: stackoverflow.com/questions/6973394/...
Ben
15

Możemy zostać tutaj cały dzień, wskazując najlepsze praktyki, ale powinieneś zacząć od przeczytania Tufte. Moja podstawowa rekomendacja:

Nie komplikuj.

Często ludzie próbują załadować swoje wykresy informacjami. Ale tak naprawdę powinieneś mieć tylko jeden główny pomysł, który próbujesz przekazać, a jeśli ktoś nie dostanie twojej wiadomości prawie natychmiast, powinieneś przemyśleć, jak ją przedstawiłeś. Więc nie zaczynaj pracy nad wykresem, dopóki sam komunikat nie będzie wyraźny. Dotyczy to także brzytwy Ockhama.

Shane
źródło
1
Zgadzam się z większością tego punktu, ale myślę, że „bądź prosty”. może być niejasne. Chodzi przede wszystkim o to, abyś wiedział, co ma przekazać wykres. "Nie komplikuj." przedstawia kilka innych pomysłów, takich jak „Stosunek danych: atrament powinien być wysoki”, do czego zachęca Tufte, i „Przedstaw nie więcej niż trzy zmienne”, których Tufte odradza.
Thomas Levine
Oczywiście ta rada jest znacznie lepsza niż odwrotnie. Są jednak sytuacje, w których wykres jest z konieczności skomplikowany i wymaga szczegółowych, starannych i przemyślanych badań. Ale sama komplikacja powinna być tak prosta, jak to możliwe. Na przykład 25 wykresów w matrycy 5 x 5 może wymagać dłuższych badań, ale pomysł, że każdy pokazuje tylko niektóre dane, jest stosunkowo łatwy do uchwycenia.
Nick Cox,
12

Jedną z praktycznych zasad, której nie zawsze przestrzegam, ale która czasami jest przydatna, jest wzięcie pod uwagę, że prawdopodobne jest, że twój działka w pewnym momencie w przyszłości będzie

  • wysłane faksem,
  • skopiowane i / lub
  • reprodukowane w czerni i bieli.

Musisz postarać się, aby twoje działki były wystarczająco jasne, aby nawet jeśli zostaną niedokładnie odtworzone w przyszłości, informacje, które stara się przekazać, są nadal czytelne.

Thomas Levine
źródło
14
Myślę, że masz na myśli wysłane faksem w pewnym momencie w przeszłości ;)
hadley
+1 za to. Twój doniosły wątek, serce twojego artykułu, nie powinien być całkowicie niezrozumiały, ponieważ go wydrukowałem.
Fomite,
ta odpowiedź rozwiązuje podobny problem.
naught101 20.04.2012
8

Oprócz przekazywania jasnego przesłania zawsze staram się pamiętać o fabule:

  • rozmiary czcionek dla etykiet i legend powinny być wystarczająco duże, najlepiej taki sam rozmiar czcionki i czcionka użyte w końcowej publikacji.
  • szerokości linii powinny być wystarczająco duże (linie 1 pt mają tendencję do znikania, jeśli wykresy są nieznacznie zmniejszone). Próbuję przejść do szerokości linii od 3 do 5 pkt.
  • jeśli drukujesz wiele zestawów danych / krzywych z kolorem, upewnij się, że można je zrozumieć, jeśli są drukowane w czerni i bieli, np. używając innych symboli lub stylów linii oprócz koloru.
  • zawsze używaj formatu bezstratnego (lub zbliżonego do bezstratnego), np. formatu wektorowego, takiego jak pdf, ps lub svg, lub wysokiej rozdzielczości png lub gif (jpeg w ogóle nie działa i nigdy nie został zaprojektowany do grafiki liniowej).
  • przygotuj grafikę w ostatecznym formacie do wykorzystania w publikacji. Późniejsza zmiana proporcji może dać irytujące kształty czcionek lub symboli.
  • zawsze usuwaj niepotrzebne bałagany z programu do drukowania, takie jak nieużywane informacje histogramu, linie trendu (mało przydatne) lub domyślne tytuły.

Skonfigurowałem oprogramowanie do drukowania (matplotlib, ROOT lub root2matplotlib), aby domyślnie wykonywać większość tego prawa. Przed użyciem, gnuplotco wymagało tutaj dodatkowej opieki.

Benjamin Bannier
źródło
8

W dziedzinie fizyki obowiązuje zasada, że ​​cały artykuł / raport powinien być zrozumiały tylko na podstawie szybkiego spojrzenia na wykresy. Radziłbym więc przede wszystkim, aby były zrozumiałe.
Oznacza to również, że zawsze musisz sprawdzić, czy twoja publiczność zna jakąś fabułę - popełniłem kiedyś duży błąd, zakładając, że każdy naukowiec wie, co to są fabuły, a potem zmarnowałem godzinę, aby to wyjaśnić.

użytkowników88
źródło
Sympatie do doświadczenia z wykresami pudełkowymi, ale implikuje to (a) użycie stosunkowo prostego wariantu (np. Pokazanie mediany, kwartylów, 5% i 95% punktów i wszystkich punktów danych poza) zamiast pokazywania czegokolwiek na podstawie konwencji skoncentrowanej na 1,5 IQR; (b) dodanie podpisu z wyraźnymi konwencjami.
Nick Cox,
6

Oto moje wytyczne, oparte na najczęstszych błędach, które widzę (oprócz wszystkich innych dobrych punktów wymienionych)

  • Użyj wykresów rozrzutu, a nie wykresów liniowych, jeśli kolejność elementów nie jest istotna.
  • Przygotowując wykresy, które mają być porównywane, należy zastosować ten sam współczynnik skali dla wszystkich.
  • Jeszcze lepiej - znajdź sposób na połączenie danych na jednym wykresie (np. Wykresy pudełkowe są lepsze niż kilka histogramów do porównania dużej liczby rozkładów).
  • Nie zapomnij podać jednostek
  • Używaj legendy tylko wtedy, gdy musisz - generalnie łatwiej jest bezpośrednio opisywać krzywe.
  • Jeśli musisz użyć legendy, przenieś ją do fabuły, w puste miejsce.
  • W przypadku wykresów liniowych należy dążyć do współczynnika kształtu, który daje linie o przybliżeniu 45o względem strony .
Bossykena
źródło
„wykresy pudełkowe są lepsze niż kilka histogramów do porównania dużej liczby dystrybucji” - jest to prawdą tylko wtedy, gdy dane są nieimodalne i nie mają kurtozy ani innych cech, których nie można uchwycić przez wykresy pudełkowe.
naught101
6

Spójrz na bibliotekę graficzną R, ggplot2. Szczegóły znajdują się na stronie internetowej http://had.co.nz/ggplot2/ Pakiet ten generuje bardzo dobre domyślne wykresy, zgodne z zasadami Tufte, wytycznymi Cleveland i pakietem kolorów Ihaki.

visnut
źródło
6

W przypadku drukowania w kolorze należy wziąć pod uwagę, że osoby niewidome dla koloru mogą mieć problemy z rozróżnieniem elementów według samego koloru. Więc:

  • Użyj stylów linii do rozróżnienia linii.
  • Użyj dodatkowej masy w elementach, zwiększ szerokość linii co najmniej 2 pkt itp.
  • Używaj różnych znaczników, a także kolorów, aby rozróżniać punkty.
  • Używaj etykiet i adnotacji odnoszących się również do pozycji i stylu.
  • Odnosząc się do elementów wydruku w tekście, opisz je kolorem, względnym położeniem i stylem: „czerwona, górna krzywa kropka-kropka”
  • Użyj palety przyjaznej dla osób niewidomych. Zobacz http://www.vischeck.com/vischeck/ , http://jfly.iam.u-tokyo.ac.jp/color/#pallet . Mam prostą implementację palety w języku Python w ostatnim odwołaniu na code.google.com, poszukaj Python-Cudtools
Andrej Panjkov
źródło
Weź również pod uwagę fakt, że ktoś może wydrukować go na drukarce w skali szarości. Zrobiłem to wcześniej - użyłem domyślnych kolorów ggplot2 (które świetnie wyglądają na ekranie) do zadania, które następnie wydrukowałem w czerni i bieli, a połowy kolorów nie można było odróżnić od innych! * rumieniec *
naught101
4

To są wspaniałe sugestie. Zebraliśmy wiele materiałów na stronie http://biostat.mc.vanderbilt.edu/StatGraphCourse . Grupa statystyk w branży farmaceutycznej, środowisku akademickim i FDA również tworzy zasoby, które będą bardzo przydatne w badaniach klinicznych i powiązanych badaniach. Wiele nowych materiałów zostanie ujawnionych za miesiąc, ale wiele już jest - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph

Moja osobista ulubiona książka graficzna to Elements of Graphing Data autorstwa Williama Clevelanda.

Jeśli chodzi o oprogramowanie, moim zdaniem ciężko jest pokonać pakiety ggplot2 i sieci kratowej R. Stata obsługuje również doskonałą grafikę.

Frank Harrell
źródło
3

To zależy również od tego, gdzie nie chcesz publikować swoich działek. Zaoszczędzisz sobie wielu kłopotów, konsultując się z przewodnikiem dla autorów, zanim zaczniesz tworzyć działki na potrzeby czasopisma.

Zapisz również wykresy w formacie, który można łatwo zmodyfikować lub zapisać kod użyty do ich utworzenia. Możliwe, że musisz wprowadzić poprawki.

Matti Pastell
źródło
2

Inne odpowiedzi są zbyt sformułowane, aby były przekonujące, dlatego dam bardziej ogólną odpowiedź. Od dłuższego czasu zmagam się z tym pytaniem. Oferuję ten proces:

  1. Poznaj swoją wiadomość
  2. Poznaj swoich odbiorców
  3. Poznaj swoje ograniczenia
  4. Dostosuj wiadomość do odbiorców, biorąc pod uwagę ograniczenia

Sceptycznie podchodzę do ogólnych stwierdzeń, takich jak „bądź prosty” - co to znaczy? To zależy od publiczności. Niektórzy odbiorcy zjedzą styl Tufte. Ale niektórzy widzowie od czasu do czasu doceniają małe śmieci. Niektóre osoby nudzą się wykresami rozrzutu. Niektórzy ludzie lubią kolorowe tła. Czy tak źle jest zaangażować ich trochę, nawet jeśli zagrozisz „estetycznej” czystości? To do ciebie należy decyzja.

Reakcja publiczności będzie ważną informacją zwrotną, ale nie jedyną. Jeśli znajdziesz sposób, by zmierzyć ich zrozumienie przed i po prezentacji, zaczniesz rozumieć wpływ, jaki wywarłeś.

„Właściwa” odpowiedź będzie zależeć od tego rodzaju pytań:

  • Jakich mediów będziesz używać?

  • Czy tworzysz wykresy statyczne lub interaktywne?

  • Czy próbujesz opowiedzieć wcześniej zdefiniowaną historię (ekspozycję) lub zachęcić do eksperymentowania (eksploracji)?

  • W jakim stopniu chcesz, aby publiczność wyciągnęła własne wnioski?

  • W jakim stopniu chcesz, aby publiczność podążała za twoją historią?

  • W jakim stopniu chcesz, aby publiczność zakwestionowała twoje ustalenia?

Podsumowując, projektuj swoje materiały celowo, uwzględniając przekaz, odbiorców i ograniczenia.

David J.
źródło
„Angażować się” czy rozpraszać? Kolor może być w porządku, ale ostatecznie jesteś tutaj, jeśli chodzi o dane, a estetyka powinna służyć danym, a nie na odwrót.
naught101 20.04.2012
2

Jedną rzeczą, o której pamiętam, jak wspomniałem Tufte, a której nie ma w innych odpowiedziach, jest mapowanie - to znaczy, że pozycja, kierunek, rozmiar itp. Na twoim wykresie reprezentują rzeczywistość . To, co jest na wykresie, powinno być w prawdziwym świecie. To, co jest duże, powinno być duże (pamiętając, że obszary powinny reprezentować obszary i objętości. Nigdy nie próbuj reprezentować wartości skalarnej przez obszar, jest to bardzo niejednoznaczne!). Dotyczy to również kolorów, kształtów itp., Jeśli są one istotne.

Ciekawym przykładem jest tutaj wykres „serii spódnic”: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Chociaż technicznie jest to poprawne, a „wyższa” długość spódnicy zajmuje wyższą pozycję na wykresie, w rzeczywistości jest dość myląca, ponieważ długość spódnicy zaczyna się od góry i spada (w przeciwieństwie do ludzi lub drzew, gdzie mierzymy wysokość od ziemia). Tak więc zwiększona długość spódnicy faktycznie reprezentuje niższą wartość:

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

wprowadź opis zdjęcia tutaj

Jak zwykle występują trudności. Na przykład generalnie rozważamy czas, aby przejść do przodu, a przynajmniej na zachodzie czytamy od lewej do prawej, więc nasze wykresy szeregów czasowych zwykle również płyną od lewej do prawej wraz ze wzrostem czasu. Co się stanie, jeśli z czasem zechcesz przedstawić coś, co najlepiej jest przedstawione bocznie (np. Pomiary czegoś wschód-zachód)? W takim przypadku musisz iść na kompromis i albo zobrazować czas przesuwania się w górę lub w dół (który, jak sądzę, znów zależy od postrzegania kultury), lub też odwzorować zmienną boczną na wykresie w górę / w dół.

naught101
źródło
1
Przykład kompromisu dla czasu / przestrzeni znajduje się w książce Making Maps (krytyczna dyskusja i przykłady podane tutaj .
Andy W
Dobry (okropny) przykład! Mapy przynoszą inny, trudniejszy kompromis: próba przedstawienia 2 wymiarów + czas na dwuwymiarowej stronie (np. Mapy dryfu kontynentalnego). Dość trudne. Ale chyba po to są animacje :)
naught101
Twój wymowny przykład pozwala wspomnieć o dwóch dodatkowych punktach, które często się pojawiają. 1. W przypadku osi czasu tytuł lub etykieta taka jak „Czas” jest zwykle zbędna. 2. Tytuły lub etykiety, takie jak „spódniczki”, zawsze można poprawić za pomocą zwięzłego, ale pouczającego wyjaśnienia, w tym w stosownych przypadkach jednostek miary.
Nick Cox,
1

Zależy to od sposobu omówienia działek.

Na przykład, jeśli wysyłam wykresy na spotkanie grupowe, które będą się odbywały z osobami dzwoniącymi z różnych lokalizacji, wolę umieścić je razem w programie PowerPoint, a nie w programie Excel, więc łatwiej jest się odwracać.

W przypadku połączeń technicznych jeden na jednego, dodam coś do Excela, aby klient mógł przenieść działkę na bok i przeglądać surowe dane. Lub mogę wprowadzić wartości p do komórek wzdłuż współczynników regresji bocznej, np

Pamiętaj: działki są tanie, szczególnie w przypadku pokazu slajdów lub wysyłania wiadomości e-mail do grupy. Wolę zrobić 10 wyraźnych wykresów, które możemy przeglądać, niż 5 wykresów, na których próbuję umieścić różne kohorty (np. „Mężczyźni i kobiety”) na tym samym wykresie.

Baltimark
źródło
1

Dodałbym, że wybór wykresu powinien odzwierciedlać rodzaj testu statystycznego zastosowanego do analizy danych. Innymi słowy, wszelkie cechy danych wykorzystane do analizy powinny być pokazane wizualnie - abyś pokazał średnie i standardowe błędy, gdybyś użył testu t, ale wykresy pudełkowe, gdybyś użył testu Manna-Whitneya.

Freya Harrison
źródło