Przygotowując działki, zwykle dokonuję własnych wyborów. Zastanawiam się jednak, czy istnieją jakieś najlepsze praktyki generowania wykresów.
Uwaga: komentarz Roba do odpowiedzi na to pytanie jest tutaj bardzo istotny.
data-visualization
references
użytkowników28
źródło
źródło
SO
: stackoverflow.com/questions/6973394/...Możemy zostać tutaj cały dzień, wskazując najlepsze praktyki, ale powinieneś zacząć od przeczytania Tufte. Moja podstawowa rekomendacja:
Nie komplikuj.
Często ludzie próbują załadować swoje wykresy informacjami. Ale tak naprawdę powinieneś mieć tylko jeden główny pomysł, który próbujesz przekazać, a jeśli ktoś nie dostanie twojej wiadomości prawie natychmiast, powinieneś przemyśleć, jak ją przedstawiłeś. Więc nie zaczynaj pracy nad wykresem, dopóki sam komunikat nie będzie wyraźny. Dotyczy to także brzytwy Ockhama.
źródło
Jedną z praktycznych zasad, której nie zawsze przestrzegam, ale która czasami jest przydatna, jest wzięcie pod uwagę, że prawdopodobne jest, że twój działka w pewnym momencie w przyszłości będzie
Musisz postarać się, aby twoje działki były wystarczająco jasne, aby nawet jeśli zostaną niedokładnie odtworzone w przyszłości, informacje, które stara się przekazać, są nadal czytelne.
źródło
Oprócz przekazywania jasnego przesłania zawsze staram się pamiętać o fabule:
Skonfigurowałem oprogramowanie do drukowania (matplotlib, ROOT lub root2matplotlib), aby domyślnie wykonywać większość tego prawa. Przed użyciem,
gnuplot
co wymagało tutaj dodatkowej opieki.źródło
W dziedzinie fizyki obowiązuje zasada, że cały artykuł / raport powinien być zrozumiały tylko na podstawie szybkiego spojrzenia na wykresy. Radziłbym więc przede wszystkim, aby były zrozumiałe.
Oznacza to również, że zawsze musisz sprawdzić, czy twoja publiczność zna jakąś fabułę - popełniłem kiedyś duży błąd, zakładając, że każdy naukowiec wie, co to są fabuły, a potem zmarnowałem godzinę, aby to wyjaśnić.
źródło
Oto moje wytyczne, oparte na najczęstszych błędach, które widzę (oprócz wszystkich innych dobrych punktów wymienionych)
źródło
Spójrz na bibliotekę graficzną R, ggplot2. Szczegóły znajdują się na stronie internetowej http://had.co.nz/ggplot2/ Pakiet ten generuje bardzo dobre domyślne wykresy, zgodne z zasadami Tufte, wytycznymi Cleveland i pakietem kolorów Ihaki.
źródło
W przypadku drukowania w kolorze należy wziąć pod uwagę, że osoby niewidome dla koloru mogą mieć problemy z rozróżnieniem elementów według samego koloru. Więc:
źródło
To są wspaniałe sugestie. Zebraliśmy wiele materiałów na stronie http://biostat.mc.vanderbilt.edu/StatGraphCourse . Grupa statystyk w branży farmaceutycznej, środowisku akademickim i FDA również tworzy zasoby, które będą bardzo przydatne w badaniach klinicznych i powiązanych badaniach. Wiele nowych materiałów zostanie ujawnionych za miesiąc, ale wiele już jest - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph
Moja osobista ulubiona książka graficzna to Elements of Graphing Data autorstwa Williama Clevelanda.
Jeśli chodzi o oprogramowanie, moim zdaniem ciężko jest pokonać pakiety ggplot2 i sieci kratowej R. Stata obsługuje również doskonałą grafikę.
źródło
To zależy również od tego, gdzie nie chcesz publikować swoich działek. Zaoszczędzisz sobie wielu kłopotów, konsultując się z przewodnikiem dla autorów, zanim zaczniesz tworzyć działki na potrzeby czasopisma.
Zapisz również wykresy w formacie, który można łatwo zmodyfikować lub zapisać kod użyty do ich utworzenia. Możliwe, że musisz wprowadzić poprawki.
źródło
Nie używaj wykresów dynamitu: http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html , używaj wykresów skrzypcowych lub podobnych (rodzina wykresów skrzynkowych)
źródło
Inne odpowiedzi są zbyt sformułowane, aby były przekonujące, dlatego dam bardziej ogólną odpowiedź. Od dłuższego czasu zmagam się z tym pytaniem. Oferuję ten proces:
Sceptycznie podchodzę do ogólnych stwierdzeń, takich jak „bądź prosty” - co to znaczy? To zależy od publiczności. Niektórzy odbiorcy zjedzą styl Tufte. Ale niektórzy widzowie od czasu do czasu doceniają małe śmieci. Niektóre osoby nudzą się wykresami rozrzutu. Niektórzy ludzie lubią kolorowe tła. Czy tak źle jest zaangażować ich trochę, nawet jeśli zagrozisz „estetycznej” czystości? To do ciebie należy decyzja.
Reakcja publiczności będzie ważną informacją zwrotną, ale nie jedyną. Jeśli znajdziesz sposób, by zmierzyć ich zrozumienie przed i po prezentacji, zaczniesz rozumieć wpływ, jaki wywarłeś.
„Właściwa” odpowiedź będzie zależeć od tego rodzaju pytań:
Jakich mediów będziesz używać?
Czy tworzysz wykresy statyczne lub interaktywne?
Czy próbujesz opowiedzieć wcześniej zdefiniowaną historię (ekspozycję) lub zachęcić do eksperymentowania (eksploracji)?
W jakim stopniu chcesz, aby publiczność wyciągnęła własne wnioski?
W jakim stopniu chcesz, aby publiczność podążała za twoją historią?
W jakim stopniu chcesz, aby publiczność zakwestionowała twoje ustalenia?
Podsumowując, projektuj swoje materiały celowo, uwzględniając przekaz, odbiorców i ograniczenia.
źródło
Jedną rzeczą, o której pamiętam, jak wspomniałem Tufte, a której nie ma w innych odpowiedziach, jest mapowanie - to znaczy, że pozycja, kierunek, rozmiar itp. Na twoim wykresie reprezentują rzeczywistość . To, co jest na wykresie, powinno być w prawdziwym świecie. To, co jest duże, powinno być duże (pamiętając, że obszary powinny reprezentować obszary i objętości. Nigdy nie próbuj reprezentować wartości skalarnej przez obszar, jest to bardzo niejednoznaczne!). Dotyczy to również kolorów, kształtów itp., Jeśli są one istotne.
Ciekawym przykładem jest tutaj wykres „serii spódnic”: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Chociaż technicznie jest to poprawne, a „wyższa” długość spódnicy zajmuje wyższą pozycję na wykresie, w rzeczywistości jest dość myląca, ponieważ długość spódnicy zaczyna się od góry i spada (w przeciwieństwie do ludzi lub drzew, gdzie mierzymy wysokość od ziemia). Tak więc zwiększona długość spódnicy faktycznie reprezentuje niższą wartość:
Jak zwykle występują trudności. Na przykład generalnie rozważamy czas, aby przejść do przodu, a przynajmniej na zachodzie czytamy od lewej do prawej, więc nasze wykresy szeregów czasowych zwykle również płyną od lewej do prawej wraz ze wzrostem czasu. Co się stanie, jeśli z czasem zechcesz przedstawić coś, co najlepiej jest przedstawione bocznie (np. Pomiary czegoś wschód-zachód)? W takim przypadku musisz iść na kompromis i albo zobrazować czas przesuwania się w górę lub w dół (który, jak sądzę, znów zależy od postrzegania kultury), lub też odwzorować zmienną boczną na wykresie w górę / w dół.
źródło
Zależy to od sposobu omówienia działek.
Na przykład, jeśli wysyłam wykresy na spotkanie grupowe, które będą się odbywały z osobami dzwoniącymi z różnych lokalizacji, wolę umieścić je razem w programie PowerPoint, a nie w programie Excel, więc łatwiej jest się odwracać.
W przypadku połączeń technicznych jeden na jednego, dodam coś do Excela, aby klient mógł przenieść działkę na bok i przeglądać surowe dane. Lub mogę wprowadzić wartości p do komórek wzdłuż współczynników regresji bocznej, np
Pamiętaj: działki są tanie, szczególnie w przypadku pokazu slajdów lub wysyłania wiadomości e-mail do grupy. Wolę zrobić 10 wyraźnych wykresów, które możemy przeglądać, niż 5 wykresów, na których próbuję umieścić różne kohorty (np. „Mężczyźni i kobiety”) na tym samym wykresie.
źródło
Dodałbym, że wybór wykresu powinien odzwierciedlać rodzaj testu statystycznego zastosowanego do analizy danych. Innymi słowy, wszelkie cechy danych wykorzystane do analizy powinny być pokazane wizualnie - abyś pokazał średnie i standardowe błędy, gdybyś użył testu t, ale wykresy pudełkowe, gdybyś użył testu Manna-Whitneya.
źródło