Jednym z powszechnych sposobów „kłamstwa z danymi” jest użycie skali osi y, która sprawia, że wydaje się, że zmiany są bardziej znaczące niż są w rzeczywistości.
Kiedy przeglądam publikacje naukowe lub raporty laboratoryjne studentów, często jestem sfrustrowany tym „grzechem wizualizacji danych” (który, jak sądzę, autorzy popełniają nieumyślnie, ale nadal wprowadza w błąd).
Jednak „zawsze zaczynaj oś Y od zera” nie jest trudną i szybką zasadą. Na przykład Edward Tufte wskazuje, że w szeregu czasowym linia bazowa niekoniecznie musi wynosić zero:
Zasadniczo w szeregu czasowym użyj linii bazowej, która pokazuje dane, a nie punkt zerowy. Jeśli punkt zerowy występuje rozsądnie podczas rysowania danych, dobrze. Ale nie marnuj dużo pustej przestrzeni pionowej, próbując dotrzeć do punktu zerowego kosztem ukrycia tego, co dzieje się w samej linii danych. (Książka „Jak kłamać ze statystykami” jest w tej kwestii błędna).
Na przykład wszędzie tam, gdzie brakuje zerowych punktów w szeregach czasowych, spójrz na każdą dużą publikację z badań naukowych. Naukowcy chcą pokazać swoje dane, a nie zero.
Chęć kontekstualizacji danych jest dobra, ale kontekst nie pochodzi z pustej przestrzeni pionowej sięgającej zera, liczby, która nie występuje nawet w wielu zestawach danych. Zamiast tego, dla kontekstu, pokaż więcej danych w poziomie!
Chciałbym wskazać mylącą prezentację w recenzowanych przeze mnie artykułach, ale nie chcę być purystą na osi zero.
Czy istnieją jakieś wytyczne dotyczące tego, kiedy zacząć oś Y od zera, a kiedy jest to niepotrzebne i / lub nieodpowiednie? (Zwłaszcza w kontekście pracy naukowej).
źródło
Odpowiedzi:
Nie używaj przestrzeni na wykresie w żaden sposób, który nie pomaga w zrozumieniu. Potrzebne jest miejsce, aby wyświetlić dane!
Skorzystaj z osądu naukowego (inżynierskiego, medycznego, społecznego, biznesowego ...), a także statystycznego. (Jeśli nie jesteś klientem ani klientem, porozmawiaj z kimś w terenie, aby dowiedzieć się, co jest interesujące lub ważne, najlepiej tych zlecających analizę).
Pokaż zero na osi jeśli porównania z zerem są kluczowe dla problemu, a nawet mogą być interesujące.y
To są trzy proste zasady. (Czasami nic nie wyklucza napięcia między nimi).
Oto prosty przykład, ale powstają wszystkie trzy punkty: Mierzysz temperaturę ciała pacjenta w stopniach Celsjusza, Fahrenheita lub nawet w stopniach Kelvina: wybierz. W jakim sensie naleganie na wyświetlanie temperatur zerowych jest pomocne, a nawet logiczne? Ważne, nawet ważne z medycznego lub fizjologicznego punktu widzenia, informacje zostaną w przeciwnym razie ukryte.
Oto prawdziwa historia z prezentacji. Badacz pokazywał dane dotyczące proporcji płci dla różnych stanów i terytoriów związkowych w Indiach. Grafika była wykresem słupkowym, przy czym wszystkie słupki zaczynają się od zera. Wszystkie pręty były zbliżone do tej samej długości pomimo pewnych znacznych zmian. To prawda, ale interesująca historia była taka, że obszary były różne pomimo podobieństw, a nie że były podobne pomimo różnic. Zasugerowałem, że parytet między mężczyznami i kobietami (1 lub 100 kobiet / 100 mężczyzn) był znacznie bardziej naturalnym poziomem odniesienia. (Byłbym również otwarty na użycie jakiegoś ogólnego poziomu, takiego jak średnia krajowa). Nawet niektórzy statystyczni ludzie, którzy słyszeli tę krótką historię, czasami odpowiadali: „Nie, takty zawsze powinny zaczynać się od zera”. Dla mnie nie jest to lepsze niż nieistotny dogmat w takim przypadku.
Powszechny rodzaj wykresu, szczególnie w niektórych naukach biologicznych i medycznych, pokazuje średnie lub inne zestawienia grubych słupków rozpoczynających się od zera i błędu standardowego lub standardowych odstępów opartych na odchyleniach, wskazujących niepewność cienkich słupków. Takie detonatory lub wykresy dynamitowe, jak je nazywają ci, którzy się nie zgadzają, mogą być popularne częściowo ze względu na stwierdzenie, że zero zawsze powinno być pokazywane. Efektem netto jest podkreślenie porównań z zerem, którym często brakuje zainteresowania lub użyteczności.
Niektóre osoby chciałyby pokazywać zero, ale także dodać podziałkę skali, aby pokazać, że podziałka została przerwana. Zmieniają się mody i zmiany technologiczne. Kilkadziesiąt lat temu, kiedy naukowcy sporządzili własne wykresy lub powierzyli to zadanie technikom, łatwiej było poprosić o wykonanie tego ręcznie. Teraz programy graficzne często nie obsługują podziałów skali, co moim zdaniem nie jest stratą. Nawet jeśli to zrobią, jest to wybredny dodatek, który może zmarnować umiarkowany ułamek obszaru grafiki.
Istnieje oczywiście reguła zerowa, która ma zastosowanie oprócz trzech wymienionych.
Dlatego w tej kwestii zdecydowanie zgadzam się z Edwardem Tufte i nie zgadzam się z Darrellem Huffem.
EDYCJA 9 maja 2016 r .:
Cairo, A. 2016. The Truthful Art: Data, Charts and Maps for Communication. San Francisco, Kalifornia: New Riders, str. 136.
źródło