Użytkownicy często mają pokusę, aby przełamać wartości osi w celu prezentacji danych o różnych rzędach wielkości na tym samym wykresie (patrz tutaj ). Chociaż może to być wygodne, nie zawsze jest to preferowany sposób wyświetlania danych (w najlepszym przypadku może być mylący). Jakie są alternatywne sposoby wyświetlania danych, które różnią się w kilku rzędach wielkości?
Mogę wymyślić dwa sposoby, aby przekształcić dane w log lub użyć wykresów kratowych. Jakie są inne opcje?
data-visualization
logarithm
Roman Luštrik
źródło
źródło
Odpowiedzi:
Jestem bardzo ostrożny w stosowaniu osi logarytmicznych na wykresach słupkowych . Problem polega na tym, że musisz wybrać punkt początkowy osi i jest to prawie zawsze arbitralne. Możesz wybrać, aby dwa pręty miały bardzo różne wysokości lub prawie taką samą wysokość, zmieniając jedynie minimalną wartość na osi. Te trzy wykresy przedstawiają te same dane:
Alternatywą dla nieciągłych osi, o której nikt jeszcze nie wspomniał, jest po prostu pokazanie tabeli wartości. W wielu przypadkach tabele są łatwiejsze do zrozumienia niż wykresy.
źródło
Kilka dodatkowych pomysłów:
(1) Nie musisz ograniczać się do transformacji logarytmicznej. Wyszukaj w tej witrynie na przykład tag „transformacja danych”. Niektóre dane dobrze nadają się do pewnych przekształceń, takich jak root lub logit. (Takich przekształceń - nawet dzienników - zwykle należy unikać, publikując grafikę dla nietechnicznych odbiorców. Z drugiej strony mogą być doskonałym narzędziem do przeglądania wzorców w danych.)
(2) Możesz pożyczyć standardową technikę kartograficzną wstawiania szczegółów wykresu w obrębie wykresu lub obok niego. W szczególności wykreślisz wartości ekstremalne samodzielnie na jednym wykresie, a wszystkie (lub) pozostałe dane na innym z bardziej ograniczonym zakresem osi, a następnie graficznie uporządkujesz te dwie wartości wraz ze wskazaniami (wizualnymi i / lub zapisanymi) relacji między nimi. Pomyśl o mapie USA, w której Alaska i Hawaje są wstawiane w różnych skalach. (To nie zadziała z wszystkimi rodzajami wykresów, ale może być skuteczne z wykresami słupkowymi na twojej ilustracji.) [Widzę, że jest to podobne do ostatniej odpowiedzi mbq.]
(3) Możesz pokazać zepsuty wykres obok siebie z tym samym polem na nieprzerwanych osiach.
(4) W przypadku przykładu z wykresem słupkowym wybierz odpowiednią (być może mocno rozciągniętą) oś pionową i zapewnij narzędzie do panoramowania. [Jest to bardziej sztuczka niż prawdziwie przydatna technika, IMHO, ale może być przydatna w niektórych szczególnych przypadkach.]
(5) Wybierz inny schemat, aby wyświetlić dane. Zamiast wykresu słupkowego, który używa długości do reprezentowania wartości, wybierz na przykład wykres, w którym obszary symboli przedstawiają wartości. [Oczywiście, że chodzi tutaj o kompromisy.]
Twój wybór techniki będzie prawdopodobnie zależeć od celu fabuły: wykresy utworzone w celu eksploracji danych często różnią się na przykład od wykresów dla ogółu odbiorców.
źródło
Może można to zaklasyfikować jako sieć, ale spróbuję; wykreśl wszystkie paski skalowane do najwyższych w jednym panelu i umieść inny panel pokazujący powiększenie na niższych. Użyłem tej techniki raz w przypadku wykresu rozrzutu, a wynik był całkiem niezły.
źródło
Oddzielę problem osi logów od problemu wykresów słupkowych.
Wykresy słupkowe nigdy nie będą sensowne, jeśli nie ma sensownego i ustalonego początku, który pełniłby rolę kontrolną (poziom podstawowy, pusty). Ale to nie ma nic wspólnego z osiami logów.
Jedyne regularne użycie wykresów słupkowych to histogramy. Ale mogę sobie wyobrazić, że dobrze sobie radzą, pokazując różnicę do tego pochodzenia (od razu widać też, czy różnica jest dodatnia czy ujemna). Ponieważ słupki przedstawiają obszar, zwykle myślę o wykresach słupkowych jako o bardzo dyskretnej wersji obszaru pod krzywą. Oznacza to, że oś X powinna mieć znaczenie metryczne (może tak być w przypadku czasu, ale nie miast).
Gdybym zastanawiał się, jakiego źródła użyć do dziennika czegoś, co miało „naturalne” pochodzenie w punkcie 0, cofnąłbym się i pomyślał trochę o tym, co się dzieje. Bardzo często takie problemy są tylko wskaźnikiem, że log nie jest tutaj sensowną transformacją.
Teraz wykres słupkowy z osiami logarytmicznymi podkreśla wzrosty lub spadki występujące w wielokrotnościach. Rozsądne przykłady, o których mogę teraz myśleć, mają pewien liniowy związek z wartością zainteresowania. Ale może ktoś inny znajdzie dobry przykład.
Dlatego myślę, że transformacja danych powinna być rozsądna w odniesieniu do znaczenia danych. Jest tak w przypadku jednostek fizyko-chemicznych, o których wspomniałem powyżej (A jest proporcjonalne do stężeń, a pH ma na przykład liniowy związek z napięciem w pH-metrze). W rzeczywistości jest tak, że jednostka logu otrzymuje nową nazwę i jest używana w sposób liniowy.
Wreszcie, pochodzę ze spektroskopii wibracyjnej, w której złamane osie są dość regularnie używane. Uważam to za jeden z niewielu przykładów, w których łamanie osi nie jest mylące. Jednak nie mamy zmian w porządku wielkości. Po prostu mamy niedoinformujący region 30 - 40% naszego zakresu x: Oto przykład: Dla tej próbki część między 1800 - 2800 / cm nie może zawierać żadnych użytecznych informacji.
Nieinformacyjny zakres widmowy jest zatem usuwany (co również wskazuje zakresy widmowe, których faktycznie używamy do modelowania chemometrycznego):
Ale do interpretacji danych potrzebujemy dokładnych odczytów pozycji x. Ale generalnie nie potrzebujemy wielokrotności obejmujących różne zakresy (tzn. Istnieją takie relacje, ale większość połączeń jest bardziej skomplikowana. Np .: Sygnał przy 3050 / cm, więc mamy nienasyconą lub aromatyczną substancję. Ale nie ma silnego sygnału przy 1000 / cm , więc nie ma mono, meta ani 1,3,5-podstawionego pierścienia aromatycznego ...)
Dlatego lepiej jest przedstawić x w większej skali (w rzeczywistości często używamy prowadnic podobnych do arkusza milimetrowego lub oznaczamy dokładne lokalizacje). Więc łamiemy oś i otrzymujemy większe skalowanie x:
W rzeczywistości jest to bardzo podobne do fasetowania:
ale złamana oś IMHO podkreśla, że skala osi x w obu częściach jest taka sama. Tj. Interwały w obrębie wykreślonych regionów są takie same.
Aby podkreślić małe natężenia (oś y), używamy powiększonych wypustek:
[ ... Aby uzyskać szczegółowe informacje, zobacz powiększony (x 20) obszar νCH na niebiesko .... ]
Jest to z pewnością możliwe również na przykładzie na powiązanych działkach.
źródło
Dwa pomysły, do których nawiązano, ale które nie zostały wyraźnie opisane, gdy spojrzałem na doskonałe odpowiedzi i komentarze, dotyczyły używania wykresu słupkowego „w sposób niezgodny z etykietowaniem” i znormalizowanych / bezwymiarowych danych.
Rodzaj działki:
Wykres w stylu gwiazdy / pająka / radaru (link) (link) jest często bardzo dobry do porównywania kilku różnych rzeczy wzdłuż wielu współrzędnych. Istnieje wiele bardzo przydatnych wątków, które (niestety) są rzadkie w prezentacjach biznesowych, prawdopodobnie dlatego, że przywódcy wolą wykorzystywać wnioski do podejmowania decyzji, niż wykorzystywać informacje do zrozumienia, a następnie wykorzystywać je do podejmowania decyzji. W biznesie budowanie konsensusu jest czasami bardzo trudne, dlatego podejście oparte wyłącznie na wynikach może przynieść wyższą wydajność w środowisku opartym na pierwszym konsensusie, a następnie na decyzji. To informuje o popularności wykresu słupkowego / kolumnowego. Proszę rozważyć przykłady innych typów wykresów, które są przydatne do zrozumienia (link) .
Transformacja:
Jeśli podzielisz wartości na wykresie przez wartość „charakterystyczną”, możesz przekształcić skalowanie, aby poprawić czytelność bez utraty informacji. Płynni dynamicyści preferują liczby bezwymiarowe ze względu na ich przewidywalność i elastyczność w stosowaniu. Patrzą na takie rzeczy jak twierdzenie Buckingham Pi jako źródła kandydujących form bezwymiarowych (link) . Popularne i przydatne, bezwymiarowe liczby obejmują liczbę Reynoldsa, liczbę Macha, liczbę Biot, liczbę Grashof, Pi, liczbę Raleigha, liczbę Stokesa i liczbę Sherwooda. (połączyć) Nie musisz być fizykiem, aby pokochać liczby bezwymiarowe, ponieważ są one przydatne w zastosowaniach niefizycznych. Miary takie jak gęstość, jednorodność, okrągłość i współpłaszczyznowość mogą definiować obrazy, pola pikseli lub wielowymiarowe rozkłady prawdopodobieństwa. Nie bierz tylko pod uwagę logarytmu lub względnej odległości od znanej wartości - możesz również rozważyć odwrócenie liczb, biorąc ich pierwiastki kwadratowe.
Powodzenia. Daj nam znać, jak się sprawy potoczą.
źródło
Rozwiązanie z łamaną osią działa najlepiej, gdy na wykresie jest wyraźne załamanie, a rzędna jest oznaczona, aby przerwa była oczywista. Zaletą tego jest to, że skala jest zachowana w dwóch zestawach wartości. Wykresy panelowe o różnych skalach mogą nie odzwierciedlać względnej zmienności w grupach niskich i wysokich. Podoba mi się pomysł powiększenia, który zaprogramowałem dla wykresów rozrzutu, ale nie pomyślałem o użyciu dla wykresów słupkowych.
źródło