Pytanie: Kiedy (przy jakich typach problemów z wizualizacją danych) mapy cieplne są najbardziej skuteczne? (W szczególności bardziej skuteczny niż wszystkie inne możliwe techniki wizualizacji?)
Kiedy mapy cieplne są najmniej skuteczne?
Czy istnieją jakieś wspólne wzorce lub reguły, które można zastosować, aby zdecydować, czy mapa cieplna może być skutecznym sposobem wizualizacji danych i kiedy może być nieskuteczna?
(Zasadniczo mam na myśli mapy cieplne dla 2 zmiennych kategorialnych i 1 zmiennej ciągłej, ale jestem również zainteresowany słyszeniem o opiniach dotyczących innych rodzajów map ciepła.)
Kontekst: Biorę kurs online na temat wizualizacji danych, a teraz omawiają nieefektywne i nadmiernie wykorzystywane typy wykresów. Wspomnieli już o wykresach dynamitowych i wykresach kołowych, a powody, dla których są one nieskuteczne i dlaczego istnieją dla nich lepsze alternatywy, były dla mnie jasne i przekonujące. Ponadto łatwo było znaleźć inne źródła potwierdzające dane opinie na temat wykresów dynamitowych i wykresów kołowych.
Jednak kurs powiedział również, że „mapy cieplne są jednym z najmniej skutecznych rodzajów wizualizacji danych”. Parafrazując powody, dla których podano je poniżej. Ale kiedy próbowałem znaleźć inne miejsca w Google potwierdzające ten punkt widzenia, miałem dużo trudności, w przeciwieństwie do szukania opinii na temat skuteczności wykresów kołowych i wykresów dynamitu. Chciałbym więc wiedzieć, w jakim stopniu charakterystyka map cieplnych podana w trakcie jest ważna i kiedy czynniki przeciwko nim są najmniej ważne i najważniejsze w danym kontekście.
Podano powody:
Trudno jest odwzorować kolor na ciągłą skalę.
Istnieją pewne wyjątki od tej reguły, więc zazwyczaj nie jest to przełomowe, ale w przypadku map cieplnych problem jest szczególnie trudny, ponieważ nasze postrzeganie koloru zmienia się w zależności od kolorów sąsiednich. Dlatego mapy cieplne nie są odpowiednie do wyświetlania indywidualnych wyników, nawet w małych zestawach danych. Który prowadzi do:
Odpowiedzi na konkretne pytania przy użyciu metody wyszukiwania w tabeli są na ogół niewykonalne, ponieważ nie można z wystarczającą dokładnością wnioskować o wartości liczbowej odpowiadającej danemu kolorowi.
Często dane nie są grupowane w taki sposób, aby uwidocznić trendy.
Bez takiego grupowania często trudno jest lub nie można wnioskować o ogólnych ogólnych wzorach.
Mapy cieplne są często używane tylko do przekazywania „współczynnika wow” lub po prostu do wyglądania fajnie, szczególnie gdy używa się gradientu wielokolorowego, ale zwykle są lepsze sposoby przekazywania danych.
Rysowanie ciągłych danych we wspólnej skali jest zawsze najlepszą opcją. Jeśli istnieje składnik czasu, najbardziej oczywistym wyborem jest wykres liniowy.
źródło
Odpowiedzi:
Nie ma czegoś takiego jak „najlepsza” fabuła dla tego lub tego. Sposób wykreślania danych zależy od wiadomości, którą chcesz przekazać. Często używane wykresy mają tę zaletę, że użytkownicy mają większe szanse na ich odczytanie. Niemniej jednak nie oznacza to, że są one koniecznie najlepszym wyborem.
Jeśli chodzi o mapy cieplne, uporządkowałem swoją odpowiedź rzekomymi argumentami przeciwko nim.
Ad 1) Jeśli nie ufasz kolorowi jako kanałowi kodowania, użyj zamiast tego jasności, ze skalą obejmującą odcienie od ciemnoszarego do jasnoszarego „koloru”. Najczęściej chcesz grupować zmienne ciągłe (patrz także 5), abyś mógł utrzymać niską liczbę kolorów i ułatwić użytkownikom dekodowanie. Nie jest to jednak konieczne. Spójrz na ten przykład , w którym zmienna ciągła nie jest binowana.
Ad 2) Z pewnością nie należy ich używać jako alternatywy do wyszukiwania dokładnych wartości. Mapy cieplne powinny przede wszystkim służyć do zilustrowania wzorców, a nie do zastępowania tabel.
Ad 3 + 4) Nie rozumiem, w jaki sposób odnosi się to tylko do map cieplnych.
Ad 5) Mapy ciepła są idealnie, ale niekoniecznie używane z zmiennymi dyskretnymi. W przypadku zmiennych ciągłych mapy ciepła mogą być używane jako rodzaj dwuwymiarowego histogramu lub wykresu słupkowego, z odpowiednim binowaniem, a także jasnością jako kanałem kodowania.
źródło
Ktoś nie może powiedzieć, że mapa cieplna jest najmniej skutecznym rodzajem wizualizacji. Wolę powiedzieć, że to zależy od twoich wymagań. W niektórych przypadkach mapy cieplne są bardzo przydatne. Załóżmy, że musisz złożyć raport na temat przestępczości w danym kraju (lub mieście). Tutaj masz ogromny zestaw danych, który może zależeć od czasu.
Podobnie, powiedzmy, że musisz przygotować raport na temat zużycia energii elektrycznej w miastach. W takich przypadkach można łatwo wizualizować za pomocą mapy ciepła. Będzie to miało większy sens i będzie mniej kłopotliwe.
Krótko mówiąc, jeśli masz dużo ciągłych danych i chcesz zrobić raport, który może szybko wskazać odpowiedzi, najlepiej mapa ciepła.
źródło
Krytyka 1 w pierwotnym pytaniu dotyczy największej wady - trudność dla osoby czytającej mapę cieplną do odkodowania przekazywanych informacji ilościowych. Rozważ wykres punktowy xy lub wykres punktowy, w którym podstawowa wielkość jest bezpośrednio związana z odległością na wykresie - bardzo prosta do interpretacji.
Z drugiej strony na mapie ciepła osoba czytająca mapę może interpretować 10% „bardziej” lub „ciemniej” według własnego uznania. Do tego dochodzi problem różnych zdolności ludzi do rozpoznawania koloru i odcienia na początek. Są to prawdziwe wady, ale nie są śmiertelne.
Natomiast trzecia krytyka wydaje się nieumyślnie identyfikować przypadek, w którym mapy cieplne są szczególnie przydatne - gdy dane są grupowane na płaszczyźnie 2D, dzięki czemu podobne wartości w trzecim wymiarze są wyświetlane jako łaty określonego odcienia lub koloru. Chociaż mapy cieplne są w niektórych przypadkach nieskuteczne, są użyteczne dla innych i powinny pozostać w torbie, w taki sam sposób, w jaki golfiści często noszą kliny do rzucania lub podobne, mimo że są bezużyteczne do jazdy lub stawiania, lub stolarze nie lekceważ młoty, ponieważ nie nadają się do cięcia drewna.
Ogólnie wizualizowanie danych powinno być postrzegane jako działanie iteracyjne, które zajmie trochę czasu, gdy spróbujesz wielu wizualizacji, które wydobywają ważne cechy danych, w tym wypróbowanie więcej niż jednego rodzaju wizualizacji, a następnie eksperymentowanie w celu znalezienia najlepszych ustawień w konkretne wybory. Nie należy też zakładać, że rezultatem będzie jedna wizualizacja - czasami konieczne będzie wykonanie szeregu wizualizacji danych w celu podkreślenia wielu ważnych cech danych. W tym kontekście będą chwile, w których dla określonych cech określonych zestawów danych mapa ciepła będzie najskuteczniejsza, a przekazywanie klastrów, jak opisano, może być jednym z tych czasów. Ogólnie rzecz biorąc, często zdarzają się sytuacje, w których jedna wizualizacja nie jest w stanie zrobić wszystkiego, a więcej niż jedna będzie wymagana.
źródło
Jak wspominają inni, naprawdę niewłaściwe jest twierdzenie, że mapy cieplne są zawsze nieskuteczne. W rzeczywistości są one dość skuteczne w wielu przypadkach.
Na przykład, jeśli chcesz wizualizować dane 4D, wystarczy wykonać trzy pierwsze wymiary w wielu programach do drukowania. Jednak cała koncepcja 4D jest dość trudna do konceptualizacji. Co to jest „czwarty” kierunek / wymiar?
Właśnie tam mapa ciepła może być skuteczna, ponieważ pozwoli na wykreślenie pierwszych trzech wymiarów na osi współrzędnych, a czwarty może być wizualizowany poprzez ułożenie mapy ciepła na wykreślonej płaszczyźnie (lub linii, ale jest to mniej prawdopodobne).
Najważniejsze jest to, że potrzebujesz kontekstu. Czego szukasz w swojej wizualizacji? Ponadto jako samouk nauczycielski mogę powiedzieć, że te kursy online są bardzo trywialne i nieprzydatne. Lepiej jest korzystać z nich tylko wtedy, gdy szukasz informacji / pomocy na określone tematy, niż gdy chcesz uczyć się na cały temat.
W każdym razie powodzenia.
źródło
Z natury mapa ciepła wyświetla dane z dwiema ciągłymi zmiennymi niezależnymi (lub, niezupełnie równoważnymi, jedną zmienną niezależną z dwuwymiarowej przestrzeni wektorowej) i jedną ciągłą zmienną zależną. W przypadku danych tego typu mapa cieplna jest zdecydowanie jednym z najbardziej skutecznych rodzajów wizualizacji danych. Tak, ma swoje problemy, ale jest to nieuniknione: naprawdę masz tylko dwa wymiary do pracy, a trójwymiarowej przestrzeni nie można odwzorować na to w sposób zachowujący strukturę , dlatego potrzebujesz włamania, takiego jak odwzorowanie jednego wymiaru na kolor lub rysowanie linii konturowych itp.
Jeśli znajdziesz się w sytuacji, w której mapa cieplna dwóch zmiennych jakościowych wydaje się przydatna, oznacza to, że prawdopodobnie nie są to tak naprawdę zmienne jakościowe, ale raczej zmienne ciągłe kwantyzowane.
źródło
Mapy cieplne świetnie nadają się do zapewnienia uproszczonego widoku wielu zmiennych z perspektywy szeregów czasowych - dane mogą być zmianami bezwzględnymi w czasie lub znormalizowane przy użyciu wyników Z lub innych środków do badania zmiennych o różnych odstępach pomiaru lub względnych zmian w podgrupach. Zapewnia bardzo widoczny wizualnie widok, w którym można dostrzec korelacje lub inwersje i zastępuje wiele wykresów. Można je również wykorzystać do wstępnego przetwarzania w celu oceny możliwego zmniejszenia wymiarów, tj. Faktoringu lub PCA.
Źle interweniujące zmienne i inne czynniki mogą zostać ukryte i pominięte, gdy zastosujemy to podejście do wykrycia korelacji. Te same ukryte aspekty występują w przypadku wykresów liniowych - jednak biorąc pod uwagę dużą liczbę zmiennych - moje doświadczenie jest takie, że mapy cieplne dostarczają tyle informacji, że użytkownik nie bierze pod uwagę aspektów pośrednich ani innych ukrytych czynników.
To z punktu widzenia naukowca z perspektywy postępowego ekonomisty z 20-letnim doświadczeniem w dziedzinie produkcji danych i zadaniem edukowania społeczeństwa takimi danymi.
źródło
Mapy termiczne mają przewagę nad wykresami rozrzutu, gdy istnieje zbyt wiele punktów danych, aby można je było wyświetlić na wykresie rozrzutu. Można to złagodzić za pomocą wykresu rozrzutu za pomocą półprzezroczystych punktów danych, ale poza pewnym progiem lepiej jest podsumować dane.
W tym blogu podano przekonujący przykład trudnych do interpretacji wykresów rozrzutu.
Podobna wypowiedź z dokumentów ggplot2 na mapie termicznej bin 2d liczy :
W dokumentach
geom_point()
:źródło