Czy mapy cieplne są „jednym z najmniej skutecznych rodzajów wizualizacji danych”?

22

Pytanie: Kiedy (przy jakich typach problemów z wizualizacją danych) mapy cieplne są najbardziej skuteczne? (W szczególności bardziej skuteczny niż wszystkie inne możliwe techniki wizualizacji?)

Kiedy mapy cieplne są najmniej skuteczne?

Czy istnieją jakieś wspólne wzorce lub reguły, które można zastosować, aby zdecydować, czy mapa cieplna może być skutecznym sposobem wizualizacji danych i kiedy może być nieskuteczna?

(Zasadniczo mam na myśli mapy cieplne dla 2 zmiennych kategorialnych i 1 zmiennej ciągłej, ale jestem również zainteresowany słyszeniem o opiniach dotyczących innych rodzajów map ciepła.)

Kontekst: Biorę kurs online na temat wizualizacji danych, a teraz omawiają nieefektywne i nadmiernie wykorzystywane typy wykresów. Wspomnieli już o wykresach dynamitowych i wykresach kołowych, a powody, dla których są one nieskuteczne i dlaczego istnieją dla nich lepsze alternatywy, były dla mnie jasne i przekonujące. Ponadto łatwo było znaleźć inne źródła potwierdzające dane opinie na temat wykresów dynamitowych i wykresów kołowych.

Jednak kurs powiedział również, że „mapy cieplne są jednym z najmniej skutecznych rodzajów wizualizacji danych”. Parafrazując powody, dla których podano je poniżej. Ale kiedy próbowałem znaleźć inne miejsca w Google potwierdzające ten punkt widzenia, miałem dużo trudności, w przeciwieństwie do szukania opinii na temat skuteczności wykresów kołowych i wykresów dynamitu. Chciałbym więc wiedzieć, w jakim stopniu charakterystyka map cieplnych podana w trakcie jest ważna i kiedy czynniki przeciwko nim są najmniej ważne i najważniejsze w danym kontekście.

Podano powody:

  1. Trudno jest odwzorować kolor na ciągłą skalę.

    Istnieją pewne wyjątki od tej reguły, więc zazwyczaj nie jest to przełomowe, ale w przypadku map cieplnych problem jest szczególnie trudny, ponieważ nasze postrzeganie koloru zmienia się w zależności od kolorów sąsiednich. Dlatego mapy cieplne nie są odpowiednie do wyświetlania indywidualnych wyników, nawet w małych zestawach danych. Który prowadzi do:

  2. Odpowiedzi na konkretne pytania przy użyciu metody wyszukiwania w tabeli są na ogół niewykonalne, ponieważ nie można z wystarczającą dokładnością wnioskować o wartości liczbowej odpowiadającej danemu kolorowi.

  3. Często dane nie są grupowane w taki sposób, aby uwidocznić trendy.

    Bez takiego grupowania często trudno jest lub nie można wnioskować o ogólnych ogólnych wzorach.

  4. Mapy cieplne są często używane tylko do przekazywania „współczynnika wow” lub po prostu do wyglądania fajnie, szczególnie gdy używa się gradientu wielokolorowego, ale zwykle są lepsze sposoby przekazywania danych.

Rysowanie ciągłych danych we wspólnej skali jest zawsze najlepszą opcją. Jeśli istnieje składnik czasu, najbardziej oczywistym wyborem jest wykres liniowy.

Chill2Macht
źródło
15
Krytyka „map cieplnych” sprowadza się do ostatniej linii (4): dokładnie jakie są te „lepsze sposoby” komunikacji? (Jeśli nie ma lepszych sposobów, wówczas (1) - (3) są mało istotne.) Jeśli dosłownie chodzi o komunikację danych , to oczywiście są lepsze sposoby: zanotuj liczby. Wizualizacja rzadko ma jednak na celu przekazanie danych: zamiast tego służy do interpretacji lub wysłania wiadomości. Jakie interpretacje ma na myśli Twoje źródło i jakie są jego zdaniem lepsze sposoby prezentacji tych interpretacji?
whuber
4
@whuber Jako uzupełnienie tego - jedną bardzo fajną rzeczą w mapach ciepła jest to, że w wielu przypadkach łatwo je uzupełnić, wyświetlając surowe dane (być może odpowiednie zaokrąglone) bezpośrednio na każdym kafelku. Nawet stosowanie formatowania warunkowego dla koloru tła komórek w arkuszu kalkulacyjnym jest bardzo skuteczną i bardzo popularną „mapą ciepła”, w którym kontekście trudno jest zobaczyć, jak można je ulepszyć.
Silverfish
2
Mój komentarz dotyczy tylko krytyki 1. Prawidłowe jest, że kolor (odcień) nie jest psychologicznie odwzorowany na uporządkowaną skalę, chociaż ma charakter fizyczny (długość fali). Jednak dodanie nadmiarowego wymiaru, takiego jak jasność, może ułatwić ich interpretację. Możesz mieć ciemniejsze niż jasne, ale używaj kolorów takich jak jasnoniebieski i ciemnoczerwony.
David Lane
2
Zależy od kontekstu. Oto świetny przykład cennych, przydatnych informacji uzyskanych z mapy cieplnej, dla których nie mogę wymyślić żadnego bardziej wygodnego lub przydatnego typu wizualizacji danych.
Jason C
5
Kolor jest zbyteczny (i, co prawda, źle wybrany - to tylko domyślna mapa kolorów w R), ale oto przykład gry Saper , nad którą pracowałem kilka lat temu. Odkryłem, że mapa termiczna natychmiast się rozjaśnia, ponieważ ukazuje strukturę problemu, która intuicyjnie staje się jasna, gdy zobaczysz go i pomyślisz przez chwilę, ale nie jest to oczywiste (dla większości osób) przed obejrzeniem fabuły.
kardynał

Odpowiedzi:

15

Nie ma czegoś takiego jak „najlepsza” fabuła dla tego lub tego. Sposób wykreślania danych zależy od wiadomości, którą chcesz przekazać. Często używane wykresy mają tę zaletę, że użytkownicy mają większe szanse na ich odczytanie. Niemniej jednak nie oznacza to, że są one koniecznie najlepszym wyborem.

Jeśli chodzi o mapy cieplne, uporządkowałem swoją odpowiedź rzekomymi argumentami przeciwko nim.

Ad 1) Jeśli nie ufasz kolorowi jako kanałowi kodowania, użyj zamiast tego jasności, ze skalą obejmującą odcienie od ciemnoszarego do jasnoszarego „koloru”. Najczęściej chcesz grupować zmienne ciągłe (patrz także 5), abyś mógł utrzymać niską liczbę kolorów i ułatwić użytkownikom dekodowanie. Nie jest to jednak konieczne. Spójrz na ten przykład , w którym zmienna ciągła nie jest binowana.

Ad 2) Z pewnością nie należy ich używać jako alternatywy do wyszukiwania dokładnych wartości. Mapy cieplne powinny przede wszystkim służyć do zilustrowania wzorców, a nie do zastępowania tabel.

Ad 3 + 4) Nie rozumiem, w jaki sposób odnosi się to tylko do map cieplnych.

Ad 5) Mapy ciepła są idealnie, ale niekoniecznie używane z zmiennymi dyskretnymi. W przypadku zmiennych ciągłych mapy ciepła mogą być używane jako rodzaj dwuwymiarowego histogramu lub wykresu słupkowego, z odpowiednim binowaniem, a także jasnością jako kanałem kodowania.

g3o2
źródło
2
Świetna odpowiedź! Tyle że nie wiem, co oznacza „reklama”. Łacina? Skrót?
xan
1
Dzięki! „reklama” oznacza „włączony” lub „dotyczy”, chyba pochodzi z łaciny.
g3o2
Nigdy też nie widziałem, żeby „reklama” była używana w ten sposób (cc, @xan). Z twojego opisu myślę, że mógłbym użyć tempa .
gung - Przywróć Monikę
1
Pamiętaj także o korekcji gamma swoich map ciepła opartych na jasności.
user253751
3
@gung Nie bardzo, IMO. Nie ma konotacji, w przeciwieństwie do tempa - oznacza tylko dodatek, w odniesieniu do, jak ... Nie wspominając, że był uniwersalny na Zachodzie, pochodzący z łaciny i szeroko stosowany w teologii i literaturze naukowej i politycznej, wśród inne rzeczy. W oknie dialogowym (pocztowym) obie strony wykorzystałyby go, aby odnieść argumenty do każdego z punktów. Jednak wydaje się, że popada w niełaskę, gdy język pisany zostaje przycięty. Zwykłym zamiennikiem jest po prostu użycie „1.1” zamiast „Ad 1.1”, co może być nieco mylące i wydaje mi się niegrzeczne, ale no cóż.
Luaan
5

Ktoś nie może powiedzieć, że mapa cieplna jest najmniej skutecznym rodzajem wizualizacji. Wolę powiedzieć, że to zależy od twoich wymagań. W niektórych przypadkach mapy cieplne są bardzo przydatne. Załóżmy, że musisz złożyć raport na temat przestępczości w danym kraju (lub mieście). Tutaj masz ogromny zestaw danych, który może zależeć od czasu.

Podobnie, powiedzmy, że musisz przygotować raport na temat zużycia energii elektrycznej w miastach. W takich przypadkach można łatwo wizualizować za pomocą mapy ciepła. Będzie to miało większy sens i będzie mniej kłopotliwe.

Krótko mówiąc, jeśli masz dużo ciągłych danych i chcesz zrobić raport, który może szybko wskazać odpowiedzi, najlepiej mapa ciepła.

Manish Kumar
źródło
2
Jeśli chodzi o zużycie energii, często nie ma lepszej fabuły niż mapa cieplna : argustech.be/wp-content/uploads/2012/04/heatmap.png Weekendy i godziny pracy skaczą wprost na widza. Możesz zobaczyć obciążenie podstawowe, możesz zobaczyć szczyty, możesz zobaczyć, kiedy się zdarzają. Możesz wykryć każdy dziwny wzór w ciągu kilku sekund, na przykład jeśli jakieś urządzenie elektryczne jest zawsze włączone lub zaczyna się za wcześnie lub za późno.
Eric Duminil
4

Krytyka 1 w pierwotnym pytaniu dotyczy największej wady - trudność dla osoby czytającej mapę cieplną do odkodowania przekazywanych informacji ilościowych. Rozważ wykres punktowy xy lub wykres punktowy, w którym podstawowa wielkość jest bezpośrednio związana z odległością na wykresie - bardzo prosta do interpretacji.

Z drugiej strony na mapie ciepła osoba czytająca mapę może interpretować 10% „bardziej” lub „ciemniej” według własnego uznania. Do tego dochodzi problem różnych zdolności ludzi do rozpoznawania koloru i odcienia na początek. Są to prawdziwe wady, ale nie są śmiertelne.

Natomiast trzecia krytyka wydaje się nieumyślnie identyfikować przypadek, w którym mapy cieplne są szczególnie przydatne - gdy dane są grupowane na płaszczyźnie 2D, dzięki czemu podobne wartości w trzecim wymiarze są wyświetlane jako łaty określonego odcienia lub koloru. Chociaż mapy cieplne są w niektórych przypadkach nieskuteczne, są użyteczne dla innych i powinny pozostać w torbie, w taki sam sposób, w jaki golfiści często noszą kliny do rzucania lub podobne, mimo że są bezużyteczne do jazdy lub stawiania, lub stolarze nie lekceważ młoty, ponieważ nie nadają się do cięcia drewna.

Ogólnie wizualizowanie danych powinno być postrzegane jako działanie iteracyjne, które zajmie trochę czasu, gdy spróbujesz wielu wizualizacji, które wydobywają ważne cechy danych, w tym wypróbowanie więcej niż jednego rodzaju wizualizacji, a następnie eksperymentowanie w celu znalezienia najlepszych ustawień w konkretne wybory. Nie należy też zakładać, że rezultatem będzie jedna wizualizacja - czasami konieczne będzie wykonanie szeregu wizualizacji danych w celu podkreślenia wielu ważnych cech danych. W tym kontekście będą chwile, w których dla określonych cech określonych zestawów danych mapa ciepła będzie najskuteczniejsza, a przekazywanie klastrów, jak opisano, może być jednym z tych czasów. Ogólnie rzecz biorąc, często zdarzają się sytuacje, w których jedna wizualizacja nie jest w stanie zrobić wszystkiego, a więcej niż jedna będzie wymagana.

Robert de Graaf
źródło
3

Jak wspominają inni, naprawdę niewłaściwe jest twierdzenie, że mapy cieplne są zawsze nieskuteczne. W rzeczywistości są one dość skuteczne w wielu przypadkach.

Na przykład, jeśli chcesz wizualizować dane 4D, wystarczy wykonać trzy pierwsze wymiary w wielu programach do drukowania. Jednak cała koncepcja 4D jest dość trudna do konceptualizacji. Co to jest „czwarty” kierunek / wymiar?

Właśnie tam mapa ciepła może być skuteczna, ponieważ pozwoli na wykreślenie pierwszych trzech wymiarów na osi współrzędnych, a czwarty może być wizualizowany poprzez ułożenie mapy ciepła na wykreślonej płaszczyźnie (lub linii, ale jest to mniej prawdopodobne).

Najważniejsze jest to, że potrzebujesz kontekstu. Czego szukasz w swojej wizualizacji? Ponadto jako samouk nauczycielski mogę powiedzieć, że te kursy online są bardzo trywialne i nieprzydatne. Lepiej jest korzystać z nich tylko wtedy, gdy szukasz informacji / pomocy na określone tematy, niż gdy chcesz uczyć się na cały temat.

W każdym razie powodzenia.

Abraham Horowitz
źródło
3

Z natury mapa ciepła wyświetla dane z dwiema ciągłymi zmiennymi niezależnymi (lub, niezupełnie równoważnymi, jedną zmienną niezależną z dwuwymiarowej przestrzeni wektorowej) i jedną ciągłą zmienną zależną. W przypadku danych tego typu mapa cieplna jest zdecydowanie jednym z najbardziej skutecznych rodzajów wizualizacji danych. Tak, ma swoje problemy, ale jest to nieuniknione: naprawdę masz tylko dwa wymiary do pracy, a trójwymiarowej przestrzeni nie można odwzorować na to w sposób zachowujący strukturę , dlatego potrzebujesz włamania, takiego jak odwzorowanie jednego wymiaru na kolor lub rysowanie linii konturowych itp.

R2X×Y|X||Y|, która jest skończona dla zmiennej kategorialnej - innymi słowy, iloczyn kartezjański dwóch zmiennych kategorycznych można uznać za pojedynczą zmienną kategorialną ! I w tym świetle możesz równie dobrze korzystać z innych wykresów, które nie mają problemów z mapą ciepła.

Jeśli znajdziesz się w sytuacji, w której mapa cieplna dwóch zmiennych jakościowych wydaje się przydatna, oznacza to, że prawdopodobnie nie są to tak naprawdę zmienne jakościowe, ale raczej zmienne ciągłe kwantyzowane.

po lewej stronie
źródło
4
Ta odpowiedź jest interesująca, ale myślę, że krótko omija pojęcie używania map cieplnych ze zmiennymi kategorialnymi. Na przykład, można uszeregować poziomy jakościowe według ich liczby (lub innej odpowiedniej zmiennej sortującej), a następnie użyć mapy cieplnej do wizualizacji rozkładu połączeń lub innej wielkości, która zmienia się wraz z połączonymi poziomami jakościowymi. Można to powiązać z kopulami (i ich ogólnymi pojęciami). Takie wizualizacje, jeśli są dobrze wykonane, mogą ujawnić prawdziwą strukturę danych, która w innym przypadku byłaby bardzo trudna do wykrycia. (...)
kardynał
(...) Takie podejście jest niezależne od jakiegokolwiek (bezpośredniego) pojęcia osadzenia poziomów kategorialnych w przestrzeni euklidesowej.
kardynał
Zastanawiałem się, czy masz jakiś komentarz na temat praktyki używania map cieplnych do danych ekspresji genów / danych mikromacierzy - wyglądałoby to na przypadki użycia map cieplnych dla 2 zmiennych jakościowych i jednej zmiennej ciągłej, dla których zmienne jakościowe nie mogą być naprawdę interpretowane jako kwantyzowane zmienne ciągłe. Albo zgaduję, że mapy cieplne dla macierzy korelacji zmiennych kategorialnych ogólnie.
Chill2Macht
3

Mapy cieplne świetnie nadają się do zapewnienia uproszczonego widoku wielu zmiennych z perspektywy szeregów czasowych - dane mogą być zmianami bezwzględnymi w czasie lub znormalizowane przy użyciu wyników Z lub innych środków do badania zmiennych o różnych odstępach pomiaru lub względnych zmian w podgrupach. Zapewnia bardzo widoczny wizualnie widok, w którym można dostrzec korelacje lub inwersje i zastępuje wiele wykresów. Można je również wykorzystać do wstępnego przetwarzania w celu oceny możliwego zmniejszenia wymiarów, tj. Faktoringu lub PCA.

Źle interweniujące zmienne i inne czynniki mogą zostać ukryte i pominięte, gdy zastosujemy to podejście do wykrycia korelacji. Te same ukryte aspekty występują w przypadku wykresów liniowych - jednak biorąc pod uwagę dużą liczbę zmiennych - moje doświadczenie jest takie, że mapy cieplne dostarczają tyle informacji, że użytkownik nie bierze pod uwagę aspektów pośrednich ani innych ukrytych czynników.

To z punktu widzenia naukowca z perspektywy postępowego ekonomisty z 20-letnim doświadczeniem w dziedzinie produkcji danych i zadaniem edukowania społeczeństwa takimi danymi.

Paul Tulloch
źródło
1

Mapy termiczne mają przewagę nad wykresami rozrzutu, gdy istnieje zbyt wiele punktów danych, aby można je było wyświetlić na wykresie rozrzutu. Można to złagodzić za pomocą wykresu rozrzutu za pomocą półprzezroczystych punktów danych, ale poza pewnym progiem lepiej jest podsumować dane.

W tym blogu podano przekonujący przykład trudnych do interpretacji wykresów rozrzutu.

Wykres rozrzutu może jedynie wizualnie przedstawiać gęstość do pewnego progu - progu „punktów wszędzie” ...

Gęstość wykresu, a nie punkty

Rozwiązaniem jest wykreślić gęstość podzielonych punktów zamiast samych punktów. Znamy już tę metodę w jednym wymiarze jako histogram.

W dwóch wymiarach można to zrobić na wiele sposobów. Kształty pojemników można pobrać z dowolnej metody równomiernego układania płaszczyzny, takiej jak kwadraty lub sześciokąty. Dla każdego kafelka liczona jest liczba punktów danych w kafelku. Kafelek otrzymuje następnie kolor zgodnie z liczbą punktów.

Podobna wypowiedź z dokumentów ggplot2 na mapie termicznej bin 2d liczy :

Jest to przydatna alternatywa geom_point()w przypadku nadmiernego kreślenia.

W dokumentach geom_point():

Overplotting

Największym potencjalnym problemem związanym z wykreślaniem wykresu rozrzutu jest wykreślanie: za każdym razem, gdy masz więcej niż kilka punktów, punkty mogą być nanoszone jeden na drugim. Może to poważnie zniekształcić wygląd fabuły. Nie ma jednego rozwiązania tego problemu, ale istnieją pewne techniki, które mogą pomóc. Możesz dodać dodatkowe informacje za pomocą geom_smooth(), geom_quantile()lub geom_density_2d(). Jeśli masz kilka unikalnych wartości x, geom_boxplot()może być również przydatne.

Alternatywnie, można podsumować liczbę punktów w każdej lokalizacji i wyświetla, że w jakiś sposób, za pomocą geom_count(), geom_hex()lub geom_density2d().

Inną techniką jest uczynienie punktów przezroczystymi (np. geom_point(alpha = 0.05)) Lub bardzo małymi (np geom_point(shape = ".").).

qwr
źródło