Ile zmiennych mogę przedstawić graficznie przed utratą przejrzystości?

14

Zobaczmy, czy potrafię poprawnie wyjaśnić to pytanie dotyczące ekonomii graficznej . Jestem nowy w tej dziedzinie i warto wspomnieć, że to czysta ciekawość, a moje przykłady są - jak będziecie wkrótce mogli powiedzieć - całkowicie wymyślone.

Ile zmiennych mogę przedstawić graficznie, zanim mój wykres utraci jakość komunikacji? Przypuśćmy, że moimi odbiorcami są na przykład czytelnicy niedzielnych gazet.

Załóżmy, że mam ten zestaw: waga (x) / wiek (y) i dwie osoby: Jane, 10yo, 30 kg; i Joe, 20yo, 60 kg. Graficzna reprezentacja może wyglądać mniej więcej tak:

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj

Teraz wiem, że mogę dodać inną zmienną, używając wielkości kół, więc jeśli chcę dodać reprezentację ilu hamburgerów Jane i Joe zjadają tydzień (odpowiednio 10 i 20), mógłbym mieć coś takiego:

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj

I mogę nawet użyć kształtu lub koloru + rozmiaru, aby dodać czwartą zmienną, na przykład, jeśli jedzą więcej cheeseburgerów niż burgerów wołowych (ograniczenie polega na tym, że typ burgera jest boolean, z tylko dwiema możliwymi wartościami), ale i tak:

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj

I tutaj myślę, że zaczyna się robić bałagan. Dodanie kształtów do zestawu w celu przedstawienia piątej zmiennej groziłoby „łatwością zrozumienia” wykresu. Kiedy patrzę na wykres, mój (konkretny) mózg przetwarza tylko 2 lub 3 zmienne, nie więcej. Czy jedzą na przykład kombinację czy tylko hamburgery ?:

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj

Myślałem o trzecim wymiarze, ale wyglądałoby to po prostu okropnie. Mogę myśleć o tym w całkowicie niewłaściwy sposób i istnieje szansa, że ​​brakuje mi czegoś oczywistego, czego nie mogę pojąć (na przykład, jeśli próba przedstawienia więcej niż 3 lub 4 zmiennych jest po prostu błędna jako praktyka), ale z powrotem na moje pytanie (pytania):

  • Czy 4 (może 5, jeśli wykres jest bardzo prosty jak mój) jest rozsądną liczbą dla maksymalnych zmiennych reprezentowanych jednocześnie na dwuosiowym wykresie?

  • Czy istnieją inne typy wykresów, które pozwalają na większą liczbę zmiennych bez utraty przejrzystości?

  • Czy istnieje dobry przykład wykresu, który odniósł sukces reprezentujący dużą liczbę zmiennych?

Yisela
źródło

Odpowiedzi:

14

Edycja III: Znalazłem niesamowicie wspaniały przykład wielowymiarowej wizualizacji danych ilościowych i musiałem ją dodać. Znajdziesz go pod nagłówkiem „Edycja III (laureaci Nagrody Nobla)”.

Edycja II: nastąpiło małe nieporozumienie, a ja zredagowałem, aby wyjaśnić, w jaki sposób interpretuję zamierzone wykorzystanie danych. Zamieniłem dwa obrazy i dodałem sekcję „Czy chcesz z tym frytki?”


Grafika ujawnia dane.

Edward Tufte:

Zaśmiecenie i zamieszanie to niepowodzenia projektu, a nie atrybuty informacji. Clutter wymaga rozwiązania projektowego, a nie redukcji treści. Dość często im bardziej szczegółowy detal, tym większa jasność i zrozumienie, ponieważ znaczenie i rozumowanie są bezwzględnie KONTEKSTOWE. Mniej to nuda.

Dlaczego wizualizujemy dane?

  • Narzędzia do myślenia
  • Aby pokazać wynik intensywnego widzenia
  • Aby zrozumieć problem, podjąć decyzję
  • Pokaż porównania, pokaż przyczynowość
  • Podaj powody, by wierzyć

W jaki sposób?

  • pokaż dane
  • skłaniają widza do myślenia o treści, a nie o metodologii, projektowaniu graficznym, technologii produkcji graficznej lub czymś innym
  • unikaj zniekształcania danych
  • przedstawić wiele liczb na małej przestrzeni
  • spójność dużych zbiorów danych
  • zachęcaj oko do porównywania różnych danych
  • ujawniają dane na kilku poziomach szczegółowości, od szerokiego przeglądu po drobną strukturę.
  • służą względnie jasnemu celowi: opisowi, eksploracji, zestawieniu lub dekoracji.
  • być ściśle zintegrowane ze statystycznymi i ustnymi opisami zbioru danych.

Kilka definicji:

Dane:

jest ogólnie uważany za „rzeczy posortowane w bazach danych”. Mogą to być oczywiście liczby, obrazy, dźwięk, wideo itp. Dane są gromadzone, często ilościowe. W najbardziej surowej formie jest trudny do strawienia; tylko ściany cyfr. Wiesz; matryca . Ogólnie rzecz biorąc, nie mamy ogromnych baz danych składających się z zer, dla wszystkich rzeczy, których nie mamy, nawet jeśli czasami rzeczy, których nie mamy, są tymi, które są najbardziej pouczające . Tak więc, aby zobaczyć to, czego nie ma, musimy uzmysłowić, co nie mają.

Informacja:

to, co możesz wyciągnąć z danych . W jakiś sposób wyświetlając dane, możemy gromadzić informacje . Jednym z przykładów, których często używam, jest to, że jeśli podam wam listę krajów świata i powiem, że brakuje dwóch, jest bardzo mało prawdopodobne, że znajdziecie je na podstawie tej listy. Jeśli jednak pokażę to, kolorując wszystkie kraje, które mam na mapie, natychmiast zobaczysz, że pominąłem Republikę Środkowoafrykańską i Nową Kaledonię. Jest to „redukcja hałasu” i opowiadanie historii w najbardziej efektywny możliwy sposób.

Infografiki i wizualizacje danych:

Waham się, aby nazwać twój przykładowy infografikę. Wiem, że jest to często postrzegane jako synonim wizualizacji danych, projektowania informacji lub architektury informacji, ale nie zgadzam się. Infografiki - dla mnie - to seria wykresów, diagramów i ilustracji, które mogą zawierać wiele stronniczych stwierdzeń dotyczących sposobu odczytywania danych. Jest mniej obiektywny, bardziej podatny na pomijanie danych, które nie leżą w „interesie” twórcy: kierujesz się wnioskiem, który ktoś wcześniej zdefiniował. Mają wartość rozrywkową i często przytłaczają ilustracje, które odwracają uwagę od danych. W porządku, ale myślę, że powinniśmy trochę rozróżnić.

Przykłady

Duże dane:

Pamiętaj, że duże zbiory danych to nie to samo, co złożone dane. Wiele danych może być po prostu takich samych, takich jak ta mapa LinkedIn: podstawowe dane są takie same, ale są filtry (przez tagowanie). Istnieją dwie zmienne: geografia i pewnego rodzaju znacznik definiujący ludzi do zawodów / zainteresowań / relacji. Szalona ilość danych; ale tylko dwie zmienne.

wprowadź opis zdjęcia tutaj

Wielowymiarowy:

Oto przykład wielowymiarowej wizualizacji danych. To wykres Charlesa Minarda z 1869 r., Pokazujący liczbę mężczyzn w rosyjskiej armii kampanii Napoleona z 1812 r., Ich ruchy, a także temperaturę, jaką napotkali na drodze powrotnej. Duża wersja tutaj. wprowadź opis zdjęcia tutaj

Złamanie kodu zajmuje trochę czasu, ale kiedy to zrobisz, jest to wspaniałe. Omawiane zmienne to:

  • wielkość armii (liczba żywych / martwych)
  • Lokalizacja geograficzna
  • kierunek (wschód - zachód)
  • temperatura
  • czas (daty)
  • związek przyczynowy (zmarł w bitwach i przeziębieniu)

To niesamowita ilość informacji na prostej, dwukolorowej mapie. Część geograficzna jest stylizowana, aby dać miejsce innym zmiennym, ale nie mamy problemu z jej uzyskaniem.

Oto trudniejszy. Będzie to o wiele łatwiejsze do odczytania, jeśli znasz podstawowe wizualizacje ewolucyjne, kladogramy, filogenikę i zasady biogeografii. Pamiętaj, że jest przeznaczony dla osób obeznanych z tym, więc jest to specjalistyczna, naukowa mapa. Oto, co pokazuje: filogeograficzny obraz linii trujących żab z Ameryki Południowej. Mapy po lewej pokazują główne regiony biogeograficzne, które zmieniają się w czasie, a obraz po prawej stronie pokazuje linie żab w kontekście ich pochodzenia biogeograficznego. (Autorzy: Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R i wsp. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], za pośrednictwem Wikimedia Commons). Kiedy „łamiesz kod”, jest to niezwykle pouczające.

wprowadź opis zdjęcia tutaj

Małe wielokrotności, wykresy przebiegu w czasie:

Nie mogę tego wystarczająco podkreślić: nigdy nie lekceważ wartości powtarzania informacji lub dzielenia ich na osobne identyczne wizualizacje. Tak długo, jak można stosunkowo łatwo porównać jeden wykres z drugim, jest to całkowicie w porządku. Jesteśmy maszynami poszukującymi wzorów. Jest to często określane jako małe wielokrotności. Mamy kilka problemów z dość szybkim analizowaniem tych obrazów, a wtłoczenie wszystkiego w jeden duży wykres jest często bezcelowe, gdy dziesięć małych będzie działać jeszcze lepiej:

wprowadź opis zdjęcia tutaj

Inny:

wprowadź opis zdjęcia tutaj

I który wykorzystuje inną, ale powtarzającą się grafikę:

wprowadź opis zdjęcia tutaj

Wykresy przebiegu w czasie to termin ukuty przez Edwarda Tufte'a, który rozwinął się również w pełni funkcjonalną, w pełni konfigurowalną bibliotekę javascript. Są to w zasadzie małe wykresy, które można wstawiać do tekstu, jako część tekstu, a nie jako „zewnętrzny” obiekt. Oto jak wyglądają domyślne: wprowadź opis zdjęcia tutaj

Edycja III (laureaci Nagrody Nobla)

Musiałem tylko dodać tę wizualizację danych, którą znalazłem, jest po prostu zbyt dobra: pokazuje laureatów Nagrody Nobla. Jaki uniwersytet, jaki wydział, przedmiot, rok, wiek, miasta, czy to było wspólne, stopień naukowy. Rzeczywiście piękny dowód. Są to wszystkie dane kwantyfikowalne. Więcej tutaj.

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

Twoje dane

Wszystkie pytania postawione przez Javi są niezwykle ważne.

To, co próbujesz zrobić, to stworzyć wizualne narzędzie do myślenia. Aby to zrobić, musisz wyodrębnić najlepszą jakość stosunku sygnału do szumu. Walczysz z tym, jak skorelować dane, które mają różne zmienne, w informacje . Oto pytanie: co powinno być w przybliżeniu właściwe, a co dokładnie właściwe? Jaki jest cel

Zakładam, że chcesz wyświetlać dane bez zbytniego odchylenia: chcesz, aby czytelnik sam odnalazł korelacje, jeśli istnieje jakakolwiek korelacja. Twoim celem nie jest mówienie ludziom, że hamburgery są dla nich złe lub że kobiety jedzą mniej hamburgerów niż mężczyzn, ale pozwolenie im „zobaczyć” to, jeśli tak zawierają dane (wyobraź sobie, że te trzy osoby byłyby rodziną. huśtawka na nasz widok całego wykresu jedzenia burgera).

Twój zestaw danych jest tak mały, że możesz po prostu umieścić to wszystko w tabeli i byłoby dobrze. Ale oczywiście chodzi o ogólny pomysł:

Mały szczegół: czas (wiek) to coś, co postrzegamy jako horyzontalne od lewej do prawej (linie czasu). Zrób coś w górę iw dół, więc zmiana x - y byłaby dobrym pomysłem.

1. Jakie są unikalne, stałe byty?

  • Nazwy

2. jakie są zmienne (eh ..) zmienne?

  • waga (kg)
  • Wiek (lata)
  • Liczba hamburgerów (liczba całkowita)
  • Rodzaj burgerów (liczba całkowita)

Uwaga: twoje dane składają się wyłącznie z jednostek. Policzalne, policzalne, każdy na osobnej skali mentalnej. Kilogram, wiek, waga i liczby. A w mowie bazy danych ich nazwy są kluczami. Kiedy zaczynasz robić wizualizacje czasoprzestrzenne, staje się to prawdziwym bólem głowy. Wyobraź sobie, że powinieneś dodać miejsce urodzenia, obecny dom itp.

Jedyne dwa, które mają tutaj korelację, to liczba hamburgerów i więcej, czy nie, to kombinacja. Wszystkie pozostałe zmienne są niezależne i tylko jedna jest stała (nazwa). W pewnym momencie, przy dużych zestawach danych, nawet imiona stają się nieciekawe i zastępowane są przez dane demograficzne, wiek, płeć itp.

Za pomocą tego niewielkiego zestawu danych możesz uzyskać wszystko na jednym wykresie, na przykład w następujący sposób: wprowadź opis zdjęcia tutaj

Możesz też zmienić oś i zawartość bąbelków nazw:

Uwaga osobista: Myślę, że jest to lepsza z tych dwóch cech, ponieważ xiy zawierają „fizyczne” właściwości istoty ludzkiej. Zmienną w bąbelkach tutaj jest liczba burgerów.

wprowadź opis zdjęcia tutaj

Możesz również dodać wykresy kołowe oprócz wykresu, a nawet mieć tylko wykresy kołowe. Osobiście miałbym oba, jak wspomniano o małych wielokrotnościach: wprowadź opis zdjęcia tutaj

Chcesz do tego frytki?

Moje założenie było takie, że chcieliśmy również poznać stosunek burgera do posiłku. Każdy posiłek zawiera burgera. Nie wszystkie posiłki są kombinacjami.

  1. czy chcemy tylko wiedzieć, czy dana osoba czasami je kombi?
  2. czy chcemy wiedzieć, ile posiłków z burgerami jest również kombinacjami?

Jeśli 1., logiczna wartość zastosowana do nazwy / klucza / identyfikatora byłaby wystarczająca.

Jane czasami je kombi? Prawda fałsz.

Jeśli 2., możemy zastosować wartość logiczną do każdego posiłku:

1 cheeseburger, combomeal = true

1 cheeseburger, combomeal = true

1 cheeseburger, combomeal = false

1 cheeseburger, combomeal = false

1 cheeseburger, combomeal = false

1 cheeseburger, combomeal = false

1 cheeseburger, combomeal = false

1 wołowina, kombinacja = prawda

1 wołowina, kombinacja = prawda

1 wołowina, kombinacja = fałsz

Jest to bardzo nużące, dlatego możemy to rozbić na:

Jane zjada 10 hamburgerów. Trzy z nich to kombinacje („czy chcesz z tym frytki?”).

Jednym z nich jest menu wołowiny.

Dwie z nich to menu cheeseburgera.

Reszta to single burgery. 5 serów, dwie wołowiny.

Ten piechart był próbą zwizualizowania tego. W tej wersji zachowałem plasterki ciasta, aby było wyraźniej. Chodzi o to, że nie byłoby przeskoku, aby rozpocząć stosowanie dużych zestawów danych i%: wprowadź opis zdjęcia tutaj

Ale myślę, że najlepszym sposobem jest ponowne przemyślenie.

Innym sposobem patrzenia na to jest naprawdę bardzo proste. Tutaj łatwiej jest zobaczyć, jakie grupy wiekowe, jakie grupy wagowe i wszystkie dane , których „nie masz”, mogą nam powiedzieć. Dane, które posiadasz, nie są związane z przestrzenią, są to tylko jednostki (kg, lata, liczby + klucz / identyfikator / nazwa):

(Edycja: Jajko na mojej twarzy: Zastąpiłem te obrazy bardziej poprawnymi, jeśli chodzi o „wszystkie posiłki to hamburgery, nie wszystkie posiłki są kombinacją”)

wprowadź opis zdjęcia tutaj Byłoby to dość łatwe do rozszerzenia przy większej liczbie osób:

wprowadź opis zdjęcia tutaj Lub nawet lepiej, jeśli porównasz grupy wiekowe 10, 20 i 30-latków, możesz zrobić dość prostą do odczytania wizualizację statystyczną:

wprowadź opis zdjęcia tutaj

..I po prostu tak jasno, jak to możliwe; oto przykład tego sposobu myślenia. Ta tabela pokazuje ocalałych z Titanica, stosunek załogi, klasy, mężczyzn, kobiet. wprowadź opis zdjęcia tutaj

Będzie wiele innych rozwiązań, to tylko kilka myśli.

Mógłbym iść dalej i dalej, ale teraz wyczerpałem się i prawdopodobnie wszyscy inni.

Narzędzia do zabawy:

gephi

Gapminder Zobacz fenomenalną prezentację TED Hansa Roslinga - uwielbiam tego faceta

Wykresy Google

somvis

Raphaël

MIT Exhibit (wcześniej o nazwie Similie)

d3

Highcharts

Dalsza lektura:

PJ Onori; W obronie twardego

Edward Tufte: Piękny dowód

Edward Tufte: Przewidywanie informacji

Edward Tufte: Wizualne wyświetlanie informacji ilościowych

Objaśnienia wizualne: obrazy i ilości, dowody i narracja

Mężczyzna, Alan., 2007 Ilustracja teoretyczna i kontekstowa perspektywa Lozanna, Szwajcaria; Nowy Jork, NY: AVA Academia

Isles, C. & Roberts, R., 1997. W świetle widzialnym, fotografii i klasyfikacji w sztuce, nauce i życiu codziennym, Muzeum Sztuki Nowoczesnej w Oksfordzie.

Card, SK, Mackinlay, J. & Shneiderman, B. eds., 1999. Readings in Information Visualization: Using Vision to Think 1st ed., Morgan Kaufmann.

Grafton, A. i Rosenberg, D., 2010. Kartografie czasu: historia osi czasu, Princeton Architectural Press.

Lima, M., 2011. Złożoność wizualna: mapowanie wzorców informacji, Princeton Architectural Press.

Bounford, T., 2000. Diagramy cyfrowe: Jak projektować i prezentować informacje statystyczne Skutecznie 0 ed., Watson-Guptill.

Steele, J. i Iliinsky, N. eds., 2010. Piękna wizualizacja: patrząc na dane oczami ekspertów 1. edycja, O'Reilly Media.

Gleick, J., 2011. Informacje: historia, teoria, powódź, panteon

benteh
źródło
Przeczytałem wszystko, ale wchłonięcie zajmie tygodnie. Powinieneś napisać książkę!
Joshua Frank
Jeśli chodzi o wizerunek nagrody Nobla, czy wiesz, jak to zrobili? Te płynące wstążki są po prostu piękne.
Joshua Frank
Nie, nie wiem, jak dokładnie to zrobiła, ale Giorgia Lupi bardzo chętnie odpowiadała na inne pytania, więc możesz po prostu zadać jej giorgialupi.net
benteh
Hej, dobry pomysł. Właśnie wysłałem jej email.
Joshua Frank
2
Zasługujesz na nagrodę Novell za tę odpowiedź n_n
Rafael
5

Myślę, że istnieje kilka dodatkowych pytań, które mogą zawęzić wyszukiwanie klucza do reprezentowania danych wśród odbiorców. Myślę o nich jak o ograniczeniu twojego CV do określonej pracy, którą chcesz.

  1. Dlaczego tworzysz infografikę?
  2. Jaki cel netto lub wynik chcesz, aby odbiorcy wiedzieli o twoich danych.
  3. Co wiesz o swoich odbiorcach i jak odnoszą się one do danych. (Wiek demograficzny, płeć, geolokalizacja, waga itp.)
  4. Jaki jest najważniejszy i najmniej ważny element danych, jakie pokażesz, i różnicę między nimi.
  5. W jakim medium / kontekście będziesz wyświetlać swoje dane, aby jak najlepiej osiągnąć swój cel „netto”, aby je utworzyć? Na przykład, czy będzie to cyfrowa reprezentacja danych czy fizyczna (pomyśl o żelkach w słoiku, jeśli twoimi odbiorcami są dzieci). Czy będzie to spotkanie biurowe czy przedsięwzięcie komercyjne?
  6. Czy dane można dzielić na różne infografy, zachowując jednocześnie integralność celu, jakim jest ich utworzenie.

Twoje dane i cel powinny określać warunki, które powinieneś pokazywać, a nie pokazywać. Na przykład, jak ważne byłoby pokazanie wykresu tego, co ludzie zamawiali w McDonald's we wtorek między 13:00 a 15:00, kiedy Twoim celem było tylko porównanie tego, co ludzie zamówili w ogóle. Zmienna czasowa nie jest potrzebna, chociaż mamy dla niej surowe dane. To nie był nasz cel.

Aby konkretnie odpowiedzieć na twoje pytania. Ja osobiście (subiektywna), że kiedy ominąć stosując three'ish / 4 zmienne (rozmiar, kształt, kolor, stanowisko) w podstawowej wykresie jak te, czytelnik (me) nudzi / zagubiony i znudzony / stracił prawdopodobnie nie powód utworzenia wykresu. Mogą być jednak całkowicie zabawne i naprawdę angażować publiczność. Na przykład coś takiego to jak przeciwstawiać się tym . Nie lekceważę znaczenia drugiego przykładu, ponieważ byłby to naprawdę skuteczny infograf, gdybym był na spotkaniu w biurze, pokazując ogólne dane. Wraca to do pytania o medium i kontekst wyświetlania danych.

Jeśli szukasz sposobów na pokazanie zmiennych w danych, sugerowałbym zbadanie infografiki. Oto dobry początek Smashing Magazine na temat tworzenia skutecznych infografik. Pamiętaj, że niektóre z nich mogą i są subiektywne.

Javi
źródło
2

To doskonałe pytanie. Naprawdę.

Doskonała linia myśli.

Powinno być trochę dyskusji na ten temat. Ale sformułuję to nieco inaczej:

**

Ile nieruchomości możemy powiązać z nowoczesnymi technologiami ilustracyjnymi i projektowaniem?

**

Odpowiedź składa się z trzech aspektów produkcji: prezentacji, wyglądu i sposobu prezentacji ... wszystko to połączone i uwzględnione przez odrobinę uwagi publiczności.

Wyświetlanie jest rzeczą fizyczną. Z ograniczeniami rozmiaru, rozdzielczości i przestrzeni kolorów.

Design jest nieograniczony, ale naprawdę interesujący aspekt tego pytania. Jak możemy wykorzystać nowoczesne technologie ilustracyjne i nasze rozumienie designu i kreatywności, aby jak najlepiej pokazać.

Tryby prezentacji są statyczne, dynamiczne lub interaktywne. Każdy z nich ma swoje mocne i słabe strony, a dodatkowo składa się z medium, rodzaju i wielkości wyświetlacza.

I jak słusznie zauważa Javi, ale być może nie jest wystarczająco blisko z ... TO JEST WSZYSTKIE SUBIEKTYWNE! - To akcent rozmyślania publiczności, biorąc pod uwagę równanie. Albo nie.

zmieszany
źródło