Kiedy warto korzystać z interaktywnej wizualizacji danych?

17

Przygotowując się do wykładu, który wkrótce przedstawię, niedawno zacząłem zagłębiać się w dwa główne (bezpłatne) narzędzia do interaktywnej wizualizacji danych: GGobi i Mondrian - oba oferują szeroki zakres możliwości (nawet jeśli są nieco wadliwe).

Chciałbym prosić o twoją pomoc w artykułowaniu (zarówno dla siebie, jak i dla mojej przyszłej publiczności) Kiedy pomocne jest używanie interaktywnych fabuł? Albo do eksploracji danych (dla nas samych) i prezentacji danych (dla „klienta”)?

Gdy wyjaśniając dane klientowi, widzę wartość animacji dla:

  • Używanie „identyfikowania / łączenia / szczotkowania” do sprawdzania, który punkt danych na wykresie jest czym.
  • Przedstawienie analizy wrażliwości danych (np .: „jeśli usuniemy ten punkt, oto, co otrzymamy)
  • Pokazuje wpływ różnych grup na dane (np .: „spójrzmy na nasze wykresy dla mężczyzn, a teraz dla kobiet”)
  • Pokazanie wpływu czasu (lub wieku lub ogólnie, oferowanie innego wymiaru prezentacji)

Ponieważ podczas eksploracji danych sam widzę wartość identyfikowania / łączenia / szczotkowania podczas eksploracji wartości odstającej w zbiorze danych, nad którym pracujemy.

Ale poza tymi dwoma przykładami nie jestem pewien, jakie inne praktyczne zastosowanie oferują te techniki. Specjalnie dla naszej własnej eksploracji danych!

Można argumentować, że część interaktywna jest dobra do badania (na przykład) innego zachowania różnych grup / klastrów w danych. Ale kiedy (w praktyce) zbliżyłem się do takiej sytuacji, miałem tendencję do przeprowadzania odpowiednich procedur statystycznych (i testów post-hoc) - a co uznałem za znaczące, wykreśliłem kolory z wyraźnym podziałem danych na odpowiednie grupy. Z tego, co widziałem, jest to bezpieczniejsze podejście niż „zastanawianie się” nad danymi (co może z łatwością doprowadzić do pogłębienia danych (gdyby zakres wielokrotnego porównania potrzebnego do korekty nie był nawet jasny).

Z przyjemnością przeczytam twoje doświadczenia / przemyślenia na ten temat.

(to pytanie może być wiki - chociaż nie jest subiektywne, a dobrze przemyślana odpowiedź chętnie zdobędzie mój znak „odpowiedzi”).

Tal Galili
źródło
3
Przynajmniej w moim przypadku jestem nieco na tej samej łodzi. Doceniam Mondrian i zachować go na bieżąco, ale kiedy rzeczywiście zbadać nowy zestaw danych to bywa w R, który jest mniej interaktywny, ale bardziej elastyczny kombinezon. Zacząłem pisać Państwu pełną odpowiedź i uświadomiłem sobie, że mówił w teoretyczna, a nie z rzeczywistego doświadczenia.
Wayne,

Odpowiedzi:

8

Oprócz łączenia danych ilościowych lub jakościowych ze wzorami przestrzennymi, jak zilustrował @whuber, chciałbym wspomnieć o zastosowaniu EDA, w połączeniu ze szczotkowaniem i różnych połączonych wykresów, do analizy danych podłużnych i wielowymiarowych .

Oba są omówione w doskonałej książce, Interactive and Dynamic Graphics for Data Analysis With R i GGobi , autorstwa Dianne Cook i Deborah F. Swayne (Springer UseR !, 2007), którą z pewnością znasz. Autorzy mają dyskusję ładnie na EDA w rozdziale 1, uzasadniające potrzebę EDA aby „wymusić nieoczekiwane nad nami”, cytując Jana Tukeya (str. 13): Wykorzystanie interaktywnych i dynamicznych wyświetlaczy jest ani dane podglądanie , ani dane wstępne inspekcja (np czysto graficzne podsumowania danych), ale to jest tylko postrzegane jako interaktywny dochodzenia danych, które mogłyby poprzedzają lub uzupełniają czystej hipotezy oparte modelowania statystycznego.

Używanie GGobi wraz z interfejsem R ( rggobi ) rozwiązuje również problem generowania grafiki statycznej dla raportu pośredniego lub ostatecznej publikacji, nawet z Pursuit Projekcji (str. 26-34), dzięki pakietom DescribeDisplay lub ggplot2 .

W tym samym wierszu Michael Friendly od dawna zaleca stosowanie wizualizacji danych w analizie danych kategorialnych, co w dużej mierze zostało zilustrowane w pakiecie vcd, ale także w nowszym pakiecie vcdExtra (w tym dynamicznym viz. Poprzez pakiet rgl ), który działa jak klej między VCD i GNM pakietów rozszerzenie modele log-liniowe. Niedawno dał piękny podsumowanie tej pracy w ciągu 6 Carme konferencji Advances in wizualizacji Categorical danych przy użyciu VCD, GNM i vcdExtra pakietów w R .

Dlatego EDA można również traktować jako wizualne objaśnienie danych (w tym sensie, że może ono uwzględniać nieoczekiwane wzorce w obserwowanych danych) przed podejściem opartym wyłącznie na modelu statystycznym lub równolegle z nim. Oznacza to, że EDA zapewnia nie tylko użyteczne sposoby badania wewnętrznej struktury dostępnych danych, ale może również pomóc w dopracowaniu i / lub podsumowaniu zastosowanych do nich modeli statystycznych. Jest to w istocie co biplots umożliwić zrobić, na przykład. Mimo że nie są wielowymiarowe techniki analizy per se , są narzędzia do wizualizacji wyników analizy wielowymiarowej (przez co daje przybliżeniez relacji Rozważając wszystkie osoby razem, albo wszystkie zmienne razem, lub obu). Wyniki czynnik może być stosowany w kolejnym modelowanie miejsca oryginału metryki albo zmniejszenia wymiaru lub zapewnienia pośrednie poziomy reprezentacji.

Dygresja

Ryzykując, że będę staroświecki, nadal korzystam od czasu xlispstat( Luke Tierney ). Ma proste, ale skuteczne funkcjonalności dla interaktywnych wyświetlaczy, obecnie niedostępnych w bazie grafiki R. Nie znam podobnych możliwości w Clojure + Incanter (+ Processing).

chl
źródło
8

Dynamiczne łączenie grafiki jest naturalne i skuteczne w eksploracyjnej analizie danych przestrzennych lub ESDA . Systemy ESDA zazwyczaj łączą jedną lub więcej map ilościowych (takich jak mapy choropleth ) z widokami tabelarycznymi i grafiką statystyczną danych bazowych. Niektóre z tych możliwości są częścią kilku stacjonarnych systemów GIS od około 15 lat, w szczególności ArcView 3 (wycofany produkt komercyjny). Wolna geoda oprogramowanie zapewnia niektóre z tych możliwości w środowisku przeznaczonym do przestrzennego eksploracji danych i analizy statystycznej. Jest niezgrabny, z charakterystycznym interfejsem i niepolerowaną grafiką, ale dość wolny od błędów.

Takie zastosowanie EDA pozwala obejść zarzut, że testowanie statystyczne może być lepsze niż badanie interaktywne, ponieważ w wielu (najbardziej?) Sytuacjach nie ma jasnego modelu statystycznego, nie ma oczywistego (lub nawet odpowiedniego) testu statystycznego, a testowanie hipotez jest często nieistotne: ludzie muszą zobaczyć, co się dzieje , gdzie to się dzieje , i obserwować zależności statystyczne między zmiennymi w kontekście przestrzennym. Nie każda analiza danych jest lub powinna składać się z formalnych procedur!

Whuber
źródło
Witam Whuber. Twój przykład ESDA jest doskonałym przykładem, dziękuję! Jeśli ty (lub inni) możesz zasugerować inne przykłady, kiedy formalne procedury są mniej istotne - byłoby to najbardziej pomocne.
Tal Galili
7

Mi interaktywna wizualizacja jest przydatna tylko dla własnej eksploracji, lub podczas pracy z bardzo praktyczne na kliencie. Gdy mamy do czynienia z ostatecznej prezentacji, wolę wybrać statyczny wykres, który najlepiej sprawia, że ​​mój punkt widzenia. W przeciwnym razie klienci mogą być całkowicie rozproszeni przez czynnik gee-whiz.

Największą korzyścią, jaką z tego czerpię, jest poziom prędkości, który pozwala mi badać znacznie więcej, niż gdybym przestał programować rozwiązanie. JMP jest jednym z moich ulubionych narzędzi do tego, ponieważ integruje tak wiele z tego, co chcę w jednym interfejsie. Myślę, że większość ludzi, którzy są dobrymi programistami statystycznymi, wypróbowuje coś takiego jak JMP (lub GGobi itp.) Przez zbyt krótki okres, aby naprawdę być w tym dobrym. W szczególności JMP daje wrażenie, że go znasz, po prostu przeglądając menu. Jednak praca z instrukcją jest naprawdę wymagana, aby odkryć całą jej moc.

Wspomniałeś o mojej głównej trosce o ten poziom prędkości: ostatecznie nie masz pojęcia, co oznaczają twoje wartości p. W ciągu zaledwie kilku minut można zbadać setki relacji wizualnie. Testowanie hipotez jest jednak całkowicie mylące, ale widzę, że ludzie robią to cały czas.

Cechą kocham w GGobi jest jego dążenie do projekcji, w którym można określić, jaki rodzaj wzorca szukać w dużej przestrzeni trójwymiarowej, a następnie usiąść i obejrzeć go „ścigać” ten cel. Świetna sprawa!

użytkownik3155
źródło
2
+1. Uwaga o końcowych prezentacjach przypomina, jako znaczący kontrprzykład, słynny wykład TED Hansa Roslinga z 2006 roku ( ted.com/talks/… ). Re: kwestia zbadania „o wiele więcej” przypomina mi się, jak prawnik z zeznań zapytał mnie o to, w jaki sposób zbadałem dane, które poparły moje zeznanie, i jak jej twarz opadła, gdy dowiedziała się, że praca została wykonana interaktywnie i dlatego nic nie zostało wydrukowane lub zapisane (która mogłaby następnie wezwanie do sądu, badać i próbować zakwestionować). ;-)
whuber
JMP jest jednym z najmilszych stats aplikacji tam. Statystycy zdecydowanie powinni nauczyć się go używać, jeśli tylko zaimponować swoim klientom. Jest to kosztowne, ale tanie, jeśli jesteś studentem lub pracownikiem w szkole / uczelni / uni
Neil McGuigan