Mam trudności z wyborem właściwego sposobu wizualizacji danych. Załóżmy, że mamy księgarnie, które sprzedają książki , a każda książka ma co najmniej jedną kategorię .
W przypadku księgarni, jeśli policzymy wszystkie kategorie książek, uzyskamy histogram pokazujący liczbę książek należących do określonej kategorii dla tej księgarni.
Chcę wyobrazić sobie zachowanie księgarni, chcę sprawdzić, czy faworyzują kategorię nad innymi kategoriami. Nie chcę wiedzieć, czy wszyscy razem faworyzują science fiction, ale chcę sprawdzić, czy traktują każdą kategorię jednakowo.
Mam ~ 1 mln księgarń.
Myślałem o 4 metodach:
Próbkuj dane, pokaż tylko 500 histogramów księgarni. Pokaż je na 5 osobnych stronach za pomocą siatki 10x10. Przykład siatki 4x4:
Taki sam jak nr 1. Ale tym razem posortuj wartości osi x według ich liczby zliczeń, więc jeśli pojawi się faworyzowanie, będzie to łatwo widoczne.
Wyobraź sobie składanie histogramów w # 2 razem jak talię i pokazywanie ich w 3D. Coś takiego:
Zamiast używać koloru próbnego trzeciej osi do reprezentowania kolorów, więc użyj mapy termicznej (histogram 2D):
jeśli ogólnie księgarnie wolą niektóre kategorie od innych, będą wyświetlane jako ładny gradient od lewej do prawej.
Czy masz jakieś inne pomysły / narzędzia wizualizacji do reprezentowania wielu histogramów?
źródło
Odpowiedzi:
Jak się dowiedziałeś, nie ma łatwych odpowiedzi na twoje pytanie!
Zakładam, że chciałbyś znaleźć dziwne lub różne księgarnie? Jeśli tak jest, możesz spróbować PCA ( więcej szczegółów znajdziesz na stronie analizy klastra wikipedia ).
Aby dać ci pomysł, rozważ ten przykład. Masz 26 księgarń (o nazwach A, B, .. Z). Wszystkie księgarnie są podobne, z wyjątkiem:
Główny wątek komponentów podkreśla te sklepy do dalszego badania.
Oto przykładowy kod R:
To daje następujący wątek:
Działka PCA http://img265.imageshack.us/img265/7263/tmplx.jpg
Zauważ, że:
Inne możliwości
Możesz także spojrzeć na GGobi , nigdy go nie używałem, ale wygląda interesująco.
źródło
Sugerowałbym coś, co nie ma określonej nazwy (prawdopodobnie „równoległy wykres”) i wygląda następująco:
Zasadniczo rysujesz wszystkie liczby dla wszystkich księgarń jako punkty nad kategoriami wymienionymi na osi x i łączysz wyniki z każdej księgarni za pomocą linii. Jednak może to być zbyt splątane dla linii 1M. Koncepcja pochodzi od GGobi, o której wspominał już csgillespie.
źródło