Próbuję wizualnie porównać, w jaki sposób trzy różne publikacje informacyjne obejmują różne tematy (określone na podstawie modelu tematycznego LDA). Mam dwie podobne metody, ale otrzymałem wiele opinii od kolegów, że nie jest to zbyt intuicyjne. Mam nadzieję, że ktoś ma lepszy pomysł na wizualizację tego.
Na pierwszym wykresie pokazuję proporcje każdego tematu w każdej publikacji:
Jest to dość proste i intuicyjne dla prawie wszystkich, z którymi rozmawiałem. Trudno jednak dostrzec różnice między publikacjami. Która gazeta omawia więcej tematów?
Aby to osiągnąć, przedstawiłem różnicę między publikacją o najwyższym i drugim najwyższym odsetku tematów, pokolorowaną przez publikację o najwyższym. Lubię to:
Tak więc, na przykład, ogromny pasek dla piłki nożnej jest naprawdę odległością między al-Ahram English i Daily News Egypt (# 2 w relacji piłkarskiej), i ma kolor czerwony, ponieważ Al-Ahram jest numerem 1. Podobnie, próby są zielone, ponieważ Egypt Independent ma najwyższy odsetek, a rozmiar paska to odległość między Egypt Independent a Daily News Egypt (ponownie # 2).
Fakt, że muszę wyjaśnić, że wszystko w dwóch akapitach jest dość pewnym znakiem, że wykres nie przejdzie testu samowystarczalności. Trudno powiedzieć, co się naprawdę dzieje, patrząc na to.
Jakieś ogólne sugestie dotyczące wizualnego podkreślenia dominującej publikacji dla każdego tematu w bardziej intuicyjny sposób?
Edycja: Dane do odtwarzania: Oto dput
dane wyjściowe z R , a także plik CSV .
Edycja 2: Oto wstępna wersja wykresu punktowego, której średnice kropek są proporcjonalne do proporcji tematu w korpusie (tak pierwotnie sortowano tematy). Chociaż wciąż muszę go trochę poprawiać, wydaje się bardziej intuicyjny niż to, co robiłem wcześniej. Dziękuję wszystkim!
źródło
Odpowiedzi:
Dziękujemy za udostępnienie danych oraz za interesujący zestaw danych i wyzwanie graficzne.
Moją główną sugestią jest wykres kropkowy (Cleveland).
Najważniejsze szczegóły, które chciałbym podkreślić:
Nakładanie tutaj pozwala i ułatwia porównanie.
Kolejność tematów na ekranach wydaje się dość dowolna. W przypadku braku naturalnego porządku (np. Czas, przestrzeń, zmienna uporządkowana) zawsze sortowałbym według jednej ze zmiennych, aby zapewnić szkielet. Które użyć może być kwestią tego, czy ktoś jest szczególnie interesujący, czy ważny, decyzja badacza. Inną możliwością jest uporządkowanie pod pewnymi względami różnic między artykułami, aby tematy o podobnym zasięgu były z jednej strony, a te z innym zasięgiem z drugiej.
Otwarte znaczniki lub symbole punktowe pozwalają lepiej rozwiązać nakładanie się lub tożsamość niż zamknięte lub pełne znaczniki lub symbole, które w najgorszych przypadkach wzajemnie się zasłaniają lub zakrywają. (Alternatywą, która może tu działać całkiem dobrze, są litery takie jak A, D i I dla trzech gazet).
Widocznie jest wiele możliwości ulepszenia mojego projektu. Na przykład, czy napis jest zbyt duży i / lub zbyt ciężki? Z drugiej strony nagłówki muszą być łatwe do odczytania, w przeciwnym razie wykres jest błędem.
Kilka mniejszych, pikniejszych punktów:
za. Czerwony i zielony na wykresie to kombinacja kolorów, której należy unikać. Gdy używane są różne znaczniki, wybór kolorów jest nieco mniej istotny.
b. Poziome pasy na wykresie rozpraszają uwagę. Dla kontrastu potrzebne są moje linie siatki, ale staram się, aby były dyskretne przy użyciu cienkich, lekkich linii.
Wykresy punktowe Cleveland zawdzięczają najwięcej
Cleveland, WS 1984. Graficzne metody prezentacji danych: podziałki w pełnej skali, wykresy punktowe i rejestrowanie wielopoziomowe. American Statistician 38: 270-80.
Cleveland, WS 1985. Elementy wykresów danych. Monterey, Kalifornia: Wadsworth.
Cleveland, WS 1994. Elementy wykresów danych. Summit, NJ: Hobart Press.
Jeden prekursor (bardziej znany statystycznie z zupełnie innej pracy !!!) był
Pearson, ES 1956. Niektóre aspekty geometrii statystyki: wykorzystanie prezentacji wizualnej do zrozumienia teorii i zastosowania statystyki matematycznej. Journal of Royal Statistics Society A 119: 125-146.
Dla zainteresowanych wykres został przygotowany w Stacie po przeczytaniu w .csv z kodem
źródło
Wykres kropkowy Nicka Coxa jest prawdopodobnie najlepszy dla pełnego obrazu. Jeśli naprawdę chcesz podkreślić relację między pierwszą a drugą, oto modyfikacja wykresu, która powoduje przesunięcie paska różnic o długość drugiego paska.
Aby uzyskać inny widok dużego obrazu, możesz wypróbować coś w rodzaju wykresu nachylenia lub wykresu współrzędnych równoległych. Linie mogą być tutaj trochę zatłoczone, ale może działać, jeśli chcesz wyróżnić podzbiór tematów.
Możesz także spróbować helpmeviz.com, który jest ukierunkowany na bardzo konkretne pytania dotyczące danych, takie jak ten.
źródło
Moim pierwszym instynktem było zasugerowanie fabuły mozaiki ; przedstawia każdą podkategorię w formie prostokąta, gdzie jeden wymiar reprezentuje całkowitą liczbę dla głównej kategorii, a drugi wymiar reprezentuje proporcjonalny udział podkategorii. Istnieje pakiet R do ich narysowania , ale jest to również dość proste w przypadku narzędzi graficznych niższego poziomu.
Jednak wykresy mozaikowe (takie jak skumulowane wykresy słupkowe oparte na procentach) działają najlepiej, jeśli w wymiarze są tylko 2 lub 3 kategorie, w których chcesz porównać proporcje. Działałyby więc dobrze, gdybyś chciał porównać różnice między tematami w proporcji artykułów, które były w każdej z trzech gazet , ale nie tak, jak w zamierzeniu, porównując różnice między trzema gazetami w proporcji zasięgu dla każdego tematu . Subtelne, ale ważne wyróżnienie!
Jeśli chodzi o to, co chcesz podkreślić, myślę, że najskuteczniejszy wykres jest jednym z najprostszych - zgrupowany wykres słupkowy. Więcej osób rozumie wykresy słupkowe niż wykresy punktowe; na pierwszy rzut oka widać, że porównujesz ilości o różnych rozmiarach, a wartości, które chcesz porównać, są obok siebie.
Jednakże, jeśli naprawdę chciał podkreślić różnice w proporcji, można utworzyć niestandardową pogrupowane wykres słupkowy, zmodyfikowany, aby umieścić każdą grupę tak, że wartość mediany dla każdej kategorii jest zgodna z osią, zamiast wartości zerowych:
Zauważ, że pręty w każdej grupie są nadal wyrównane w celu łatwego porównania wielkości i że linia podstawowa każdej grupy jest teraz umieszczona na lewo od osi zgodnie z wartością środkową tej grupy, podczas gdy pręty wystające na prawo od osi są równoważne do drugiego wykresu słupkowego pokazującego różnicę między dwiema górnymi kategoriami.
Niezależnie od tego, czy używasz standardowego zgrupowanego wykresu słupkowego, czy wykresu z korekcją przesunięcia, takiego jak powyżej, nadal możesz czerpać pomysł z wykresów mozaikowych i ustawić szerokość każdego słupka proporcjonalnie do całkowitej liczby artykułów dla tej gazety (więc wielkość pasek jest proporcjonalny do liczby artykułów w tej gazecie w tej kategorii).
Ponieważ statystyki testowe są właściwością każdego porównania , a nie poszczególnych wartości, nie sądzę, aby przydatne było skalowanie każdego punktu danych zgodnie ze znaczeniem. Zamiast tego miałbym ikonę obok każdej grupy reprezentującą znaczenie. W przypadku publikacji akademickich standard
*
/**
/***
ma tę zaletę, że jest znana, ale możesz wykazać się kreatywnością, jeśli chcesz pokazać pełne kontinuum statystyki.źródło
Czy próbowałeś już wykresu bąbelkowego? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart
Poszczególne tematy mogą być kręgami, a każdy okrąg może być wykresem kołowym odsetka, jaki każdy punkt informacyjny obejmuje tematem. Rozmiar koła może wskazywać na względne pokrycie tematu. np. jeśli więcej artykułów jest napisanych o ropie niż kulturze, to krąg oleju ma większą średnicę.
źródło