Jak najlepiej wizualizować różnice w wielu proporcjach w trzech grupach?

18

Próbuję wizualnie porównać, w jaki sposób trzy różne publikacje informacyjne obejmują różne tematy (określone na podstawie modelu tematycznego LDA). Mam dwie podobne metody, ale otrzymałem wiele opinii od kolegów, że nie jest to zbyt intuicyjne. Mam nadzieję, że ktoś ma lepszy pomysł na wizualizację tego.

Na pierwszym wykresie pokazuję proporcje każdego tematu w każdej publikacji:

Proporcje dla wszystkich tematów i publikacji

Jest to dość proste i intuicyjne dla prawie wszystkich, z którymi rozmawiałem. Trudno jednak dostrzec różnice między publikacjami. Która gazeta omawia więcej tematów?

Aby to osiągnąć, przedstawiłem różnicę między publikacją o najwyższym i drugim najwyższym odsetku tematów, pokolorowaną przez publikację o najwyższym. Lubię to:

Różnica między pierwszym a drugim najwyższym tematem

Tak więc, na przykład, ogromny pasek dla piłki nożnej jest naprawdę odległością między al-Ahram English i Daily News Egypt (# 2 w relacji piłkarskiej), i ma kolor czerwony, ponieważ Al-Ahram jest numerem 1. Podobnie, próby są zielone, ponieważ Egypt Independent ma najwyższy odsetek, a rozmiar paska to odległość między Egypt Independent a Daily News Egypt (ponownie # 2).

Fakt, że muszę wyjaśnić, że wszystko w dwóch akapitach jest dość pewnym znakiem, że wykres nie przejdzie testu samowystarczalności. Trudno powiedzieć, co się naprawdę dzieje, patrząc na to.

Jakieś ogólne sugestie dotyczące wizualnego podkreślenia dominującej publikacji dla każdego tematu w bardziej intuicyjny sposób?

Edycja: Dane do odtwarzania: Oto dputdane wyjściowe z R , a także plik CSV .

Edycja 2: Oto wstępna wersja wykresu punktowego, której średnice kropek są proporcjonalne do proporcji tematu w korpusie (tak pierwotnie sortowano tematy). Chociaż wciąż muszę go trochę poprawiać, wydaje się bardziej intuicyjny niż to, co robiłem wcześniej. Dziękuję wszystkim!

Wykres kropkowy

Andrzej
źródło
1
Właśnie dodałem trochę danych (dla R i CSV). Nie skończyłem jeszcze wybierać dobrych kolorów (stąd Christmasy czerwony / zielony), choć zdaję sobie sprawę z problemów z daltonizmem :)
Andrew
1
Wzmianka o „proporcjach” jest tutaj trochę czerwonego śledzia, ponieważ dane nie są tak naprawdę proporcjami, a co ważniejsze, żadne z rozwiązań graficznych do tej pory nie zależy od proporcji danych. Jest to dobre, ponieważ rozwiązania mają znaczenie dla szerokiego zakresu danych, ale nie daj się zwieść.
Nick Cox
(+1) Ładne pytanie, w tym zestaw danych do pobrania i szybkie sprawdzenie!
chl
Andrew, jeśli chodzi o twoją najnowszą edycję, myślę, że byłoby lepiej z pionowymi liniami siatki. Tworzą wzór kontrolny, ale nie dodają dużej wartości, zakładając, że nie obchodzi Cię odczytywanie dokładnych wartości z wykresu.
x
Bez pionowych linii?
Andrew

Odpowiedzi:

18

Dziękujemy za udostępnienie danych oraz za interesujący zestaw danych i wyzwanie graficzne.

Moją główną sugestią jest wykres kropkowy (Cleveland).

wprowadź opis zdjęcia tutaj

Najważniejsze szczegóły, które chciałbym podkreślić:

  1. Nakładanie tutaj pozwala i ułatwia porównanie.

  2. Kolejność tematów na ekranach wydaje się dość dowolna. W przypadku braku naturalnego porządku (np. Czas, przestrzeń, zmienna uporządkowana) zawsze sortowałbym według jednej ze zmiennych, aby zapewnić szkielet. Które użyć może być kwestią tego, czy ktoś jest szczególnie interesujący, czy ważny, decyzja badacza. Inną możliwością jest uporządkowanie pod pewnymi względami różnic między artykułami, aby tematy o podobnym zasięgu były z jednej strony, a te z innym zasięgiem z drugiej.

  3. Otwarte znaczniki lub symbole punktowe pozwalają lepiej rozwiązać nakładanie się lub tożsamość niż zamknięte lub pełne znaczniki lub symbole, które w najgorszych przypadkach wzajemnie się zasłaniają lub zakrywają. (Alternatywą, która może tu działać całkiem dobrze, są litery takie jak A, D i I dla trzech gazet).

Widocznie jest wiele możliwości ulepszenia mojego projektu. Na przykład, czy napis jest zbyt duży i / lub zbyt ciężki? Z drugiej strony nagłówki muszą być łatwe do odczytania, w przeciwnym razie wykres jest błędem.

Kilka mniejszych, pikniejszych punktów:

za. Czerwony i zielony na wykresie to kombinacja kolorów, której należy unikać. Gdy używane są różne znaczniki, wybór kolorów jest nieco mniej istotny.

b. Poziome pasy na wykresie rozpraszają uwagę. Dla kontrastu potrzebne są moje linie siatki, ale staram się, aby były dyskretne przy użyciu cienkich, lekkich linii.

× 0,1% lub 2%, więc 98% artykułów to coś innego? Użyłem proporcji bezpośrednio w dostarczonym pliku .csv.

Wykresy punktowe Cleveland zawdzięczają najwięcej

Cleveland, WS 1984. Graficzne metody prezentacji danych: podziałki w pełnej skali, wykresy punktowe i rejestrowanie wielopoziomowe. American Statistician 38: 270-80.

Cleveland, WS 1985. Elementy wykresów danych. Monterey, Kalifornia: Wadsworth.

Cleveland, WS 1994. Elementy wykresów danych. Summit, NJ: Hobart Press.

Jeden prekursor (bardziej znany statystycznie z zupełnie innej pracy !!!) był

Pearson, ES 1956. Niektóre aspekty geometrii statystyki: wykorzystanie prezentacji wizualnej do zrozumienia teorii i zastosowania statystyki matematycznej. Journal of Royal Statistics Society A 119: 125-146.

Dla zainteresowanych wykres został przygotowany w Stacie po przeczytaniu w .csv z kodem

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color) 
Nick Cox
źródło
To jest niesamowite - dzięki! Procenty niestety nie sumują się do niczego, ponieważ wartości są znormalizowanymi średnimi z dużego zbioru dokumentów (tj. Każdy dokument w każdej publikacji składa się z pewnej kombinacji 20 tematów odkrytych przez LDA - to pokazuje znormalizowane środki… stąd małe liczby)
Andrew
Ponadto tematy są uporządkowane według ich proporcji w korpusie. Sprawowanie rządów w Egipcie jest najczęściej pojawiającym się tematem, podczas gdy różne są najrzadszym tematem. Ale użycie tej kolejności tutaj sprawia, że ​​kropki / symbole są nieco trudniejsze do naśladowania wizualnie.
Andrew
To jest świetne! Dzięki! Zaktualizowałem oryginalny post, aby odzwierciedlić twoje sugestie i dodać proporcje korpusu.
Andrew
(+6) Dobra odpowiedź! I zawsze miło jest mieć referencje i odtwarzalny kod.
chl
@chl Bardzo dziękuję za wdzięczne komentarze i dodatkową reputację.
Nick Cox
14

Wykres kropkowy Nicka Coxa jest prawdopodobnie najlepszy dla pełnego obrazu. Jeśli naprawdę chcesz podkreślić relację między pierwszą a drugą, oto modyfikacja wykresu, która powoduje przesunięcie paska różnic o długość drugiego paska.

wprowadź opis zdjęcia tutaj

Aby uzyskać inny widok dużego obrazu, możesz wypróbować coś w rodzaju wykresu nachylenia lub wykresu współrzędnych równoległych. Linie mogą być tutaj trochę zatłoczone, ale może działać, jeśli chcesz wyróżnić podzbiór tematów.

wprowadź opis zdjęcia tutaj

Możesz także spróbować helpmeviz.com, który jest ukierunkowany na bardzo konkretne pytania dotyczące danych, takie jak ten.

Xan
źródło
Ciekawy! Punkt minutowy: tytuł osi lub etykieta „proporcja” nie zgadzają się z jednostkami%.
Nick Cox
Och, to jest naprawdę interesujące. Będę grać z tym, aby sprawdzić, czy może uzupełnić wykres punktowy.
Andrew
2

Moim pierwszym instynktem było zasugerowanie fabuły mozaiki ; przedstawia każdą podkategorię w formie prostokąta, gdzie jeden wymiar reprezentuje całkowitą liczbę dla głównej kategorii, a drugi wymiar reprezentuje proporcjonalny udział podkategorii. Istnieje pakiet R do ich narysowania , ale jest to również dość proste w przypadku narzędzi graficznych niższego poziomu.

Jednak wykresy mozaikowe (takie jak skumulowane wykresy słupkowe oparte na procentach) działają najlepiej, jeśli w wymiarze są tylko 2 lub 3 kategorie, w których chcesz porównać proporcje. Działałyby więc dobrze, gdybyś chciał porównać różnice między tematami w proporcji artykułów, które były w każdej z trzech gazet , ale nie tak, jak w zamierzeniu, porównując różnice między trzema gazetami w proporcji zasięgu dla każdego tematu . Subtelne, ale ważne wyróżnienie!

Jeśli chodzi o to, co chcesz podkreślić, myślę, że najskuteczniejszy wykres jest jednym z najprostszych - zgrupowany wykres słupkowy. Więcej osób rozumie wykresy słupkowe niż wykresy punktowe; na pierwszy rzut oka widać, że porównujesz ilości o różnych rozmiarach, a wartości, które chcesz porównać, są obok siebie.

Jednakże, jeśli naprawdę chciał podkreślić różnice w proporcji, można utworzyć niestandardową pogrupowane wykres słupkowy, zmodyfikowany, aby umieścić każdą grupę tak, że wartość mediany dla każdej kategorii jest zgodna z osią, zamiast wartości zerowych:

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

Zauważ, że pręty w każdej grupie są nadal wyrównane w celu łatwego porównania wielkości i że linia podstawowa każdej grupy jest teraz umieszczona na lewo od osi zgodnie z wartością środkową tej grupy, podczas gdy pręty wystające na prawo od osi są równoważne do drugiego wykresu słupkowego pokazującego różnicę między dwiema górnymi kategoriami.

Niezależnie od tego, czy używasz standardowego zgrupowanego wykresu słupkowego, czy wykresu z korekcją przesunięcia, takiego jak powyżej, nadal możesz czerpać pomysł z wykresów mozaikowych i ustawić szerokość każdego słupka proporcjonalnie do całkowitej liczby artykułów dla tej gazety (więc wielkość pasek jest proporcjonalny do liczby artykułów w tej gazecie w tej kategorii).

Ponieważ statystyki testowe są właściwością każdego porównania , a nie poszczególnych wartości, nie sądzę, aby przydatne było skalowanie każdego punktu danych zgodnie ze znaczeniem. Zamiast tego miałbym ikonę obok każdej grupy reprezentującą znaczenie. W przypadku publikacji akademickich standard */ **/ ***ma tę zaletę, że jest znana, ale możesz wykazać się kreatywnością, jeśli chcesz pokazać pełne kontinuum statystyki.

AmeliaBR
źródło
Główną ideą tutaj jest grupowanie prętów w pionie. Jest to powszechnie stosowany projekt, ale sugeruje 60 pasków w pionie zamiast 20 w oryginale plakatu. Chociaż możesz wyraźnie dostosować szerokość paska, myślę, że będziesz potrzebować więcej miejsca, aby zrobić to dobrze w tym przypadku, szczególnie, jeśli chcesz dodać spację między grupami.
Nick Cox,
@NickCox Jest to wada w porównaniu do bardziej zwartej oryginalnej tabeli, chociaż można obrócić cały wykres o 90 stopni, jeśli postać zorientowana poziomo odpowiada ogólnemu układowi.
AmeliaBR,
Mógłbyś, ale 60 taktów jest trudnych od lewej do prawej, a 20 etykiet, takich jak „Bractwo Muzułmańskie i polityka”, musiałoby pozostać czytelnych ...
Nick Cox
Możesz być w stanie sprawić, że zadziała, umieszczając paski w grupie jeden na drugim zamiast jeden obok drugiego. Trudno powiedzieć, nie widząc makiety (a moja sztuka ASCII nie jest zbyt dobra w przekazywaniu wyglądu i stylu). Byłoby to mniej intuicyjne, ponieważ nie jest tak znajomą strukturą i może prowadzić do zamieszania, jeśli dwa pręty mają prawie taką samą wysokość. Ale jeśli alternatywą są paski o szerokości jednego piksela ...
AmeliaBR
Zbliżasz się więc do sugestii w mojej odpowiedzi na wykresie punktowym.
Nick Cox,
1

Czy próbowałeś już wykresu bąbelkowego? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

Poszczególne tematy mogą być kręgami, a każdy okrąg może być wykresem kołowym odsetka, jaki każdy punkt informacyjny obejmuje tematem. Rozmiar koła może wskazywać na względne pokrycie tematu. np. jeśli więcej artykułów jest napisanych o ropie niż kulturze, to krąg oleju ma większą średnicę.

Rocinante
źródło
Co by ... [X,Y]współrzędne wtedy?
Nick Stauner
1
@NickStauner Nie widziałem edytowanego pytania z zestawem danych, kiedy pierwotnie na nie odpowiadałem. Współrzędne nie będą oznaczały wiele, ale liczba publikacji. Kręgi można grupować według tematów lub według średnicy. Nie wiem, dlaczego odsetki zostały użyte w pierwszej kolejności, ponieważ liczby są bardzo małe.
rocinante