Tworzę wykres, aby pokazać trendy śmiertelności (na 1000 osób) w różnych krajach, a historia, która powinna pochodzić z fabuły, jest taka, że Niemcy (jasnoniebieska linia) są jedynymi, których trend rośnie po 1932 roku. moja pierwsza (podstawowa) próba
Moim zdaniem ten wykres pokazuje już to, co chcemy powiedzieć, ale nie jest zbyt intuicyjny. Czy masz jakieś sugestie, aby wyraźniej odróżnić trendy? Myślałem o planowaniu stóp wzrostu, ale próbowałem i nie jest tak lepiej.
Dane są następujące
year de fr be nl den ch aut cz pl
1927 10.9 16.5 13 10.2 11.6 12.4 15 16 17.3
1928 11.2 16.4 12.8 9.6 11 12 14.5 15.1 16.4
1929 11.4 17.9 14.4 10.7 11.2 12.5 14.6 15.5 16.7
1930 10.4 15.6 12.8 9.1 10.8 11.6 13.5 14.2 15.6
1931 10.4 16.2 12.7 9.6 11.4 12.1 14 14.4 15.5
1932 10.2 15.8 12.7 9 11 12.2 13.9 14.1 15
1933 10.8 15.8 12.7 8.8 10.6 11.4 13.2 13.7 14.2
1934 10.6 15.1 11.7 8.4 10.4 11.3 12.7 13.2 14.4
1935 11.4 15.7 12.3 8.7 11.1 12.1 13.7 13.5 14
1936 11.7 15.3 12.2 8.7 11 11.4 13.2 13.3 14.2
1937 11.5 15 12.5 8.8 10.8 11.3 13.3 13.3 14
data-visualization
Doktorat
źródło
źródło
Odpowiedzi:
Czasami mniej znaczy więcej. Dzięki mniej szczegółowym informacjom o zmianach z roku na rok i różnicach między krajami możesz podać więcej informacji o trendach. Ponieważ pozostałe kraje poruszają się głównie razem, można się obejść bez oddzielnych kolorów.
Używając wygładzacza, potrzebujesz od czytelnika zaufania, że nie wygładziłeś żadnej interesującej odmiany.
Zaktualizuj po otrzymaniu kilku próśb o kod :
Zrobiłem to w interaktywnym programie budującym grafy JMP . Skrypt JMP to:
));
źródło
Tutaj są dobre odpowiedzi. Pozwól, że zabiorę cię za słowo, że chcesz pokazać, że trend w Niemczech różni się od reszty. Poziomy a zmiany to powszechne rozróżnienie w ekonomii. Twoje dane są na różnych poziomach , ale twoje pytanie brzmi: szukanie zmian . Można to zrobić, ustawiając poziom odniesienia (tutaj 1932) na . Stamtąd każdy kolejny rok jest ułamkiem poprzedniego. (Powszechne jest przyjmowanie dzienników, aby zmiany były bardziej stabilne i symetryczne. To nieco zmienia znaczenie dokładnych liczb, jeśli naprawdę chcesz, aby ktoś dostał to z fabuły, ale zwykle w tym celu ludzie chcą być widząc wzór). Otrzymujesz sumę bieżącą dla każdej serii i pomnóż ją przez1 100 umownie. Tak właśnie knujesz. Twój przypadek jest nieco mniej powszechny, ponieważ punkt odniesienia znajduje się w środku serii, więc uruchomiłem go w obu kierunkach od 1932 r. Poniżej znajduje się prosty przykład zakodowany w R (będzie wiele sposobów na zrobienie kodu i działka ładniejsza, ale to powinno bezpośrednio pokazać pomysł). Zrobiłem grubszą linię dla Niemiec, aby wyróżnić ją w legendzie, i dodałem linię odniesienia na . Łatwo zauważyć, że Niemcy wyróżniają się na tle innych. Widać również, że wszystkie inne kraje kończą na niższych stawkach w 1937 r. Niż w 1932 r., A ich zmiany z roku na rok zmieniają się znacznie mniej w latach po 1932 r. Niż w latach poprzedzających ten okres. 100
Natomiast poniżej znajduje się odpowiedni wykres danych w poziomach. Mimo to starałem się, aby zobaczyć, że same Niemcy idą w górę po 1932 roku na dwa sposoby: w 1932 roku postawiłem wyraźny punkt na każdej serii i na tych poziomach narysowałem słabą szarą linię na wykresie w tle.
źródło
Istnieje wiele dobrych pomysłów w innych odpowiedziach, ale nie wyczerpują one dobrych możliwych rozwiązań. Pierwszy wykres w tej odpowiedzi zakłada, że różne poziomy śmiertelności można omawiać i wyjaśniać osobno. Umożliwiając każdej serii wypełnienie dużej ilości dostępnego miejsca, koncentruje uwagę czytelników na wzorcach względnych zmian.
Porządek alfabetyczny według kraju jest zwykle niedokładnym ustawieniem domyślnym i nie jest tu nalegany. Na szczęście i na szczęście Niemcy de są w centrum tego wyświetlacza 3 x 3. Prosta narracja - patrz! Wzorzec Niemiec jest wyjątkowy z poprawą z 1932 r. - jest możliwy i wiarygodny.
Na szczęście, ale na szczęście, 9 krajów wystarczy, aby uzasadnić wypróbowanie oddzielnych paneli, ale nie zbyt wiele, aby uczynić ten projekt niepraktycznym (powiedzmy 30, a na pewno 300 paneli, może być (byłoby) zbyt wielu paneli do skanowania, z których każdy jest zbyt mały, aby lustrować).
Widocznie jest tu dużo miejsca na pełniejsze nazwy krajów. (W niektórych innych odpowiedziach legendy zajmują dużą część dostępnej przestrzeni, pozostając nieco tajemniczymi. W praktyce ludzie zainteresowani takimi danymi uważają, że skróty kraju są łatwe do odkodowania, ale to, jak dalece potrzebna jest legenda, jest często irytujący problem w projektowaniu graficznym).
Kod Stata dla rekordu:
EDYTOWAĆ:
Jednym prostym ulepszeniem tego wykresu sugerowanym przez Tima Morrisa jest podkreślenie roku, w którym wystąpiło maksimum:
EDYCJA 2 (poprawiona, aby pokazać prostszy kod):
Alternatywnie, ten następny projekt pokazuje każdą serię osobno, ale za każdym razem z drugą serią jako tło. Ogólny pomysł omówiono w tym powiązanym wątku .
Jest tu zarówno strata, jak i zysk. Podczas gdy każda seria może być łatwiej widziana w kontekście innych, przestrzeń jest tracona przez powtarzanie.
Kod Stata dla rekordu:
(Kod
input
,reshape
,rename
jak wyżej, w tej odpowiedzi)fabplot
należy rozumieć jakof
strony czo łowej lubf
oregrounda
ndb
ackdrop lubb
ONTEKST działki nie jako pewnego echa 1960 żargonie o „wspaniałe”.źródło
year
Jako tytuł osi x (kto tego potrzebuje?). Dodam, że dla użytkownika Stata naturalną strukturą danych byłaby taka, która nie zobowiązywałaby dorename
ireshape
. ale ma odrębne panele (tutaj kraje) jako odrębne bloki obserwacji.Twój wykres jest rozsądny, ale wymagałby pewnych udoskonaleń, w tym tytułu, etykiet osi i kompletnych etykiet kraju. Jeśli Twoim celem jest podkreślenie faktu, że Niemcy były jedynym krajem, w którym odnotowano wzrost wskaźnika śmiertelności w okresie obserwacji, prostym sposobem na to byłoby podkreślenie tej linii na wykresie, albo za pomocą grubszej linii, innej typ linii lub przezroczystość alfa. Możesz również rozszerzyć wykres szeregów czasowych o wykres słupkowy pokazujący zmianę wskaźnika śmiertelności w czasie, aby złożoność linii szeregów czasowych została zredukowana do jednej miary zmiany.
Oto w jaki sposób można produkować przy użyciu tych działek
ggplot
wR
:Prowadzi to do następujących wykresów:
Uwaga: Jestem świadomy, że PO zamierzał podkreślić zmianę wskaźnika śmiertelności od 1932 r., Kiedy trend w Niemczech zaczął rosnąć. Wydaje mi się to trochę wybieraniem wiśni i uważam, że wątpliwe jest, gdy przedziały czasowe zostaną wybrane w celu uzyskania określonego trendu. Z tego powodu przyjrzałem się przedziałowi w całym zakresie danych, co stanowi inne porównanie z PO.
źródło
Chociaż deklarowanym celem jest wyświetlanie zmian, najwyraźniej chcesz pokazać również roczne szeregi czasowe według krajów. Sugeruje to, że grafika nie zostanie całkowicie przerobiona, a jedynie zmodyfikowana.
Ponieważ zmiana dotyczy tego, co dzieje się z roku na rok, można rozważyć przedstawienie zmian za pomocą symboli graficznych obejmujących kolejne lata: to znaczy odcinków linii łączących punkty danych na wykresie.
Ponieważ kolor jest tak przydatny do rozróżniania krajów, a poza tym nie jest tak dobry do wskazywania zmiennych ilościowych, pozostawia nam zasadniczo tylko dwie inne cechy, które można zmieniać w celu wskazania zmiany: styl i grubość segmentów. Ponieważ twoja teza dotyczy pozytywnych zmian, będziesz chciał, aby segmenty linii dla wzrostów były bardziej widoczne: ich style powinny być bardziej ciągłe i powinny być grubsze.
Wreszcie, twoja praca dotyczy danych po 1932 r. Będziemy chcieli podkreślić te elementy grafiki w stosunku do innych. Można to zrobić nasycając kolor.
To rozwiązanie natychmiast zapewnia wgląd, który nie był widoczny w oryginale:
Żaden kraj nie odnotował rocznego wzrostu śmiertelności przez wszystkie lata po 1932 r. Każdy taki kraj wyglądałby jak ciągła linia ciągła, ale takiej linii nie ma.
Znaczną część zmian należy przypisać czynnikom wspólnym dla wszystkich krajów. Jest to widoczne w podobieństwach stylu linii i grubości w pionowych kolumnach. Na przykład w latach 1934–35 wskaźniki zgonów wzrosły prawie we wszystkich krajach, a w latach 1933–34 spadły w prawie wszystkich krajach.
Niemcy odnotowały niezwykły wzrost śmiertelności w latach 1932–33, a także niewielki wzrost w latach 1935–36.
Sugerują one przeprowadzenie rzetelnej, dwukierunkowej analizy zmiany wskaźnika śmiertelności w zależności od kraju, być może przez medianę polską, w celu głębszego wniknięcia w relatywne wyniki krajów europejskich w tym okresie.
Jeśli chcesz podkreślić tylko różnicę między 1937 a 1932 rokiem, można zastosować podobną technikę, aby symbolizować fragmenty ścieżek między tymi datami. Niemcy wyróżniałyby się:
źródło
Slopegraphs
Jednym ze sposobów prezentacji danych jest użycie slopegrafu, który jest szczególnie dobry do porównywania zmian lub gradientów (niektóre linki: 1 2 )
Poniżej jest
Po lewej przykład slopegrafu, który pokazuje, jak to wygląda w twoim przypadku.
W centrum bardziej złożony slopegraph, który pokazuje także rok 1932
Po prawej stronie odmiana slopegraph, bardziej rodzaj wykresów przebiegu w czasie, w którym wyświetlane są wszystkie dane (co oznacza brak linii prostych).
Nie jestem pewien, który z nich jest najlepszy. Trzecia / odpowiednia opcja zapewnia silniejsze wyobrażenie o zmianach z roku na rok (i na przykład staje się bardziej widoczne, że Danmark kontra Niemcy nie wyglądają tak inaczej i z roku na rok bardzo rośnie), ale może również rozpraszać uwagę (szczególnie szczyt z 1929 r.). To, który z nich jest lepszy, zależy od tego, co chcesz przekazać za pomocą wykresu i od tego, ile szczegółów wymaga twoja historia (np. Zwrot w 1932 r. Z innym rządem, co jest bardziej jasne w drugiej / środkowej opcji).
Odmiana slopegraph po prawej wygląda bardzo podobnie do wykresu Xana. Jednak oprócz różnic stylistycznych istnieje jeszcze jedna ważna różnica. Szerokość i wysokość figury są dobierane tak, aby kąt krzywych był zbliżony do 45 stopni. W ten sposób różnice są bardziej widoczne (uważam, że najlepszym przykładem jest przykład plam słonecznych autorstwa Edwarda Tufte )
Więcej kontekstu
Jeśli chcesz dodać więcej złożoności niż prosty slopegraph, to uważam, że tak naprawdę lepiej pokazać więcej danych poza zakresem 1927–1937 niż w zakresie. (ponownie przykład Tufte'a ze stron 74-75 w Wizualnym wyświetlaniu informacji ilościowych, do którego można się dostać za pośrednictwem tej strony na tablicy ogłoszeń na jego stronie internetowej)
Poniższy przykład pokazuje dane z lat 1900-2000 (z wyłączeniem Polski, której dane są nieco trudne) wyodrębnione z wikipedii (np. Ta strona dla Czech ) oraz dla Szwajcarii i Holandii ich krajowych biur statystycznych ( bfs i Statline ).
(Dane są nieco inne niż twoje, ale takie same jak na przykład artykuł „Autarchia, rozpad rynku i zdrowie: śmiertelność i kryzys żywieniowy w nazistowskich Niemczech, 1933–1937” autorstwa Jörga Batena i Andrei Wagner. Ten artykuł jest interesujący czytać, ponieważ dostarczają o wiele więcej danych niż tylko prymitywne wskaźniki zgonów, choć ograniczają się także do krótkiego okresu. Szczególnie interesujące jest to, że wzrost wskaźnika zgonów w latach 1932–1937 występował głównie między miastami w pasie od Frankfurtu do Bremy i Hamburg)
Uważam, że ten wykres jest ważny, ponieważ pokazuje, że Niemcy odnotowały bardzo silny spadek przed wzrostem po 1932 r. Silniejszy niż w innych krajach. Możesz mieć negatywne i pozytywne interpretacje. W latach 1932–1937 wskaźnik śmiertelności w Niemczech wzrósł bardziej niż w innych krajach, ale czy (1) był to wzrost od niskiego szczytu, czy (2) wzrost w kierunku wysokiego szczytu? Interesującym aspektem w tym względzie jest to, że poziom 10,8 z 1932 r. Jest bardzo niski dla Niemiec (w tym momencie tylko Holandia miała niższą śmiertelność). Jest to nie tylko najniższy poziom z lat aż do 1937 r., Ale trwa także do 1995 r., Zanim ponownie osiągnie ten poziom 10,8.
Kolejny punkt, związany ze zdrowiem (jeśli to jest twój kontekst), może być lepsze porównanie oczekiwanej długości życia, skład demograficzny populacji ma wpływ na śmiertelność, niezależnie od zmian sytuacji zdrowotnej
Nieco dodatkowy kontekst
Powyższy wykres pokazuje całość, ale może być przesadą dla większości celów (z wyjątkiem tego postu, w którym chciałem pokazać całą historię i jest to raczej cel eksploracyjny). Poniższy wykres to alternatywa, która moim zdaniem jest nadal przyzwoita.
źródło
Zależy od odbiorców, ale uprościłbym rzeczy:
Następnie przeliteruj go w podpisie np
(BTW co to jest ch vs. cz tj. Którego kraju brakuje mi powyżej?)
Aby być dokładnym, będziesz oczywiście musiał
death rate
oszacować szacunkową populację przy „łączeniu” tego z „Innymi”, ale jestem pewien, że te informacje są łatwo dostępne.Aktualizacja 6/9/18: Jest to oczywiście szkic „zabawki” i nie został wyprowadzony z danych; Chodzi o to, aby dostarczyć przybliżony szkic formy, którą powinien przyjąć wykres.
Aby odpowiedzieć na komentarz Whubera: wartości dla „Innych” można wygenerować jako średnie, ważone populacją, np. Z wskazującą wartość dla na rok i jako krajów w „Innych”:Oy O i=1...8 8×
lub lepiej, jeśli masz informacje o populacji. na każdy rok:
W zależności od czytelników (np. Epidemiologów vs. historyków) do tego drugiego można dodać odchylenie standardowe lub błąd standardowy, choć myślę, że raczej zepsułoby to prosty wygląd fabuły.
źródło
ch
jest Szwajcaria. (A BTW, to jeszcze nie była Republika Czeska w latach 30.) - W twoim podejściu nie podoba mi się to, że nie jest jasne, czy trend spadkowy jest spójny w innych krajach. Może się wydawać, że występują tylko przypadkowe fluktuacje, które zdarzają się średnio w czymś negatywnym w innych krajach, ale w Niemczech są pozytywne.Jeśli chcesz wyróżnić zmianę, być może obliczyć to i wyświetlić. Użycie mapy cieplnej do wyświetlenia zmian może być przydatne, ponieważ pozwala na dokonywanie porównań bez problemów z nadmiernym drukowaniem i pozwala uniknąć problemów z interpolacją, które mogą pochodzić z wykresów liniowych.
Używając danych jak
d
w R:Uwaga: dane zmieniają się teraz w porównaniu z poprzednim rokiem. Widać, że Niemcy mają po 1932 r. Grupę błękitów (wzrost śmiertelności), których nie mają inne kraje. Widać również, że w latach 1934–1935 we wszystkich krajach oprócz Polski odnotowano wzrosty śmiertelności, ale tendencja spadkowa w Niemczech wydaje się być w latach 1932–1933 i 1935–1936 (a także 1927–1928).
Ciekawą cechą jest fakt, że kolory są bardziej intensywne po lewej stronie niż po prawej. Oznacza to, że skala zmian była większa na początku okresu, a bardziej stłumiona pod koniec.
Poleciłbym sparowanie tego z wykresem liniowym pokazującym również poziomy.
źródło
Tutaj pokazuję różnicę logarytmu stosunku śmierci na 1000 mieszkańców w stosunku do roku poprzedniego (dlatego nie pokazano 1927). Niemcy są pokazane na czerwono, a średnia innych krajów na grubej czarnej linii.
Niemcy odnotowały wzrost tego wskaźnika w ciągu 5 na 10 lat. Po 1932 roku było powyżej średniej w innych krajach (i przeważnie pozytywne), aż do 1937 roku.
Chociaż dlaczego logarytm? Powód jest prosty: zmiana z 2 na 1 jest bardziej drastyczna niż zmiana z 1000 na 999 :)
Kod:
źródło
Jeszcze jedna wersja: wskaźniki (średni wskaźnik zgonów z 1927 r. Do obecnego roku) / (wskaźnik zgonów 1927)
Zrobione z kodem Mathematica
(Szczyty w 1929 r. Wydają się być związane z pandemią grypy, która miała miejsce w tym czasie)
źródło