Nie jestem dobry w statystyce, ale myślę, że trafiłem we właściwe miejsce. Moje pytanie jest proste:
Mój problem polega na porównaniu populacji kilku stanów w małym kraju, ale niektóre stany mają 3000 000 mieszkańców, a niektóre 2 000 mieszkańców.
Maluję to na mapie, a „intensywność” koloru zależy od tego, jak populacja każdego stanu porównuje się z populacją całego kraju.
Problem polega na tym, że stany o dużej populacji są wyświetlane w naprawdę intensywnych kolorach, a małe stany prawie nie mają kolorów.
Czy istnieje prosty sposób na „normalizację” lub porównanie danych?
Nie wiem, czy tłumaczę się właściwie, ale mam nadzieję, że ktoś może mi pomóc. Proszę o komentarz, jeśli moje pytanie nie jest jasne, a ja wyjaśnię.
Dziękuję za pomoc!
data-visualization
Zebs
źródło
źródło
Odpowiedzi:
Przykro mi, ale dla mnie to brzmi, jakbyś próbował naprawić to, co nie jest zepsute. W rzeczywistości możesz nawet próbować złamać to, co nie jest zepsute. Jeśli masz zmienną ilościową (tutaj, populację), która obejmuje szeroki zakres, wówczas każda metryka, której użyjesz do jej przedstawienia, powinna również obejmować szeroki zakres.
Ale dla wszystkich rzeczy związanych z kolorem (a zwłaszcza mapami) kluczowym źródłem jest, jak sądzę, ColorBrewer
źródło
Dobre pytanie, Jednym z rozwiązań jest przeskalowanie kolorów, aby były bardziej równomiernie rozmieszczone, lub do rozkładu z niższymi ogonami ... ale wtedy twoja legenda musi być wystarczająco jasna, ponieważ odkształcenie skali jest w jakiś sposób niesprawiedliwe ...
Na przykład w R: przeskalowanie normalnej do jednolitej. (to, co masz, może pójść bardziej w drugą stronę, ponieważ masz duże ogony i chcesz je mniejsze, ale zasada jest taka sama)
źródło
Możesz podzielić przez całkowitą populację. Zapewniłoby to, że wszystko mieści się w przedziale od 0 do 1. Jeśli skale są nadal zbyt rozbieżne, rozważ skalę logarytmiczną.
źródło
Czuję się niezręcznie, pytając o to, ale czy naprawdę jesteś zaangażowany w używanie koloru do przedstawienia ilościowej ilości? Czy nie ma sposobu na umieszczenie paska w każdym stanie, którego wysokość reprezentuje ilość?
Innym sposobem może być pokazanie mapy z obszarami reprezentującymi obszary geograficzne wraz z mapą, w której powierzchnia każdego stanu jest proporcjonalna do wielkości populacji - podobnie jak robi to homunkulus czuciowy . Ale to byłaby bolesna ilość rysowania - nie znam żadnego sposobu na zautomatyzowanie tego (choć może istnieć)
źródło
Twój określony cel:
Twój opisany problem:
Cel normalizacji danych przed mapowaniem
Nie będzie tej odpowiedzi, ponieważ nie jestem pewien kontekstu, dlaczego tworzysz mapę.
Niemniej jednak, oto kilka pomysłów do przemyślenia: znormalizuj swoje dane, aby mapa stanowiła interesujące znaczenie dla potencjalnych czytelników mapy, aby mogli połączyć to, co widzą na mapie, z koncepcją, o której zwykle myślą. Zasadniczo uważam, że twoje nowe znormalizowane liczby powinny być powiązane z jakąś jakościową koncepcją, którą czytelnicy map uważają za interesującą do zrozumienia (losowa ciekawostka: miara = ilość x jakość, Hegel).
Dwa proponowane sposoby normalizacji danych
1. Aby zorientować się, ile otwartej przestrzeni jest w każdym stanie.
Utwórz nową zmienną stanu dla gęstości zaludnienia, obliczając populację podzieloną przez całkowitą powierzchnię stanu.
2. Aby kolorystyka stanów kontrastowała ze sobą.
Utwórz nową zmienną stanu, obliczając odchylenie od średniej każdego stanu. Załóżmy na przykład, że masz 3 stany z populacjami w następujący sposób:
Średnia wyniesie około 50.
Wartości nowej zmiennej dla każdego stanu będą następujące:
Możesz użyć dowolnego schematu kolorów, w którym liczby dodatnie kontrastują z liczbami ujemnymi (Google „Colorbrewer” dla wielu przykładów schematów kolorów dla map).
źródło