Czytałem, że używanie skal logów, gdy wykresy / wykresy są odpowiednie w pewnych okolicznościach, takich jak oś y na wykresie szeregów czasowych. Jednak nie byłem w stanie znaleźć ostatecznego wyjaśnienia, dlaczego tak jest, ani kiedy byłoby to właściwe. Proszę pamiętać, że nie jestem statystykiem, więc mogę zupełnie nie rozumieć tego punktu, a jeśli tak, to doceniłbym kierunek środków zaradczych.
57
Odpowiedzi:
To bardzo interesujące pytanie, o którym myśli zbyt mało osób. Skala dziennika może być odpowiednia na kilka różnych sposobów. Pierwszą i najbardziej znaną jest ta, o której wspomina Macro w swoim komentarzu: skale logów pozwalają na wyświetlanie dużego zakresu bez kompresji małych wartości na dół wykresu.
Innym powodem preferowania skalowania dziennika są okoliczności, w których dane są bardziej naturalnie wyrażane geometrycznie. Przykładem jest, gdy dane reprezentują stężenie mediatora biologicznego. Stężenia nie mogą być ujemne, a zmienność prawie zawsze skaluje się ze średnią (tj. Występuje wariancja heteroscedastyczna). Używając skali logarytmicznej lub, równoważnie, stosując stężenie logarytmu jako podstawowe, miara „naprawia” nierówną zmienność i daje skalę, która jest nieograniczona na obu końcach. Stężenia są prawdopodobnie rozkładem logarytmicznym, a więc skalowanie logów daje nam bardzo wygodny wynik, który jest prawdopodobnie „naturalny”. W farmakologii używamy skali logarytmicznej dla stężeń leków znacznie częściej niż nie,
Kolejny dobry powód, dla którego skala dziennika, prawdopodobnie ta, która cię interesuje dla danych szeregów czasowych, wynika ze zdolności skali logu do równoważenia zmian ułamkowych. Wyobraź sobie pokaz długoterminowych wyników swoich inwestycji emerytalnych. To (powinno) rosnąć w przybliżeniu wykładniczo, ponieważ jutrzejsze zainteresowanie zależy od dzisiejszych inwestycji (z grubsza). Tak więc, nawet jeśli wyniki wyrażone w procentach były dość stałe, wykres funduszy wydaje się rosnąć najszybciej po prawej stronie. W skali logarytmicznej stała zmiana procentowa jest postrzegana jako stała odległość pionowa, więc stała szybkość wzrostu jest postrzegana jako linia prosta. To często znaczna zaleta.
Kolejny nieco bardziej ezoteryczny powód wyboru skali logarytmicznej występuje w okolicznościach, w których wartości można rozsądnie wyrazić jako x lub 1 / x. Przykładem z moich własnych badań jest opór naczyniowy, który można również rozsądnie wyrazić jako wzajemne przewodnictwo naczyniowe. (W niektórych okolicznościach rozsądne jest również myślenie o średnicy naczyń krwionośnych, które skalują się jako siła oporu lub przewodnictwa). Żadna z tych miar nie ma większej rzeczywistości niż druga i obie można znaleźć w pracach badawczych. Jeśli są skalowane logarytmicznie, to są po prostu negatywne względem siebie, a wybór jednego lub drugiego nie robi znaczącej różnicy. (Średnica naczyń różni się od rezystancji i przewodności stałym mnożnikiem, gdy wszystkie są skalowane logarytmicznie).
źródło
Kilka przykładów z prawdziwego życia, które musiałem podać jako dodatek do bardzo dobrej odpowiedzi @ Michaela Lwa.
Po pierwsze, wykresy z dwóch szeregów czasowych poniżej pokazują miesięczne przyjazdy odwiedzających do Nowej Zelandii, dostępne w Statistics New Zealand . Oba wykresy mają swój cel, ale uważam, że ten z osią pionową w skali logarytmicznej jest spektakularnie przydatny do wielu innych celów niż pierwszy. Na przykład widać, że sezonowość przylotów pozostaje w przybliżeniu proporcjonalna do skali przylotów; i widać znaczące zmiany tempa wzrostu (np. podczas drugiej wojny światowej), które są po prostu niewidoczne w pierwotnej skali.
Po drugie, poniższe wykresy pokazują łączne wydatki turystów na podróż do Nowej Zelandii w porównaniu z wydatkami, które faktycznie spędzili w Nowej Zelandii. Źródłem jest International Visitors Survey przeprowadzone przez Ministerstwo Rozwoju Gospodarczego. Różnica polega na wydatkach przed podróżą, np. Na hotele lub pakiety opłacone z góry. Pierwszy wykres, w oryginalnej skali, może być wykorzystywany do kilku celów innych niż bardzo przybliżone (ale ważne) wrażenie grupowania danych w lewym dolnym rogu. Drugi wykres poświęca pewną natychmiastową interpretację, szczególnie dla niestatystów (z tego powodu zwykle używałbym teraz skali logarytmicznej na osiach, zamiast przekształcać dane i mieć skalę pokazującą wartość logarytmiczną), ale daje dużo więcej różnicowania wizualnego.
Na przykład można wyraźnie zauważyć kilka wartości odstających (które okazały się błędami edycji danych), w których łączne wydatki były mniejsze niż wydatki w Nowej Zelandii. Być może, co ważniejsze, możesz użyć tego wykresu w różnych kolorach lub aspektach, aby pokazać, w jaki sposób różne kraje rynkowe lub cel wizyty (np. Wakacje kontra odwiedziny u znajomych i rodziny) zajmują różne części „przestrzeni” wydatków - coś, co byłoby po prostu niewidoczne na oryginalnych osiach.
Przekształcenie tego wykresu w coś użytecznego wymagałoby w jakiś sposób radzenia sobie z danymi o wysokiej gęstości (np. Przez dodanie pewnej przezroczystości do punktów lub zastąpienie punktów sześciokątnymi pojemnikami pokolorowanymi według gęstości), ale każde użyteczne rozwiązanie wizualne prawie na pewno będzie obejmować osie logarytmiczne.
edycja / dodawanie
Kolejny wykres ilustrujący znaczenie sześciokątnych pojemników, w których kolor reprezentuje gęstość, gdy istnieje duży zestaw danych (w tym przypadku około 12 000 respondentów w ankiecie na temat doświadczeń w Pucharze Świata w Rugby w Nowej Zelandii). Zwróćmy uwagę, że to kolejny przykład, w którym zastosowałem skalę logarytmiczną dla wydatków.
źródło
Inną ciekawą cechą skal logów jest to, że sprawiają, że proporcje wydają się symetryczne. Na przykład:
źródło