Kiedy odpowiednie są skale dziennika?

57

Czytałem, że używanie skal logów, gdy wykresy / wykresy są odpowiednie w pewnych okolicznościach, takich jak oś y na wykresie szeregów czasowych. Jednak nie byłem w stanie znaleźć ostatecznego wyjaśnienia, dlaczego tak jest, ani kiedy byłoby to właściwe. Proszę pamiętać, że nie jestem statystykiem, więc mogę zupełnie nie rozumieć tego punktu, a jeśli tak, to doceniłbym kierunek środków zaradczych.

dav
źródło
10
To nie jest formalna odpowiedź, ale - gdy zmienna rozciąga się na kilka rzędów wielkości, często łatwiej (i bardziej informacyjnie) wizualizować ją na skali logarytmicznej.
Makro
Makro - to ma sens (szczególnie, gdy masz publiczność, która to rozumie!)
dav
1
Ten ściśle powiązany wątek może się przydać podczas oczekiwania na konkretne odpowiedzi: stats.stackexchange.com/questions/298 . Jeśli chodzi o tworzenie wykresów, możesz owocnie interpretować „zmienną zależną” jako „oś y”. Następnie spójrz na wiele ściśle powiązanych pytań, które pojawiły się tutaj.
whuber
3
Również FYI Naomi Robbins ma bardzo prosty artykuł na ten temat, który powinien być interesujący. Kiedy powinienem używać skal logarytmicznych na moich wykresach i wykresach? .
Andy W
Whuber, dziękuję za wskazanie dodatkowych linków. Widziałem niektóre z nich, ale nie wszystkie i teraz pracuję nad nimi.
dav

Odpowiedzi:

51

To bardzo interesujące pytanie, o którym myśli zbyt mało osób. Skala dziennika może być odpowiednia na kilka różnych sposobów. Pierwszą i najbardziej znaną jest ta, o której wspomina Macro w swoim komentarzu: skale logów pozwalają na wyświetlanie dużego zakresu bez kompresji małych wartości na dół wykresu.

Innym powodem preferowania skalowania dziennika są okoliczności, w których dane są bardziej naturalnie wyrażane geometrycznie. Przykładem jest, gdy dane reprezentują stężenie mediatora biologicznego. Stężenia nie mogą być ujemne, a zmienność prawie zawsze skaluje się ze średnią (tj. Występuje wariancja heteroscedastyczna). Używając skali logarytmicznej lub, równoważnie, stosując stężenie logarytmu jako podstawowe, miara „naprawia” nierówną zmienność i daje skalę, która jest nieograniczona na obu końcach. Stężenia są prawdopodobnie rozkładem logarytmicznym, a więc skalowanie logów daje nam bardzo wygodny wynik, który jest prawdopodobnie „naturalny”. W farmakologii używamy skali logarytmicznej dla stężeń leków znacznie częściej niż nie,

Kolejny dobry powód, dla którego skala dziennika, prawdopodobnie ta, która cię interesuje dla danych szeregów czasowych, wynika ze zdolności skali logu do równoważenia zmian ułamkowych. Wyobraź sobie pokaz długoterminowych wyników swoich inwestycji emerytalnych. To (powinno) rosnąć w przybliżeniu wykładniczo, ponieważ jutrzejsze zainteresowanie zależy od dzisiejszych inwestycji (z grubsza). Tak więc, nawet jeśli wyniki wyrażone w procentach były dość stałe, wykres funduszy wydaje się rosnąć najszybciej po prawej stronie. W skali logarytmicznej stała zmiana procentowa jest postrzegana jako stała odległość pionowa, więc stała szybkość wzrostu jest postrzegana jako linia prosta. To często znaczna zaleta.

Kolejny nieco bardziej ezoteryczny powód wyboru skali logarytmicznej występuje w okolicznościach, w których wartości można rozsądnie wyrazić jako x lub 1 / x. Przykładem z moich własnych badań jest opór naczyniowy, który można również rozsądnie wyrazić jako wzajemne przewodnictwo naczyniowe. (W niektórych okolicznościach rozsądne jest również myślenie o średnicy naczyń krwionośnych, które skalują się jako siła oporu lub przewodnictwa). Żadna z tych miar nie ma większej rzeczywistości niż druga i obie można znaleźć w pracach badawczych. Jeśli są skalowane logarytmicznie, to są po prostu negatywne względem siebie, a wybór jednego lub drugiego nie robi znaczącej różnicy. (Średnica naczyń różni się od rezystancji i przewodności stałym mnożnikiem, gdy wszystkie są skalowane logarytmicznie).

Michael Lew
źródło
Dzięki za świetną odpowiedź! Czy możesz rozwinąć kwestię „wartości można rozsądnie wyrazić jako x”?
ktdrv
4
@ktdrv Niektóre rzeczy mają sens w obu kierunkach. Powiedz, że chcesz udokumentować zdolność rybaka. Możesz policzyć liczbę złowionych ryb dziennie lub zmierzyć odstęp między kolejnymi połowami. Każdy pomiar ma sens, ale są ze sobą nieliniowo powiązane. Są one wzajemnie skalowane i mogą być konwertowane jeden na jeden. Log przedziału i log liczby dni są ze sobą liniowo powiązane i różnią się stałym (ujemnym) współczynnikiem.
Michael Lew
1
Michael, dzięki za świetną odpowiedź. Muszę przyznać, że zajęło mi trochę czasu, aby przejrzeć wszystkie twoje punkty (i musiałem google kilka terminów, takich jak „heteroscedastyczna wariancja”). Nadal zestawiam dokładnie to, co rzeczywisty wpływ odpowiedzi będzie oznaczać dla mojej pracy, ale jestem wdzięczny za ogólny kierunek i kilka wskazówek, które poprowadzą mnie po drodze.
dav
x1/xlog(x)x1/x x1/xx1/x
pH.=-losol[H.+]
29

Kilka przykładów z prawdziwego życia, które musiałem podać jako dodatek do bardzo dobrej odpowiedzi @ Michaela Lwa.

Po pierwsze, wykresy z dwóch szeregów czasowych poniżej pokazują miesięczne przyjazdy odwiedzających do Nowej Zelandii, dostępne w Statistics New Zealand . Oba wykresy mają swój cel, ale uważam, że ten z osią pionową w skali logarytmicznej jest spektakularnie przydatny do wielu innych celów niż pierwszy. Na przykład widać, że sezonowość przylotów pozostaje w przybliżeniu proporcjonalna do skali przylotów; i widać znaczące zmiany tempa wzrostu (np. podczas drugiej wojny światowej), które są po prostu niewidoczne w pierwotnej skali.

wprowadź opis zdjęcia tutaj

Po drugie, poniższe wykresy pokazują łączne wydatki turystów na podróż do Nowej Zelandii w porównaniu z wydatkami, które faktycznie spędzili w Nowej Zelandii. Źródłem jest International Visitors Survey przeprowadzone przez Ministerstwo Rozwoju Gospodarczego. Różnica polega na wydatkach przed podróżą, np. Na hotele lub pakiety opłacone z góry. Pierwszy wykres, w oryginalnej skali, może być wykorzystywany do kilku celów innych niż bardzo przybliżone (ale ważne) wrażenie grupowania danych w lewym dolnym rogu. Drugi wykres poświęca pewną natychmiastową interpretację, szczególnie dla niestatystów (z tego powodu zwykle używałbym teraz skali logarytmicznej na osiach, zamiast przekształcać dane i mieć skalę pokazującą wartość logarytmiczną), ale daje dużo więcej różnicowania wizualnego.

Na przykład można wyraźnie zauważyć kilka wartości odstających (które okazały się błędami edycji danych), w których łączne wydatki były mniejsze niż wydatki w Nowej Zelandii. Być może, co ważniejsze, możesz użyć tego wykresu w różnych kolorach lub aspektach, aby pokazać, w jaki sposób różne kraje rynkowe lub cel wizyty (np. Wakacje kontra odwiedziny u znajomych i rodziny) zajmują różne części „przestrzeni” wydatków - coś, co byłoby po prostu niewidoczne na oryginalnych osiach.

Przekształcenie tego wykresu w coś użytecznego wymagałoby w jakiś sposób radzenia sobie z danymi o wysokiej gęstości (np. Przez dodanie pewnej przezroczystości do punktów lub zastąpienie punktów sześciokątnymi pojemnikami pokolorowanymi według gęstości), ale każde użyteczne rozwiązanie wizualne prawie na pewno będzie obejmować osie logarytmiczne.

wprowadź opis zdjęcia tutaj

edycja / dodawanie

Kolejny wykres ilustrujący znaczenie sześciokątnych pojemników, w których kolor reprezentuje gęstość, gdy istnieje duży zestaw danych (w tym przypadku około 12 000 respondentów w ankiecie na temat doświadczeń w Pucharze Świata w Rugby w Nowej Zelandii). Zwróćmy uwagę, że to kolejny przykład, w którym zastosowałem skalę logarytmiczną dla wydatków.

wprowadź opis zdjęcia tutaj

Peter Ellis
źródło
Peter, dziękuję za dodatkowy wgląd - grafika naprawdę pomaga w zrozumieniu twoich punktów. Jedno kolejne pytanie (jeśli masz takie skłonności), dlaczego miałbyś zamieniać punkty na „sześciokątne” pojemniki? Czy to ten sam pomysł, co „Słoneczniki”? Nie słyszałem tego terminu wcześniej.
dav
Nie, różni się od działek słonecznikowych. Chodzi o to, aby podzielić obszar kreślenia na sześciokątne pojemniki, a następnie pokolorować je (np. Od jasnego do ciemnego) zgodnie z liczbą punktów w każdym pojemniku. Może to być dobry sposób na obejście wydruku dużych zbiorów danych, które w przeciwnym razie mają tendencję do przekształcania się w masę czerni.
Peter Ellis
@DavidVandenbos - Dodałem przykład
Peter Ellis
(reszta komentarza) @PeterEllis Dzięki za wyjaśnienie. To świetny sposób na wizualizację danych - jest bardzo podobny do geograficznych map ciepła, których używam. Czy stworzyłeś to w R?
dav
Tak, R, używając pakietu ggplot2 - bardzo dobry do tego celu i całkiem prosty, gdy tylko poznasz podstawy.
Peter Ellis
9

Inną ciekawą cechą skal logów jest to, że sprawiają, że proporcje wydają się symetryczne. Na przykład: wprowadź opis zdjęcia tutaj

miura
źródło
9
Dla porównania miło byłoby zobaczyć ten sam wykres w skali liniowej
nico