Czy wizualizacja jest wystarczającym uzasadnieniem dla transformacji danych?

13

Problem

Chciałbym wykreślić wariancję wyjaśnioną przez każdy z 30 parametrów, na przykład jako wykres słupkowy z innym słupkiem dla każdego parametru i wariancję na osi y:

alternatywny tekst

Jednak wariancje są mocno wypaczone w kierunku małych wartości, w tym 0, co można zobaczyć na histogramie poniżej:

alternatywny tekst

Jeśli przekształcę je za pomocą , łatwiej będzie zobaczyć różnice między małymi wartościami (histogram i wykres słupkowy poniżej):log(x+1)

alternatywny tekstalternatywny tekst

Pytanie

Rysowanie w skali logarytmicznej jest powszechne, ale czy rysowanie podobnie uzasadnione?log(x+1)

David LeBauer
źródło

Odpowiedzi:

13

Niektórzy nazywają to „ logarytmem rozpoczętym ” ( np. John Tukey). (W niektórych przykładach Google John Tukey „rozpoczął log” ).

Jest idealnie w użyciu. W rzeczywistości można oczekiwać, że konieczne będzie użycie niezerowej wartości początkowej w celu uwzględnienia zaokrąglenia zmiennej zależnej. Na przykład zaokrąglenie zmiennej zależnej do najbliższej liczby całkowitej skutecznie usuwa 1/12 z jej prawdziwej wariancji, co sugeruje, że rozsądna wartość początkowa powinna wynosić co najmniej 1/12. (Ta wartość nie robi złej pracy z tymi danymi. Używanie innych wartości powyżej 1 tak naprawdę nie zmienia obrazu zbytnio; po prostu podnosi wszystkie wartości z prawego dolnego wykresu prawie równomiernie.)

Istnieją głębsze powody, aby używać logarytmu (lub uruchomionego logu) do oceny wariancji: na przykład nachylenie wykresu wariancji w stosunku do wartości szacunkowej w skali log-log szacuje parametr Box-Coxa dla stabilizacji wariancji . Często obserwowane są takie dopasowania wariancji prawa do pewnej zmiennej pokrewnej. (To stwierdzenie empiryczne, a nie teoretyczne).

Jeśli Twoim celem jest przedstawienie rozbieżności, postępuj ostrożnie. Wielu odbiorców (oprócz naukowych) nie rozumie logarytmu, a tym bardziej logistyki rozpoczętej. Zastosowanie wartości początkowej równej 1 ma tę zaletę, że jest nieco prostsze w wyjaśnieniu i interpretacji niż w przypadku innej wartości początkowej. Należy wziąć pod uwagę ich korzenie, które są oczywiście odchyleniami standardowymi. Wyglądałoby to tak:

alternatywny tekst

Niezależnie od tego, jeśli Twoim celem jest eksploracja danych, nauka z nich, dopasowanie modelu lub ocena modelu, nie pozwól, aby cokolwiek przeszkadzało w znajdowaniu rozsądnych graficznych reprezentacji twoich danych i wartości pochodnych takie jak te wariancje.

Whuber
źródło
1
dziękuję za wyjaśnienie i odpowiednią terminologię / odniesienie. Publiczność jest czytelnikami czasopisma naukowego, a tematem jest rozkład wariancji; zrozumienie koncepcji transformacji logów jest warunkiem wstępnym, ale nadal nie byłem pewien, czy ta prezentacja wymaga dalszego uzasadnienia - korzenie są dobrą alternatywą. Dzięki.
David LeBauer,
3

To może być rozsądne. Lepszym pytaniem jest, czy 1 jest poprawną liczbą do dodania. Jakie było twoje minimum? Jeśli na początku było 1, to narzucasz określony odstęp między pozycjami o wartości zero a pozycjami o wartości 1. W zależności od dziedziny badań bardziej sensowne może być wybranie 0,5 lub 1 / e jako przesunięcia. Implikacją przekształcenia w skalę logu jest to, że masz teraz skalę skali.

Ale niepokoją mnie fabuły. Chciałbym zapytać, czy model, który ma większość wyjaśnionej wariancji w ogonie wypaczonego rozkładu, powinien mieć pożądane właściwości statystyczne. Myślę, że nie.

DWin
źródło
Nie jestem pewien, czy jest to jasne, ale histogramy przedstawiają 30 wartości wariancji, a wykresy słupkowe są surowymi wartościami wariancji, tzn. var <- c(0,0,1,3,10,100,150), hist(var), barplot(var)Interpretuję to jako kilka parametrów wyjaśniających większość wariancji, a nie najbardziej wyjaśnionej wariancji jest w ogonie. Czy to ma większy sens? Przepraszam, jeśli to było niejasne.
David LeBauer,