Czy wizualizacja jest wystarczającym uzasadnieniem dla transformacji danych?
13
Problem
Chciałbym wykreślić wariancję wyjaśnioną przez każdy z 30 parametrów, na przykład jako wykres słupkowy z innym słupkiem dla każdego parametru i wariancję na osi y:
Jednak wariancje są mocno wypaczone w kierunku małych wartości, w tym 0, co można zobaczyć na histogramie poniżej:
Jeśli przekształcę je za pomocą , łatwiej będzie zobaczyć różnice między małymi wartościami (histogram i wykres słupkowy poniżej):log(x+1)
Pytanie
Rysowanie w skali logarytmicznej jest powszechne, ale czy rysowanie podobnie uzasadnione?log(x+1)
Niektórzy nazywają to „ logarytmem rozpoczętym ” ( np. John Tukey). (W niektórych przykładach Google John Tukey „rozpoczął log” ).
Jest idealnie w użyciu. W rzeczywistości można oczekiwać, że konieczne będzie użycie niezerowej wartości początkowej w celu uwzględnienia zaokrąglenia zmiennej zależnej. Na przykład zaokrąglenie zmiennej zależnej do najbliższej liczby całkowitej skutecznie usuwa 1/12 z jej prawdziwej wariancji, co sugeruje, że rozsądna wartość początkowa powinna wynosić co najmniej 1/12. (Ta wartość nie robi złej pracy z tymi danymi. Używanie innych wartości powyżej 1 tak naprawdę nie zmienia obrazu zbytnio; po prostu podnosi wszystkie wartości z prawego dolnego wykresu prawie równomiernie.)
Istnieją głębsze powody, aby używać logarytmu (lub uruchomionego logu) do oceny wariancji: na przykład nachylenie wykresu wariancji w stosunku do wartości szacunkowej w skali log-log szacuje parametr Box-Coxa dla stabilizacji wariancji . Często obserwowane są takie dopasowania wariancji prawa do pewnej zmiennej pokrewnej. (To stwierdzenie empiryczne, a nie teoretyczne).
Jeśli Twoim celem jest przedstawienie rozbieżności, postępuj ostrożnie. Wielu odbiorców (oprócz naukowych) nie rozumie logarytmu, a tym bardziej logistyki rozpoczętej. Zastosowanie wartości początkowej równej 1 ma tę zaletę, że jest nieco prostsze w wyjaśnieniu i interpretacji niż w przypadku innej wartości początkowej. Należy wziąć pod uwagę ich korzenie, które są oczywiście odchyleniami standardowymi. Wyglądałoby to tak:
Niezależnie od tego, jeśli Twoim celem jest eksploracja danych, nauka z nich, dopasowanie modelu lub ocena modelu, nie pozwól, aby cokolwiek przeszkadzało w znajdowaniu rozsądnych graficznych reprezentacji twoich danych i wartości pochodnych takie jak te wariancje.
dziękuję za wyjaśnienie i odpowiednią terminologię / odniesienie. Publiczność jest czytelnikami czasopisma naukowego, a tematem jest rozkład wariancji; zrozumienie koncepcji transformacji logów jest warunkiem wstępnym, ale nadal nie byłem pewien, czy ta prezentacja wymaga dalszego uzasadnienia - korzenie są dobrą alternatywą. Dzięki.
David LeBauer,
3
To może być rozsądne. Lepszym pytaniem jest, czy 1 jest poprawną liczbą do dodania. Jakie było twoje minimum? Jeśli na początku było 1, to narzucasz określony odstęp między pozycjami o wartości zero a pozycjami o wartości 1. W zależności od dziedziny badań bardziej sensowne może być wybranie 0,5 lub 1 / e jako przesunięcia. Implikacją przekształcenia w skalę logu jest to, że masz teraz skalę skali.
Ale niepokoją mnie fabuły. Chciałbym zapytać, czy model, który ma większość wyjaśnionej wariancji w ogonie wypaczonego rozkładu, powinien mieć pożądane właściwości statystyczne. Myślę, że nie.
Nie jestem pewien, czy jest to jasne, ale histogramy przedstawiają 30 wartości wariancji, a wykresy słupkowe są surowymi wartościami wariancji, tzn. var <- c(0,0,1,3,10,100,150), hist(var), barplot(var)Interpretuję to jako kilka parametrów wyjaśniających większość wariancji, a nie najbardziej wyjaśnionej wariancji jest w ogonie. Czy to ma większy sens? Przepraszam, jeśli to było niejasne.
To może być rozsądne. Lepszym pytaniem jest, czy 1 jest poprawną liczbą do dodania. Jakie było twoje minimum? Jeśli na początku było 1, to narzucasz określony odstęp między pozycjami o wartości zero a pozycjami o wartości 1. W zależności od dziedziny badań bardziej sensowne może być wybranie 0,5 lub 1 / e jako przesunięcia. Implikacją przekształcenia w skalę logu jest to, że masz teraz skalę skali.
Ale niepokoją mnie fabuły. Chciałbym zapytać, czy model, który ma większość wyjaśnionej wariancji w ogonie wypaczonego rozkładu, powinien mieć pożądane właściwości statystyczne. Myślę, że nie.
źródło
var <- c(0,0,1,3,10,100,150), hist(var), barplot(var)
Interpretuję to jako kilka parametrów wyjaśniających większość wariancji, a nie najbardziej wyjaśnionej wariancji jest w ogonie. Czy to ma większy sens? Przepraszam, jeśli to było niejasne.