Czy transformacja dziennika jest prawidłową techniką testowania danych niestandardowych?

19

Przeglądając artykuł, autorzy stwierdzają: „Ciągłe zmienne wyników wykazujące skośny rozkład zostały przekształcone przy użyciu logarytmów naturalnych, zanim przeprowadzono testy t w celu spełnienia wstępnych założeń normalności”.

Czy jest to akceptowalny sposób analizy danych nienormalnych, szczególnie jeśli rozkład podstawowy niekoniecznie jest logarytmiczny?

To może być bardzo głupie pytanie, ale nie widziałem tego wcześniej ...

CLS
źródło
3
Cóż, jeśli początkowy rozkład nie jest log-normalny, wówczas przekształcone dane nie spełniają wstępnych założeń normalności, więc co zyskuje transformacja?
Makro
@Macro - wystarczy! (+1) - prawdopodobnie chcieli po prostu zbliżyć rozkłady do symetrycznych, co nie jest złym rozwiązaniem dla testów t, ale jeśli nie sprawdzili i nie napisali, nie wiemy, czy dziennik transformacja wywołała ujemne przekrzywienie, które mogło pogorszyć sytuację ...
jbowman
2
Możemy wnioskować, że ponieważ dokonano tego, aby spełnić normalność, a normalność sprawdzono przede wszystkim, normalność sprawdzono później. Jest to mocno ukryte w tym języku.
Jana
10
Test t dla logarytmów nie jest ani tym samym, co test t dla nietransformowanych danych ani test nieparametryczny. Test t na logach porównuje średnie geometryczne , a nie (zwykłe) średnie arytmetyczne. Jest to jedna z kilku ważnych kwestii przy podejmowaniu decyzji, czy użycie logarytmów jest dopuszczalne (co może być, w zależności od aplikacji).
whuber

Odpowiedzi:

9

Często próbuje się zastosować jakąś transformację do normalności (używając np. Logarytmów, pierwiastków kwadratowych, ...) w przypadku napotkania danych, które nie są normalne. Chociaż logarytm daje dość dobre wyniki dla wypaczonych danych dość często, nie ma gwarancji, że zadziała w tym konkretnym przypadku. Analizując przekształcone dane, należy również pamiętać o powyższym komentarzu @ whubers: „Test t dla logarytmów nie jest ani tym samym, co test t dla nietransformowanych danych ani test nieparametryczny. Test t na logach porównuje geometrię oznacza, a nie (zwykłe) środki arytmetyczne. ”

n-1ja=1n(xja-x¯)3)(n-1ja=1n(xja-x¯)2))3)/2)

Zamiast wybierać transformację (np. Logarytmy), ponieważ działa ona przez większość czasu, wolę użyć procedury Box-Coxa do wyboru transformacji przy użyciu podanych danych. Istnieją jednak pewne filozoficzne problemy z tym; w szczególności, czy powinno to wpłynąć na liczbę stopni swobody w teście t, ponieważ wykorzystaliśmy pewne informacje z próbki przy wyborze transformacji do użycia.

Wreszcie dobrą alternatywą dla zastosowania testu t po transformacji lub klasycznego testu nieparametrycznego jest użycie analogu testu początkowego testu t. Nie wymaga założenia normalności i jest testem na nietransformowane środki (i nie na niczym innym).

MånsT
źródło
1
+1 Dobra, przemyślana dyskusja z dobrą rekomendacją na końcu. Więcej informacji na temat wersji t-testu bootstrap / resampling / permutacji znajduje się w ostatnim wątku na stronie stats.stackexchange.com/q/24911 .
whuber
0

Mówiąc ogólnie, jeżeli założenia wymagane do przeprowadzenia testu t nie są spełnione, bardziej odpowiednie byłoby zastosowanie testu nieparametrycznego.

użytkownik7045
źródło
5
Może. Testy nieparametryczne prawie zawsze porównują mediany (lub inne percentyle), a nie średnie, dlatego naprawdę zajmują się nieco innym pytaniem. Nie wydaje się to jednak pomocną odpowiedzią na bieżące pytanie, które dotyczy konkretnie (i tylko) testów t logów danych.
whuber