Wyrażaj odpowiedzi w kategoriach oryginalnych jednostek, w przekształconych danych Box-Cox

13

W przypadku niektórych pomiarów wyniki analizy są odpowiednio prezentowane w przekształconej skali. Jednak w większości przypadków pożądane jest przedstawienie wyników w oryginalnej skali pomiaru (w przeciwnym razie twoja praca będzie mniej lub bardziej bezwartościowa).

Na przykład w przypadku danych transformowanych logami pojawia się problem z interpretacją w oryginalnej skali, ponieważ średnia zarejestrowanych wartości nie jest logarytmem średniej. Przyjmowanie antylogarytmu oszacowania średniej w skali logarytmicznej nie daje oszacowania średniej w pierwotnej skali.

Jeśli jednak dane przekształcone w dziennik mają rozkład symetryczny, zachodzą następujące relacje (ponieważ dziennik zachowuje porządek):

Mean[log(Y)]=Median[log(Y)]=log[Median(Y)]

(antylogarytm średniej wartości logarytmicznej jest medianą oryginalnej skali pomiarów).

Mogę więc jedynie wyciągać wnioski na temat różnicy (lub stosunku) median na oryginalnej skali pomiaru.

Dwupróbkowe testy t i przedziały ufności są najbardziej wiarygodne, jeśli populacje są w przybliżeniu normalne z przybliżonymi odchyleniami standardowymi, więc możemy ulec pokusie wykorzystania Box-Coxtransformacji do przyjęcia założenia normalności (uważam również, że jest to również transformacja stabilizująca wariancję ).

Jeśli jednak zastosujemy narzędzia t do Box-Coxtransformowanych danych, uzyskamy wnioski na temat różnicy w średnich transformowanych danych. Jak interpretować te na oryginalnej skali pomiaru? (Średnia z przekształconych wartości nie jest przekształconą średnią). Innymi słowy, biorąc odwrotną transformację oszacowania średniej, na przekształconej skali, nie daje oszacowania średniej na pierwotnej skali.

Czy w tym przypadku mogę również wyciągać wnioski na temat median? Czy istnieje transformacja, która pozwoli mi wrócić do środków (w oryginalnej skali)?

To pytanie zostało pierwotnie opublikowane jako komentarz tutaj

George Dontas
źródło

Odpowiedzi:

11

Jeśli chcesz wnioskować konkretnie o średniej oryginalnej zmiennej, nie używaj transformacji Box-Coxa. Transformacje Box-Cox IMO są najbardziej przydatne, gdy transformowana zmienna ma własną interpretację, a transformacja Box-Cox pomaga tylko znaleźć właściwą skalę do analizy - okazuje się, że jest to zaskakująco często. Dwa nieoczekiwane wykładniki, które znalazłem w ten sposób, to 1/3 (gdy zmienną odpowiedzi była objętość pęcherza) i -1 (gdy zmienną odpowiedzi była liczba oddechów na minutę).

Transformacja logów jest prawdopodobnie jedynym wyjątkiem. Średnia na skali logarytmicznej odpowiada średniej geometrycznej w oryginalnej skali, która jest co najmniej dobrze określoną wielkością.

Aniko
źródło
Masz też inne wyjątki. -1 odpowiada średniej harmonicznej, ...
kjetil b halvorsen
9

Jeśli transformacja Box-Coxa daje rozkład symetryczny, wówczas średnia z transformowanych danych jest przekształcana z powrotem do mediany w oryginalnej skali. Dotyczy to każdej transformacji monotonicznej, w tym transformacji Boxa-Coxa, transformacji IHS itp. Tak więc wnioski na temat średnich na przekształconych danych odpowiadają wnioskom na temat mediany w oryginalnej skali.

Ponieważ oryginalne dane były wypaczone (inaczej nie użyłbyś transformacji Box-Coxa), dlaczego chcesz wnioskować na temat średnich? Myślałem, że praca z medianami miałaby w tej sytuacji większy sens. Nie rozumiem, dlaczego jest to postrzegane jako „problem z interpretacją w oryginalnej skali”.

Rob Hyndman
źródło
λ
Dziękuję Ci. Być może dlatego, że próba (z populacji, która moim zdaniem powinna mieć rozkład mniej więcej symetryczny) mogła przypadkowo zostać wypaczona.
George Dontas,
4
Dobrym przykładem potrzeby wyciągania wniosków na temat środków, bez względu na wszystko, są niektóre oceny ryzyka środowiskowego. Aby znacznie uprościć, wyobraź sobie, że planujesz przekształcić ziemię w park. Testujesz gleby pod kątem związku budzącego obawy i, jak to często bywa, okazuje się, że jego stężenie jest w przybliżeniu logarytmicznie rozkładane. Niemniej jednak osoby korzystające z parku - które mogą być bezpośrednio narażone na te gleby - będą skutecznie „losowo” próbkować gleby równomiernie podczas ruchu. Ich ekspozycja w czasie będzie średnią arytmetyczną, a nie średnią geometryczną.
whuber
1
Czasami interesują nas problemy wynikające z sformułowania całkowitej ilości czegoś. Jeśli znasz średnią, możesz przejść od średniej do sumy (pomnożonej przez liczbę obserwacji). Nie ma możliwości przejścia z mediany na sumę!
George Dontas,
6

Jeśli chcesz wnioskować o środkach w oryginalnej skali, możesz rozważyć użycie wnioskowania, które nie wykorzystuje założenia normalności.

Uważaj jednak. Po prostu podłączenie poprzez proste porównanie środków poprzez powiedzmy resampling (testy permutacji lub ładowanie początkowe), gdy dwie próbki mają różne wariancje, może stanowić problem, jeśli w analizie założono, że wariancje są równe (a równe wariancje na przekształconej skali będą wariancjami różnic w oryginalnej skali, jeśli średnie różnią się). Takie techniki nie unikają konieczności myślenia o tym, co robisz.

f(x+h)t[μ+(Yμ)]Yμσ2t()

t(μ)

-

Najłatwiejszym przypadkiem jest normalność w skali logarytmicznej, a zatem lognormalna w oryginalnej skali. Jeśli znana jest Twoja wariancja (co w najlepszym wypadku zdarza się bardzo rzadko), możesz skonstruować logarytmiczne CI i PI w oryginalnej skali i możesz podać przewidywaną średnią ze średniej rozkładu odpowiedniej wielkości.

tt

Musisz bardzo dokładnie przemyśleć, na jakie pytanie próbujesz odpowiedzieć.

Glen_b - Przywróć Monikę
źródło