Przekształcanie bardzo wypaczonych rozkładów

13

Załóżmy, że mam zmienną, której rozkład jest wypaczony w bardzo dużym stopniu pozytywnie, tak że pobranie logu nie będzie wystarczające, aby umieścić go w zakresie skośności dla rozkładu normalnego. Jakie są moje opcje w tym momencie? Co mogę zrobić, aby przekształcić zmienną w rozkład normalny?

histelheim
źródło
2
Żeby się upewnić, „wypaczony negatyw” oznacza długi ogon skierowany w lewo czy w prawo? Jeśli jest naprawdę wypaczony negatywnie (długi ogon w lewo), transformacja logów nie działałaby zbyt dobrze.
Penguin_Knight
6
Wzajemna transformacja jest silniejsza niż logarytmiczna i często zachowuje znaczenie, ponieważ jednostki miary są po prostu odwrócone. Na przykład odwrotność czasu do zrobienia czegoś jest rodzajem prędkości i odwrotnie. Sens ma odwrotność mil na galon lub km na litr. Wzajemne odwrócenie kolejności i można je zanegować, jeśli jest to preferowane. Oczywiście są one częścią schematu Box-Cox z dodatkowymi szczegółami. Wszystkie wartości powinny być dodatnie, aby działało dobrze. (Zasadniczo działałoby przy wszystkich wartościach ujemnych, ale nie widziałem jeszcze przykładu w praktyce.)
Nick Cox
2
@Aksakal Nie uważam za dobry pomysł. Wynik jest istotny statystycznie tylko dla wartości . Jeśli wartości się liczą, sztucznie jest niezdefiniowane przekształcenie na 0 lub 1 s, niezależnie od tego, czy wartości te występują w danych. Jeśli wartości są pomiarami, ograniczenie oznacza, że ​​ważność transformacji zależy od wyboru jednostek miary, co jest absurdalne, tak jakby nie można zrobić, ponieważ używam cm, ale można zrobić, ponieważ używam mm. (Te logarytmy dają złożone wyniki dla negatywnych argumentów, ale nie wydaje mi się, że to pomaga statystycznie.)> 1 ln ( ln ( 0,7 ) ) ln ( ln ( 7 ) )ln(ln())>1ln(ln(0.7))ln(ln(7))
Nick Cox
2
@Aksakal Zbyt silny, by powiedzieć „transformacja logów nie jest narzędziem do leczenia skośności”: jeśli skośność jest jedynym problemem, kłody często działają bardzo dobrze. Jeśli chodzi o to, że skośność rozkładów krańcowych nie musi stanowić poważnego problemu, raczej się zgadzam.
Nick Cox
3
Oczywiście się zgadzam, ale gdybym użył kwadratów lub logarytmów, nie czułbym się zobowiązany do oferowania referencji i podobnie tutaj. Jednak na użyteczność wzajemności, szczególnie czas i prędkość, podkreślił (np.) Tukey, JW 1977. Analiza danych eksploracyjnych. Reading, MA: Addison-Wesley oraz w kilku swoich artykułach. Mile na galon i galony na milę (lub odwrotnie litry na km i km na litr) są powszechnym miejscem w dyskusjach na temat danych osiągów samochodu. Gęstości i ich wzajemność są dość standardowymi przykładami w geografii i demografii.
Nick Cox,

Odpowiedzi:

13

Wypróbuj prostą transformację Box-Cox zgodnie z Box, GEP i Cox, DR (1964), „An Analysis of Transformations”, Journal of the Royal Statistics Society, Series B , 26, 211--234. SAS ma opis swojej funkcji wiarygodności w normalizujących transformacjach , której można użyć do znalezienia optymalnego parametru , co opisano w Atkinson, AC (1985), Plots, Transformations and Regression , New York: Oxford University Press.λ

Bardzo łatwo jest zaimplementować go za pomocą funkcji LL lub jeśli masz pakiet statystyk, taki jak SAS lub MATLAB, użyj ich poleceń: jest to polecenie boxcox w MATLAB i PROC TRANSREG w SAS.

Również w R jest to w pakiecie MASS, funkcja boxcox ().

Aksakal
źródło
5

W przypadku pochylenia dodatniego (ogon znajduje się na dodatnim końcu osi x), istnieje transformacja pierwiastka kwadratowego, transformacja logarytmiczna i transformacja odwrotna / odwrotna (w kolejności rosnącego nasilenia). Dlatego jeśli transformacja dziennika nie jest wystarczająca, możesz użyć następnego poziomu transformacji. Box Cox uruchamia wszystkie transformacje automatycznie, dzięki czemu możesz wybrać najlepszą.

Sarah Thomas
źródło
-5

Większość pakietów oprogramowania będzie używać numeru Eulera jako domyślnej bazy logów, AKA: log naturalny. Możesz użyć wyższej liczby bazowej, aby ograniczyć nadmiernie skośne dane. To, jak to zrobisz, pod względem składniowym, zależy od używanego oprogramowania.

Jeśli musisz odzyskać swoje przekształcone wartości po dokonaniu oszacowań, może być nieco łatwiej skorzystać z tej metody, ponieważ wszystko, co musisz zrobić, to wykonać operator wykładniczy na zmiennej bez względu na bazę danych dziennika.

Matthew Brooks
źródło
6
To nie ma żadnego sensu. Logarytmy dwóch różnych zasad różnią się tylko stałą multiplikatywną, a zatem redukcja skośności o jedną z nich jest taka sama. Zatem 1 10 100 1000 10000 jest symetryczny po przekształceniu podstawy logarytmicznej 10 i byłby tak samo symetryczny po bazie logarytmicznej lub logarytmicznej podstawie 2. Jedyną różnicą jest współczynnik skalowania. e
Nick Cox,