Załóżmy, że mam zmienną leptokurtyczną, którą chciałbym przekształcić do normalności. Jakie transformacje mogą wykonać to zadanie? Doskonale zdaję sobie sprawę z tego, że przekształcanie danych nie zawsze może być pożądane, ale dla celów akademickich załóżmy, że chcę „wbić” dane w normalność. Ponadto, jak można zauważyć na podstawie wykresu, wszystkie wartości są ściśle dodatnie.
Próbowałem różnych transformacji (prawie wszystkiego, co widziałem wcześniej, w tym itp.), Ale żadna z nich nie działa szczególnie dobrze. Czy są dobrze znane transformacje, dzięki którym rozkłady lepeptyczne są bardziej normalne?
Zobacz przykładowy wykres Normalnej QQ poniżej:
normal-distribution
data-transformation
kurtosis
qq-plot
Underminer
źródło
źródło
Odpowiedzi:
Używam rozkładów ciężkiego ogona Lambert W x F do opisu i transformacji danych leptokurtycznych. Zobacz (moje) następujące posty, aby uzyskać więcej informacji i odniesień:
Oto powtarzalny przykład z wykorzystaniem pakietu LambertW R.
Wykres qq× X∼ N.( 2000 , 400 ) δ= 0,2 ≤ 5
yy
jest bardzo zbliżony do wykresu qqplot w oryginalnym poście, a dane są rzeczywiście nieco lepki z kurtozą 5. Stąd dane można dobrze opisać rozkładem Gaussa Lambert W z wejściem i parametr tail (co oznacza, że istnieją tylko momenty do zamówienia ).X ∼ N ( 2000 , 400 ) δ = 0,2 ≤ 5Wróćmy do pytania: jak przywrócić normalność tych danych leptokurtycznych? Cóż, możemy oszacować parametry rozkładu za pomocą MLE (lub metod użycia momentów
IGMM()
),a następnie za pomocą bijective przekształcenie odwrotne (w oparciu oX
W_delta()
) do backtransform dane do wejściowego , który - przy projektowaniu - powinno być bardzo zbliżone do normalnego.Voila!
źródło
Chociaż transformacja pierwiastka sześciennego nie zadziałała dobrze, okazuje się, że pierwiastek kwadratowy i bardziej niejasny pierwiastek z trzech czwartych działają dobrze.
Oto oryginalny wykres gęstości jądra odpowiadający wykresowi QQ zmiennej leptokurtycznej w pierwotnym pytaniu:
Po zastosowaniu transformacji pierwiastka kwadratowego do odchyleń wykres QQ wygląda następująco:
Lepiej, ale może być bliżej.
Jeszcze bardziej wbijając, stosując transformację korzenia o trzy czwarte do odchyleń, uzyskuje się:
A ostateczna gęstość jądra tej transformowanej zmiennej wygląda następująco:
Wygląda na mnie blisko.
źródło
W wielu przypadkach po prostu może nie być prostej transformacji monotonicznej, która dałaby wynik zbliżony do normalnego.
Wyobraźmy sobie na przykład, że mamy rozkład, który jest skończoną mieszanką logarytmicznych rozkładów różnych parametrów. Logarytmiczna transformacja przekształciłaby dowolny ze składników mieszanki w normalność, ale mieszanka normalnych w przekształconych danych pozostawia ci coś, co nie jest normalne.
Lub może być względnie fajna transformacja, ale nie jedna z form, które warto wypróbować - jeśli nie znasz rozkładu danych, możesz go nie znaleźć. Na przykład, jeśli dane byłyby dystrybuowane gamma, nie znajdziesz nawet dokładnej transformacji do normalności (która z pewnością istnieje), chyba że powiem ci dokładnie, co to jest dystrybucja (chociaż możesz natknąć się na transformację z pierwiastkiem kostki, która w tym przypadek sprawiłby, że byłby prawie normalny, o ile parametr kształtu nie byłby zbyt mały)
Istnieją niezliczone sposoby, w jakie dane mogą wyglądać na podatne na transformację, ale nie wygląda to dobrze na żadnej z listy oczywistych transformacji.
Jeśli możesz dać nam dostęp do danych, być może uda nam się dostrzec transformację, która jest w porządku - lub że pokażemy ci, dlaczego jej nie znajdziesz.
Na podstawie wrażenia wizualnego wygląda raczej jak mieszanina dwóch normalnych o różnych skalach. Jest tylko niewielka nuta asymetrii, którą można łatwo zaobserwować przypadkowo. Oto przykład próbki z mieszanki dwóch normalnych o wspólnej średniej - jak widać, wygląda trochę podobnie do twojego wykresu (ale inne próbki mogą wyglądać na cięższe lub jaśniejsze) - przy tej wielkości próbki istnieje duża zmienność w kolejności statystyki poza 1 sd po obu stronach średniej).
W rzeczywistości są nałożone na ciebie i moje:
źródło