Jakie inne transformacje normalizujące są powszechnie stosowane poza zwykłymi, takimi jak pierwiastek kwadratowy, log itp.?

10

W analizie wyników testu (np. W edukacji lub psychologii) powszechne techniki analizy często zakładają, że dane są zwykle dystrybuowane. Jednak być może częściej niż nie, wyniki często odbiegają od normy.

Znam kilka podstawowych transformacji normalizujących, takich jak: pierwiastki kwadratowe, logarytmy, odwrotne transformacje do zmniejszania skosu dodatniego, odbite wersje powyższych dla zmniejszania skosu ujemnego, kwadraty dla rozkładów leptokurtycznych. Słyszałem o transformacjach łukowych i transformacjach mocy, chociaż tak naprawdę nie mam o nich wiedzy.

Jestem więc ciekawy, jakie inne transformacje są powszechnie używane przez analityków?

Mike Wong
źródło

Odpowiedzi:

5

Box-Cox transformacja obejmuje wiele z tych, które ty cytowanych. Zobacz tę odpowiedź, aby uzyskać szczegółowe informacje:

AKTUALIZACJA: Te slajdy zapewniają całkiem niezły przegląd transformacji Box-Cox.

ars
źródło
Jeśli zastosujemy t-narzędzia do danych przekształconych przez Box-Cox, otrzymamy wnioski na temat różnicy w średnich danych przekształconych. Jak interpretować te na oryginalnej skali pomiaru? (Średnia z przekształconych wartości nie jest przekształconą średnią). Innymi słowy (jeśli mam rację), przyjęcie odwrotnej transformacji oszacowania średniej, na przekształconej skali, nie daje oszacowania średniej na oryginalnej skali.
George Dontas,
@ gd047, niektóre testy zakładają normalność rozkładu średniej, a nie danych. Test t jest zwykle dość odporny na bazowe dane. Masz rację - w przypadku testów po transformacji wyniki są raportowane po transformacji odwrotnej, a interpretacja może być bardzo problematyczna. Sprowadza się to do tego, jak „nienormalne” są twoje dane, czy możesz uciec bez przekształcania lub stosowania, powiedzmy, transformacji dziennika, która jest łatwiejsza do interpretacji. W przeciwnym razie jest kontekstowy na temat rzeczywistej transformacji i dziedziny i tak naprawdę nie mam dobrej odpowiedzi. Czy warto zapytać, co mówią inni?
ars
10

Pierwszym krokiem powinno być pytanie, dlaczego twoi zmienne są dla rozkładu normalnego. To może być pouczające. Typowe ustalenia z mojego doświadczenia:

  • Testy umiejętności (np. Egzaminy, testy inteligencji, testy wstępne) mają tendencję do negatywnego wypaczania, gdy występują efekty sufitowe, i pozytywnego wypaczania, gdy występują efekty podłogowe. Oba ustalenia sugerują, że poziom trudności testu nie jest zoptymalizowany dla próbki, ponieważ jest zbyt łatwy lub zbyt trudny do optymalnego zróżnicowania zdolności. Oznacza to również, że ukryta zmienna będąca przedmiotem zainteresowania mogłaby być normalnie rozłożona, ale struktura testu indukuje skośność mierzonej zmiennej.
  • Testy umiejętności często mają wartości odstające pod względem słabych wyników. Krótko mówiąc, istnieje wiele sposobów, aby źle wykonać test. W szczególności można to czasem zaobserwować na egzaminach, w których jest niewielki odsetek studentów, gdzie połączenie braku umiejętności i wysiłku spowodowało bardzo niskie wyniki testów. Oznacza to, że ukryta zmienna zainteresowania prawdopodobnie ma kilka wartości odstających.
  • W odniesieniu do testów samoopisowych (np. Testów osobowości, testów postawy itp.) Często pojawia się zniekształcenie, gdy próbka jest z natury wysoka na skali (np. Rozkłady zadowolenia z życia są zniekształcone, ponieważ większość ludzi jest zadowolona) lub gdy skala został zoptymalizowany dla próbki innej niż ta, do której stosuje się test (np. zastosowanie klinicznej miary depresji w próbce nieklinicznej).

Ten pierwszy krok może sugerować modyfikacje projektu w teście. Jeśli zdajesz sobie sprawę z tych problemów z wyprzedzeniem, możesz nawet zaprojektować test, aby ich uniknąć, jeśli uznasz je za problematyczne.

Drugim krokiem jest, aby zdecydować, co zrobić w sytuacji, gdy trzeba nienormalnych danych. Przekształcenie notatek jest tylko jedną z możliwych strategii. Chciałbym powtórzyć ogólną radę z poprzedniej odpowiedzi dotyczącej nienormalności :

  • Wiele procedur zakładających normalność reszt jest odpornych na skromne naruszenia normalności reszt
  • Bootstrapping jest ogólnie dobrą strategią
  • Transformacje to kolejna dobra strategia. Zwróć uwagę, że z mojego doświadczenia wynika, że ​​rodzaje łagodnego wypaczenia, które często występują w testach psychologicznych zdolności i samoopisu, zwykle można dość łatwo przekształcić w rozkład zbliżający się do normalności za pomocą transformacji logarytmicznej, sqrt lub odwrotnej (lub odwrotnego odpowiednika).
Jeromy Anglim
źródło
9

John Tukey systematycznie omawia transformacje w swojej książce o EDA. Oprócz rodziny Box-Coxa (Affinely Scale Power Transformations) definiuje rodzinę „fałdowanych” transformacji dla proporcji (zasadniczo mocy x / (1-x)) i „rozpoczętych” zliczeń (dodając dodatnie przesunięcie do zliczonych danych przed ich przekształceniem). Złożone transformacje, które zasadniczo uogólniają logit, są szczególnie przydatne do wyników testów.

Zupełnie inaczej, Johnson & Kotz w swoich książkach o dystrybucjach oferują wiele transformacji mających na celu konwersję statystyk testowych do przybliżonej normalności (lub do innej dystrybucji docelowej), takich jak transformacja pierwiastka sześciennego dla chi-kwadrat. Ten materiał jest doskonałym źródłem pomysłów na przydatne transformacje, gdy spodziewamy się, że Twoje dane będą miały określoną dystrybucję.

Whuber
źródło
2

Prostą opcją jest użycie sum wyników zamiast samych wyników. Suma rozkładów dąży do normalności. Na przykład w edukacji można dodać wyniki ucznia w serii testów.

Inną opcją jest oczywiście stosowanie technik, które nie zakładają normalności, które są niedoceniane i niedostatecznie wykorzystywane.

Carlos Accioly
źródło
1
Uważam, że sumy należy znormalizować (np. Użyć średniej oceny), aby rozkład miał tendencję do normalności.
1
Tak to jest poprawne. W moim przykładzie założyłem, że zajęcia będą miały taką samą liczbę uczniów, co nie jest realistyczne. Dziękuję Ci.
Carlos Accioly,
1

Do danych skośnych i gruboogonowych używam (i opracowałem) ramy dystrybucji Lambert W x F. Skośne i ciężkie rozkłady Lambert W x F oparte są na nieliniowej transformacji wejściowej zmiennej losowej (RV)Xfa do wyjścia Y L.zambmirtW.×fa, która jest podobna do X, ale skośna i / lub gruboogoniasta (szczegółowe informacje znajdują się w dokumentach).

Działa to ogólnie dla każdego ciągłego RV, ale w praktyce interesuje nas głównie Gaussa XN.(μ,σ2)). W przypadku rozkładów W x F Lambera odwrotność jest odwrotna i może być oszacowana na podstawie danych przy użyciu ulubionego estymatora parametruθ=(μx,σx,δ,α)(MLE, metody momentów, analiza bayesowska, ...). Dlaα1 a X jako Gaussa zmniejsza się do rozkładu h Tukeya.

Teraz, jako transformacja danych, staje się to interesujące, ponieważ transformacja jest bijective (prawie bijective w przypadku skośnego przypadku) i może być uzyskana jawnie za pomocą funkcji W Lamberta (stąd nazwa Lambert W x F). Oznacza to, że możemy usunąć skośność z danych, a także usunąć ciężkie ogony (biotycznie!).

Możesz to wypróbować za pomocą pakietu LambertW R, z instrukcją pokazującą wiele przykładów jego użycia.

Dla aplikacji zobacz te posty

Georg M. Goerg
źródło