W analizie wyników testu (np. W edukacji lub psychologii) powszechne techniki analizy często zakładają, że dane są zwykle dystrybuowane. Jednak być może częściej niż nie, wyniki często odbiegają od normy.
Znam kilka podstawowych transformacji normalizujących, takich jak: pierwiastki kwadratowe, logarytmy, odwrotne transformacje do zmniejszania skosu dodatniego, odbite wersje powyższych dla zmniejszania skosu ujemnego, kwadraty dla rozkładów leptokurtycznych. Słyszałem o transformacjach łukowych i transformacjach mocy, chociaż tak naprawdę nie mam o nich wiedzy.
Jestem więc ciekawy, jakie inne transformacje są powszechnie używane przez analityków?
Pierwszym krokiem powinno być pytanie, dlaczego twoi zmienne są dla rozkładu normalnego. To może być pouczające. Typowe ustalenia z mojego doświadczenia:
Ten pierwszy krok może sugerować modyfikacje projektu w teście. Jeśli zdajesz sobie sprawę z tych problemów z wyprzedzeniem, możesz nawet zaprojektować test, aby ich uniknąć, jeśli uznasz je za problematyczne.
Drugim krokiem jest, aby zdecydować, co zrobić w sytuacji, gdy trzeba nienormalnych danych. Przekształcenie notatek jest tylko jedną z możliwych strategii. Chciałbym powtórzyć ogólną radę z poprzedniej odpowiedzi dotyczącej nienormalności :
źródło
John Tukey systematycznie omawia transformacje w swojej książce o EDA. Oprócz rodziny Box-Coxa (Affinely Scale Power Transformations) definiuje rodzinę „fałdowanych” transformacji dla proporcji (zasadniczo mocy x / (1-x)) i „rozpoczętych” zliczeń (dodając dodatnie przesunięcie do zliczonych danych przed ich przekształceniem). Złożone transformacje, które zasadniczo uogólniają logit, są szczególnie przydatne do wyników testów.
Zupełnie inaczej, Johnson & Kotz w swoich książkach o dystrybucjach oferują wiele transformacji mających na celu konwersję statystyk testowych do przybliżonej normalności (lub do innej dystrybucji docelowej), takich jak transformacja pierwiastka sześciennego dla chi-kwadrat. Ten materiał jest doskonałym źródłem pomysłów na przydatne transformacje, gdy spodziewamy się, że Twoje dane będą miały określoną dystrybucję.
źródło
Prostą opcją jest użycie sum wyników zamiast samych wyników. Suma rozkładów dąży do normalności. Na przykład w edukacji można dodać wyniki ucznia w serii testów.
Inną opcją jest oczywiście stosowanie technik, które nie zakładają normalności, które są niedoceniane i niedostatecznie wykorzystywane.
źródło
Do danych skośnych i gruboogonowych używam (i opracowałem) ramy dystrybucji Lambert W x F. Skośne i ciężkie rozkłady Lambert W x F oparte są na nieliniowej transformacji wejściowej zmiennej losowej (RV)X∼ F. do wyjścia Y L a m b e r t W× F. , która jest podobna do X, ale skośna i / lub gruboogoniasta (szczegółowe informacje znajdują się w dokumentach).
Działa to ogólnie dla każdego ciągłego RV, ale w praktyce interesuje nas głównie GaussaX∼ N.( μ , σ2)) . W przypadku rozkładów W x F Lambera odwrotność jest odwrotna i może być oszacowana na podstawie danych przy użyciu ulubionego estymatora parametruθ = ( μx, σx, δ, α ) (MLE, metody momentów, analiza bayesowska, ...). Dlaα ≡ 1 a X jako Gaussa zmniejsza się do rozkładu h Tukeya.
Teraz, jako transformacja danych, staje się to interesujące, ponieważ transformacja jest bijective (prawie bijective w przypadku skośnego przypadku) i może być uzyskana jawnie za pomocą funkcji W Lamberta (stąd nazwa Lambert W x F). Oznacza to, że możemy usunąć skośność z danych, a także usunąć ciężkie ogony (biotycznie!).
Możesz to wypróbować za pomocą pakietu LambertW R, z instrukcją pokazującą wiele przykładów jego użycia.
Dla aplikacji zobacz te posty
źródło