Zazwyczaj, gdy napotyka się ciągłe, ale wypaczone miary wyniku w układzie podłużnym (powiedzmy, z jednym efektem między podmiotami), powszechnym podejściem jest przekształcenie wyniku w normalność. Jeśli sytuacja jest ekstremalna, na przykład w przypadku skróconych obserwacji, można się zachwycić i zastosować model krzywej wzrostu Tobita lub coś takiego.
Ale jestem zagubiony, gdy widzę wyniki, które są normalnie rozłożone w pewnych punktach czasowych, a następnie mocno wypaczone na innych; transformacja może zatkać jeden wyciek, ale sprężynować inny. Co możesz zasugerować w takim przypadku? Czy istnieją „nieparametryczne” wersje modeli efektów mieszanych, o których nie wiem?
Uwaga: zastosowanym przykładem byłyby wyniki testu wiedzy przed / po serii interwencji edukacyjnych. Wyniki zaczynają się normalnie, ale później skupiają się w górnej części skali.
źródło
Odpowiedzi:
Zakładając, że problem występuje w twoich resztkach (ponieważ sam rozkład zmiennej wynikowej zwykle nie stanowi problemu), chciałbym raczej zbadać przyczynę problemu, niż próbować go „naprawić” poprzez transformację lub zastosowanie model nieparametryczny.
Jeśli tak jest, wydaje się, że istnieje tendencja (np. Stopniowe zbliżanie się do normalności) lub wyraźna przerwa pomiędzy przejściem z normalnej do normalnej, to sugeruje jakąś „zmianę reżimu” w twoje dane (tj. mechanizm generowania danych zmienia się w czasie) lub jakiś problem z brakującą zmienną.
Jeśli jest tak, że nie ma oczywistego wzorca (np. Przedziały czasowe 1 i 3 wyglądają normalnie, a przedziały czasowe 2 i 4 nie wyglądają), bardzo ostrożnie szukałem problemu z integralnością danych.
Prostym sposobem sprawdzenia, czy masz zmianę reżimu, jest oszacowanie modelu przy użyciu tylko „normalnych” przedziałów czasowych, a następnie ponowne oszacowanie przy użyciu innych przedziałów czasowych i sprawdzenie, jaka różnica występuje. Bardziej skomplikowanym podejściem jest zastosowanie modelu klasy ukrytej, być może z czasem jako zmienną towarzyszącą.
Jeśli chodzi o twoje pytanie na temat nieparametrycznych modeli efektów mieszanych, zależy to od tego, co rozumiesz przez nieparametryczny. Jeśli masz na myśli modele, które nie zakładają liczbowej zmiennej zależnej, istnieje wiele takich modeli (np. LIMDEP ma sporo). Należy również pamiętać, że naruszenie założenia normalności będzie prawdopodobnie problematyczne tylko z perspektywy wnioskowania, jeśli próbka jest niewielka. Jednym ze sposobów zbadania tego byłoby wypróbowanie różnych transformacji omówionych w innych komentarzach i odpowiedziach i sprawdzenie, czy ma to duży wpływ na twoje wnioski.
źródło
Istnieją transformacje Box-Coxa, które podnoszą zmienną do lambda mocy, gdzie lambda jest uwzględniana w estymacji parametru modelu. Nie znam złożonej transformacji mocy Tukeya, więc nie wiem, czy mówimy o tym samym. Aby oszacować lambda, potrzebujesz wielu punktów w dopasowaniu. Czy chcesz dopasować inny rozkład w każdym punkcie czasowym, w którym rozkład jest zdefiniowany dla zestawu podmiotów biorących test w każdym punkcie czasowym? Nawet jeśli tak jest, jeśli wiesz, że niektóre punkty czasowe powinny mieć taki sam rozkład, możesz je połączyć w jednym dopasowaniu.
Innym podejściem, które jest nieparametryczne i nie obejmuje przekształceń do normalności, byłoby zastosowanie ładowania początkowego w każdym punkcie czasowym lub w każdym połączonym zestawie punktów czasowych.
źródło