Ogólnie rzecz biorąc, standaryzuję moje zmienne niezależne w regresjach, aby właściwie porównać współczynniki (w ten sposób mają one te same jednostki: odchylenia standardowe). Jednak w przypadku danych panelowych / podłużnych nie jestem pewien, jak powinienem ustandaryzować swoje dane, zwłaszcza jeśli oszacuję model hierarchiczny.
Aby zobaczyć, dlaczego może to być potencjalny problem, załóżmy, że masz jednostek mierzonych wzdłuż okresów i zmienną zależną, i jedną zmienną niezależną x_ {i, t} . Jeśli uruchomisz pełną regresję puli, możesz ustandaryzować swoje dane w następujący sposób: xz = (x- \ text {mean} (x)) / \ text {sd} (x) , ponieważ nie zmieni to t- Statystyczny. Z drugiej strony, jeśli dopasujesz regresję niepasowaną, tj. Jedną regresję dla każdej osoby, powinieneś ustandaryzować swoje dane tylko dla poszczególnych osób, a nie dla całego zestawu danych (w kodzie R):
for (i in 1:n) {
for ( t in 1:T) x.z[i] = (x[i,t] - mean(x[i,]))/sd(x[i,])
}
Jeśli jednak dopasujesz prosty model hierarchiczny ze zmiennym przechwytywaniem przez poszczególne osoby, wówczas używasz estymatora skurczu, tj. Estymujesz model między regresją zbiorczą a niepasowaną. Jak mam ustandaryzować swoje dane? Używasz całych danych jak regresji zbiorczej? Używasz tylko pojedynczych osób, jak w przypadku niepasującym?
źródło
Istnieje alternatywa dla standaryzacji w celu dostosowania zmiennych mierzonych różnymi skalami do tej samej metryki. Nazywa się to Proportion of Maximum Scaling (POMS) i nie umiera w bałaganie z rozkładami wielowymiarowymi, jak to zwykle bywa z transformacją z.
Todd Little wyraźnie zaleca POMS zamiast standaryzacji w swojej książce na temat modelowania równań strukturalnych podłużnych. Transformacja Z wiąże się z dodatkowymi problemami w przypadku danych podłużnych, patrz tutaj: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/
źródło