Analizuję dane dotyczące 300 000 uczniów w 175 szkołach za pomocą logistycznego liniowego modelu efektów mieszanych (przechwytywanie losowe). Każdy uczeń występuje dokładnie raz, a dane obejmują 6 lat.
Jak podzielić wariancję między poziom szkoły i ucznia, w sposób podobny do VPC / ICC, aby uzyskać ciągłe wyniki? Widziałem ten artykuł, w którym zaproponowano 4 metody, z których A i B wydają mi się interesujące, ale chciałbym wiedzieć, jakie zalety / wady mogą wynikać z zastosowania jednej z nich i oczywiście, czy istnieją inne sposoby na zrobienie tego to.
Jak mogę porównać różnicę rezydualną na poziomie szkoły z roku na rok (lub w innym okresie)? Do tej pory robiłem to, dzieląc dane według roku i uruchamiając model w stosunku do każdego roku danych, ale myślę, że jest to wadliwe, ponieważ: i) nie ma oczywistego powodu, dla którego powinienem być podzielony według lat ; oraz ii) ponieważ oszacowania efektów stałych są różne dla każdego roku, porównywanie efektów losowych z roku na rok może nie mieć sensu (to tylko moja intuicja, byłoby wspaniale, gdyby ktoś mógł to wyjaśnić bardziej formalnie, jeśli jest to poprawne).
UWAGA: Ponownie napisałem to pytanie po dyskusji w meta z Whuber i Macro
źródło
Odpowiedzi:
Niech oznaczają wektor odpowiedzi i predyktora (odpowiednio) ucznia i w szkole j .yij,xij i j
(1) W przypadku danych binarnych uważam, że standardowym sposobem dekompozycji wariancji analogicznym do tych wykonywanych dla danych ciągłych jest to, co autorzy nazywają Metodą D (skomentuję inne metody poniżej) w twoim linku - wyobrażając sobie dane binarne jako wynikające z podstawowej zmiennej ciągłej zarządzanej przez model liniowy i rozkładającej wariancję na tej skali utajonej. Powodem jest to, że modele logistyczne (i inne GLM) naturalnie powstają w ten sposób -
Aby to zobaczyć, zdefiniuj tak, aby rządził nim liniowy model mieszany:y⋆ij
gdzie są współczynnikami regresji, η j ∼ N ( 0 , σ 2 ) to losowy efekt na poziomie szkolnym, a ε i j jest rezydualnym składnikiem wariancji i ma standardowy rozkład logistyczny . Teraz pozwólα,β ηj∼N(0,σ2) εij
niech teraz, po prostu używając logistycznego CDF, który mamypij=P(yij=1|xij,ηj)
teraz biorąc transformację logitową obu stron, masz
który jest dokładnie logistycznym modelem efektów mieszanych. Zatem model logistyczny jest równoważny z ukrytym modelem zmiennej określonym powyżej. Jedna ważna uwaga:
Teraz, jeśli użyjesz tego modelu, a następnie ilości
szacuje korelację wewnątrzklasową ukrytych zmiennych ukrytych . Kolejna ważna uwaga:
W odniesieniu do innych metod wymienionych w powiązanym dokumencie:
(B) Metoda symulacji jest intuicyjnie atrakcyjna dla statystyk, ponieważ dałaby szacowany rozkład wariancji na oryginalnej skali danych, ale w zależności od odbiorców opisanie tego w „metodach” może być (i) skomplikowane. sekcja i (ii) może wyłączyć recenzenta, który szukał czegoś „bardziej standardowego”
(C) Udawanie, że dane są ciągłe, prawdopodobnie nie jest świetnym pomysłem, chociaż nie zadziała okropnie, jeśli większość prawdopodobieństw nie będzie zbyt bliska 0 lub 1. Ale zrobienie tego prawie na pewno wzbudzi u recenzenta czerwoną flagę więc trzymałbym się z dala.
Teraz w końcu
(2) Jeśli ustalone efekty są bardzo różne na przestrzeni lat, masz rację, sądząc, że może być trudno porównać wariancje efektów losowych na przestrzeni lat, ponieważ są one potencjalnie w różnych skalach (jest to związane z niemożnością identyfikacji wyżej wspomnianego problemu ze skalowaniem).
da to co roku inne ICC, ale te same stałe efekty. Może być kuszące, aby użyć losowego nachylenia w czasie, tworząc liniowy predyktor
ale nie polecam tego, ponieważ pozwoli to na wzrost liczby skojarzeń , a nie zmniejszenie .
źródło