Podział wariancji i zmiany wzdłużne w korelacji z danymi binarnymi

Analizuję dane dotyczące 300 000 uczniów w 175 szkołach za pomocą logistycznego liniowego modelu efektów mieszanych (przechwytywanie losowe). Każdy uczeń występuje dokładnie raz, a dane obejmują 6 lat.

Jak podzielić wariancję między poziom szkoły i ucznia, w sposób podobny do VPC / ICC, aby uzyskać ciągłe wyniki? Widziałem ten artykuł, w którym zaproponowano 4 metody, z których A i B wydają mi się interesujące, ale chciałbym wiedzieć, jakie zalety / wady mogą wynikać z zastosowania jednej z nich i oczywiście, czy istnieją inne sposoby na zrobienie tego to.
Jak mogę porównać różnicę rezydualną na poziomie szkoły z roku na rok (lub w innym okresie)? Do tej pory robiłem to, dzieląc dane według roku i uruchamiając model w stosunku do każdego roku danych, ale myślę, że jest to wadliwe, ponieważ: i) nie ma oczywistego powodu, dla którego powinienem być podzielony według lat ; oraz ii) ponieważ oszacowania efektów stałych są różne dla każdego roku, porównywanie efektów losowych z roku na rok może nie mieć sensu (to tylko moja intuicja, byłoby wspaniale, gdyby ktoś mógł to wyjaśnić bardziej formalnie, jeśli jest to poprawne).

UWAGA: Ponownie napisałem to pytanie po dyskusji w meta z Whuber i Macro

mixed-model binary-data Joe King
źródło

Myślę, że to znaczna poprawa. Pytanie jest teraz bardzo jasne. W tej chwili nie mam czasu na dobrze zorganizowaną odpowiedź, ale odpowiem później.

Makro

Logistyczne modele mieszanych efektów wydają się być niezwykle zaawansowanym tematem dla liceum. Czy są częścią programu nauczania w szkole średniej, czy studiujesz samodzielnie?

mark999

@ mark999 Studiuję niezależnie. Właściwie staram się udowodnić, że mój brat się myli, który powiedział: „nie ma sposobu, żebyś to zrozumiał” . Robi dyplom ze statystyki, więc mam dostęp do wszystkich jego książek itp. (Kiedy jest miły).

Joe King

Niech oznaczają wektor odpowiedzi i predyktora (odpowiednio) ucznia w szkole . $y_{ij}, {\boldsymbol x}_{ij}$ $i$ $j$

(1) W przypadku danych binarnych uważam, że standardowym sposobem dekompozycji wariancji analogicznym do tych wykonywanych dla danych ciągłych jest to, co autorzy nazywają Metodą D (skomentuję inne metody poniżej) w twoim linku - wyobrażając sobie dane binarne jako wynikające z podstawowej zmiennej ciągłej zarządzanej przez model liniowy i rozkładającej wariancję na tej skali utajonej. Powodem jest to, że modele logistyczne (i inne GLM) naturalnie powstają w ten sposób -

Aby to zobaczyć, zdefiniuj tak, aby rządził nim liniowy model mieszany: $y^{\star}_{ij}$

y_{i j}^{⋆} = α + x_{i j} β + η_{j} + ε_{i j}

$y^{\star}_{ij} = \alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_j + \varepsilon_{ij}$

gdzie są współczynnikami regresji, to losowy efekt na poziomie szkolnym, a jest rezydualnym składnikiem wariancji i ma standardowy rozkład logistyczny . Teraz pozwól $\alpha,\beta$ $\eta_j \sim N(0,\sigma^2)$ $\varepsilon_{ij}$

y_{i j} = {\begin{cases} 1 & if y_{i j}^{⋆} \geq 0 \\ 0 & if y_{i j}^{⋆} < 0 \end{cases}

$y_{ij} = \begin{cases} 1 & \text{if} \ \ \ y^{\star}_{ij}≥0\\ \\ 0 &\text{if} \ \ \ y^{\star}_{ij}<0 \end{cases}$

niech teraz, po prostu używając logistycznego CDF, który mamy $p_{ij} = P(y_{ij} = 1|{\boldsymbol x}_{ij},\eta_j)$

p_{i j} = 1 - P (y_{i j}^{⋆} < 0 | x_{i j}, η_{j}) = \frac{\exp {- (α + x_{i j} β + η_{j})}}{1 + \exp {- (α + x_{i j} β + η_{j})}}

$p_{ij} = 1-P(y^{\star}_{ij}<0|{\boldsymbol x}_{ij},\eta_j) = \frac{ \exp \{-(\alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_j) \} }{1+ \exp \{-(\alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_j) \}}$

teraz biorąc transformację logitową obu stron, masz

\log (\frac{p_{i j}}{1 - p_{i j}}) = α + x_{i j} β + η_{j}

$\log \left( \frac{ p_{ij} }{1 - p_{ij}} \right) = \alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_j$

który jest dokładnie logistycznym modelem efektów mieszanych. Zatem model logistyczny jest równoważny z ukrytym modelem zmiennej określonym powyżej. Jedna ważna uwaga:

Skala nie jest identyfikowana, ponieważ jeśli zmniejszysz ją, ale stałe , po prostu zmieni powyższe na $\varepsilon_{ij}$ $s$

\frac{\exp {- (α + x_{i j} β + η_{j}) / s}}{1 + \exp {- (α + x_{i j} β + η_{j}) / s}}

$\frac{ \exp \{-(\alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_j)/s \} }{1+ \exp \{-(\alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_j)/s \}}$

$\ \ \ \ \ \ \$ dlatego współczynniki i efekty losowe zostałyby po prostu powiększone o odpowiednią kwotę. Tak więc, stosuje się, co oznacza, .
$\ \ \ \ \ \$ $s=1$ ${\rm var}(\varepsilon_{ij}) = \pi^2/3$

Teraz, jeśli użyjesz tego modelu, a następnie ilości

\frac{{\hat{σ}}_{η}^{2}}{{\hat{σ}}_{η}^{2} + π^{2} / 3}

$\frac{ \hat{\sigma}^{2}_{\eta} }{\hat{\sigma}^{2}_{\eta} + \pi^2/3 }$

szacuje korelację wewnątrzklasową ukrytych zmiennych ukrytych . Kolejna ważna uwaga:

Jeśli zamiast tego ma standardowy rozkład normalny, masz model probit efektów mieszanych . W takim przypadku $\varepsilon_{ij}$ szacujetetrachorycznej korelacjapomiędzy dwoma losowo wybranych uczniów w tej samej szkole, co do których wykazano Pearson (około 1900 chyba) statystycznie zidentyfikowane, gdy bazowe Dane ciągłe się rozkładem normalnym (praca ta w rzeczywistości wykazano, że te korelacji zostały zidentyfikowane poza przypadkiem binarnym do przypadku wielu kategorii, gdzie korelacje te są nazywanekorelacjami polichorycznymi). Z tego powodu może być wskazane (i byłoby to moim zaleceniem) zastosowanie modelu probit, gdy głównym celem jest oszacowanie (tetrachorycznej) wewnątrzklasowej korelacji danych binarnych. $\frac{{\hat{σ}}_{η}^{2}}{{\hat{σ}}_{η}^{2} + 1}$ $\frac{ \hat{\sigma}^{2}_{\eta} }{\hat{\sigma}^{2}_{\eta} + 1 }$

W odniesieniu do innych metod wymienionych w powiązanym dokumencie:

${\boldsymbol x}_{ij}$
(B) Metoda symulacji jest intuicyjnie atrakcyjna dla statystyk, ponieważ dałaby szacowany rozkład wariancji na oryginalnej skali danych, ale w zależności od odbiorców opisanie tego w „metodach” może być (i) skomplikowane. sekcja i (ii) może wyłączyć recenzenta, który szukał czegoś „bardziej standardowego”
(C) Udawanie, że dane są ciągłe, prawdopodobnie nie jest świetnym pomysłem, chociaż nie zadziała okropnie, jeśli większość prawdopodobieństw nie będzie zbyt bliska 0 lub 1. Ale zrobienie tego prawie na pewno wzbudzi u recenzenta czerwoną flagę więc trzymałbym się z dala.

Teraz w końcu

(2) Jeśli ustalone efekty są bardzo różne na przestrzeni lat, masz rację, sądząc, że może być trudno porównać wariancje efektów losowych na przestrzeni lat, ponieważ są one potencjalnie w różnych skalach (jest to związane z niemożnością identyfikacji wyżej wspomnianego problemu ze skalowaniem).

$I_k = 1$ $k$

α + x_{i j} β + η_{1 j} I_{1} + η_{2 j} I_{2} + η_{3 j} I_{3} + η_{4 j} I_{4} + η_{5 j} I_{5} + η_{6 j} I_{6}

$\alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_{1j} I_1 + \eta_{2j} I_2 + \eta_{3j} I_3 + \eta_{4j} I_4 + \eta_{5j} I_5+ \eta_{6j} I_6$

da to co roku inne ICC, ale te same stałe efekty. Może być kuszące, aby użyć losowego nachylenia w czasie, tworząc liniowy predyktor

α + x_{i j} β + η_{1} + η_{2} t

$\alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_{1} + \eta_{2} t$

ale nie polecam tego, ponieważ pozwoli to na wzrost liczby skojarzeń , a nie zmniejszenie .

Makro
źródło

Proszę o przekazanie mi komentarza, aby zająć się punktem w powiązanym artykule na temat tej techniki podziału wariancji, który mówi: „To podejście może być rozsądne, gdy odpowiedź (0, 1) pochodzi, powiedzmy, z obcięcia podstawowego kontinuum, takiego jak odpowiedź pozytywna / negatywna oparta na ciągłej skali ocen, ale wydaje się mieć mniej uzasadnienia, gdy reakcja jest naprawdę dyskretna, na przykład śmiertelność lub głosowanie " . W moim przypadku mam do czynienia ze zjawiskiem zastraszania, które należy do tej drugiej kategorii, myślę ...

Joe King

@JoeKing, powiedziałbym, że modele regresji logistycznej / probitowej (i podobne) już zakładają, że dane są generowane z bazowego kontinuum, ponieważ można wykazać, że model jest równoważny z tym. Dlatego jeśli ktoś używa takich modeli, to musi znaleźć to założenie, które da się obronić :)

Macro

@JoeKing, jeśli uznasz tę odpowiedź za ostateczną, rozważ zaakceptowanie :)

Makro

Naprawdę. W tej chwili jestem trochę niepewny co do kilku punktów i chciałbym do was wrócić po tym, jak miałem trochę czasu (kilka dni), aby trochę poczytać i spojrzeć na dane, jeśli nie masz nic przeciwko?

Joe King

@JoeKing Oczywiście - niektórzy nowi członkowie nie są świadomi, więc pomyślałem, że zwrócę na to uwagę - nie miało to na celu wywarcia na ciebie presji

Macro

Podział wariancji i zmiany wzdłużne w korelacji z danymi binarnymi

Odpowiedzi: