Podział wariancji i zmiany wzdłużne w korelacji z danymi binarnymi

14

Analizuję dane dotyczące 300 000 uczniów w 175 szkołach za pomocą logistycznego liniowego modelu efektów mieszanych (przechwytywanie losowe). Każdy uczeń występuje dokładnie raz, a dane obejmują 6 lat.

  1. Jak podzielić wariancję między poziom szkoły i ucznia, w sposób podobny do VPC / ICC, aby uzyskać ciągłe wyniki? Widziałem ten artykuł, w którym zaproponowano 4 metody, z których A i B wydają mi się interesujące, ale chciałbym wiedzieć, jakie zalety / wady mogą wynikać z zastosowania jednej z nich i oczywiście, czy istnieją inne sposoby na zrobienie tego to.

  2. Jak mogę porównać różnicę rezydualną na poziomie szkoły z roku na rok (lub w innym okresie)? Do tej pory robiłem to, dzieląc dane według roku i uruchamiając model w stosunku do każdego roku danych, ale myślę, że jest to wadliwe, ponieważ: i) nie ma oczywistego powodu, dla którego powinienem być podzielony według lat ; oraz ii) ponieważ oszacowania efektów stałych są różne dla każdego roku, porównywanie efektów losowych z roku na rok może nie mieć sensu (to tylko moja intuicja, byłoby wspaniale, gdyby ktoś mógł to wyjaśnić bardziej formalnie, jeśli jest to poprawne).

UWAGA: Ponownie napisałem to pytanie po dyskusji w meta z Whuber i Macro

Joe King
źródło
3
Myślę, że to znaczna poprawa. Pytanie jest teraz bardzo jasne. W tej chwili nie mam czasu na dobrze zorganizowaną odpowiedź, ale odpowiem później.
Makro
3
Logistyczne modele mieszanych efektów wydają się być niezwykle zaawansowanym tematem dla liceum. Czy są częścią programu nauczania w szkole średniej, czy studiujesz samodzielnie?
mark999
4
@ mark999 Studiuję niezależnie. Właściwie staram się udowodnić, że mój brat się myli, który powiedział: „nie ma sposobu, żebyś to zrozumiał” . Robi dyplom ze statystyki, więc mam dostęp do wszystkich jego książek itp. (Kiedy jest miły).
Joe King

Odpowiedzi:

15

Niech oznaczają wektor odpowiedzi i predyktora (odpowiednio) ucznia i w szkole j .yij,xijij

(1) W przypadku danych binarnych uważam, że standardowym sposobem dekompozycji wariancji analogicznym do tych wykonywanych dla danych ciągłych jest to, co autorzy nazywają Metodą D (skomentuję inne metody poniżej) w twoim linku - wyobrażając sobie dane binarne jako wynikające z podstawowej zmiennej ciągłej zarządzanej przez model liniowy i rozkładającej wariancję na tej skali utajonej. Powodem jest to, że modele logistyczne (i inne GLM) naturalnie powstają w ten sposób -

Aby to zobaczyć, zdefiniuj tak, aby rządził nim liniowy model mieszany:yij

yij=α+xijβ+ηj+εij

gdzie są współczynnikami regresji, η jN ( 0 , σ 2 ) to losowy efekt na poziomie szkolnym, a ε i j jest rezydualnym składnikiem wariancji i ma standardowy rozkład logistyczny . Teraz pozwólα,βηjN(0,σ2)εij

yij={1if   yij00if   yij<0

niech teraz, po prostu używając logistycznego CDF, który mamypij=P(yij=1|xij,ηj)

pij=1P(yij<0|xij,ηj)=exp{(α+xijβ+ηj)}1+exp{(α+xijβ+ηj)}

teraz biorąc transformację logitową obu stron, masz

log(pij1pij)=α+xijβ+ηj

który jest dokładnie logistycznym modelem efektów mieszanych. Zatem model logistyczny jest równoważny z ukrytym modelem zmiennej określonym powyżej. Jedna ważna uwaga:

  • Skala nie jest identyfikowana, ponieważ jeśli zmniejszysz ją, ale stałe s , po prostu zmieni powyższe naεijs

exp{(α+xijβ+ηj)/s}1+exp{(α+xijβ+ηj)/s}

       dlatego współczynniki i efekty losowe zostałyby po prostu powiększone o odpowiednią kwotę. Tak więc, a = 1 stosuje się, co oznacza, v r ( ε i j ) = π 2 / 3 .
      s=1var(εij)=π2/3

Teraz, jeśli użyjesz tego modelu, a następnie ilości

σ^η2σ^η2+π2/3

szacuje korelację wewnątrzklasową ukrytych zmiennych ukrytych . Kolejna ważna uwaga:

  • Jeśli zamiast tego ma standardowy rozkład normalny, masz model probit efektów mieszanych . W takim przypadku Ď 2 rjεijszacujetetrachorycznej korelacjapomiędzy dwoma losowo wybranych uczniów w tej samej szkole, co do których wykazano Pearson (około 1900 chyba) statystycznie zidentyfikowane, gdy bazowe Dane ciągłe się rozkładem normalnym (praca ta w rzeczywistości wykazano, że te korelacji zostały zidentyfikowane poza przypadkiem binarnym do przypadku wielu kategorii, gdzie korelacje te są nazywanekorelacjami polichorycznymi). Z tego powodu może być wskazane (i byłoby to moim zaleceniem) zastosowanie modelu probit, gdy głównym celem jest oszacowanie (tetrachorycznej) wewnątrzklasowej korelacji danych binarnych.
    σ^η2σ^η2+1

W odniesieniu do innych metod wymienionych w powiązanym dokumencie:

  • xij

  • (B) Metoda symulacji jest intuicyjnie atrakcyjna dla statystyk, ponieważ dałaby szacowany rozkład wariancji na oryginalnej skali danych, ale w zależności od odbiorców opisanie tego w „metodach” może być (i) skomplikowane. sekcja i (ii) może wyłączyć recenzenta, który szukał czegoś „bardziej standardowego”

  • (C) Udawanie, że dane są ciągłe, prawdopodobnie nie jest świetnym pomysłem, chociaż nie zadziała okropnie, jeśli większość prawdopodobieństw nie będzie zbyt bliska 0 lub 1. Ale zrobienie tego prawie na pewno wzbudzi u recenzenta czerwoną flagę więc trzymałbym się z dala.

Teraz w końcu

(2) Jeśli ustalone efekty są bardzo różne na przestrzeni lat, masz rację, sądząc, że może być trudno porównać wariancje efektów losowych na przestrzeni lat, ponieważ są one potencjalnie w różnych skalach (jest to związane z niemożnością identyfikacji wyżej wspomnianego problemu ze skalowaniem).

Ik=1k

α+xijβ+η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6

da to co roku inne ICC, ale te same stałe efekty. Może być kuszące, aby użyć losowego nachylenia w czasie, tworząc liniowy predyktor

α+xijβ+η1+η2t

ale nie polecam tego, ponieważ pozwoli to na wzrost liczby skojarzeń , a nie zmniejszenie .

Makro
źródło
Proszę o przekazanie mi komentarza, aby zająć się punktem w powiązanym artykule na temat tej techniki podziału wariancji, który mówi: „To podejście może być rozsądne, gdy odpowiedź (0, 1) pochodzi, powiedzmy, z obcięcia podstawowego kontinuum, takiego jak odpowiedź pozytywna / negatywna oparta na ciągłej skali ocen, ale wydaje się mieć mniej uzasadnienia, gdy reakcja jest naprawdę dyskretna, na przykład śmiertelność lub głosowanie " . W moim przypadku mam do czynienia ze zjawiskiem zastraszania, które należy do tej drugiej kategorii, myślę ...
Joe King
@JoeKing, powiedziałbym, że modele regresji logistycznej / probitowej (i podobne) już zakładają, że dane są generowane z bazowego kontinuum, ponieważ można wykazać, że model jest równoważny z tym. Dlatego jeśli ktoś używa takich modeli, to musi znaleźć to założenie, które da się obronić :)
Macro
1
@JoeKing, jeśli uznasz tę odpowiedź za ostateczną, rozważ zaakceptowanie :)
Makro
Naprawdę. W tej chwili jestem trochę niepewny co do kilku punktów i chciałbym do was wrócić po tym, jak miałem trochę czasu (kilka dni), aby trochę poczytać i spojrzeć na dane, jeśli nie masz nic przeciwko?
Joe King
@JoeKing Oczywiście - niektórzy nowi członkowie nie są świadomi, więc pomyślałem, że zwrócę na to uwagę - nie miało to na celu wywarcia na ciebie presji
Macro