Powiedzmy, że interesuje nas, w jaki sposób na oceny egzaminów studenckich wpływa liczba godzin, które studenci studiują. Aby zbadać tę relację, możemy uruchomić następującą regresję liniową:
Ale jeśli próbkujemy uczniów z kilku różnych szkół, możemy oczekiwać, że uczniowie w tej samej szkole będą bardziej do siebie podobni niż uczniowie z różnych szkół. Aby poradzić sobie z tym problemem zależności, wskazówką w wielu podręcznikach / w Internecie jest uruchomienie mieszanych efektów i wejście do szkoły jako efekt losowy. Model miałby więc : Ale dlaczego to rozwiązuje problem zależności, który był obecny w regresja liniowa?
Odpowiedz tak, jakbyś rozmawiał z 12-latkiem
Odpowiedzi:
Uwzględnienie losowych terminów w modelu jest sposobem na wywołanie pewnej struktury kowariancji między stopniami. Losowy czynnik dla szkoły wywołuje niezerową kowariancję między różnymi uczniami z tej samej szkoły, podczas gdy wynosi gdy szkoła jest inna.0
Napiszmy swój model jako gdzie s indeksy szkoły i : i indeksy (uczniowie w każdej szkole). Pojęcia szkoła s są niezależnymi zmiennymi losowymi narysowanymi w N ( 0 , τ ) . Do e e , i są niezależnymi zmiennymi losowymi narysowane N ( 0 , Ď
Wektor ten oczekiwał wartości która jest określona przez liczbę przepracowanych godzin.
Kowariancja pomiędzy i Y s " , i " jest 0 gdy s ≠ s ' , co oznacza, że odejście z klas od oczekiwanej wartości są niezależne, gdy uczniowie nie są w tej samej szkole.Ys,i Ys′,i′ 0 s≠s′
Kowariancja pomiędzy i Y s , ja " jest τ kiedy ja ≠ I ' , a wariancja Y s , i jest τ + σ 2 : klas uczniów z tej samej szkoły będą miały skorelowane odstępstw od ich wartości oczekiwanych .Ys,i Ys,i′ τ i≠i′ Ys,i τ+σ2
Przykładowe i symulowane dane
Oto krótka symulacja R dla pięćdziesięciu uczniów z pięciu szkół (tutaj biorę ); nazwy zmiennych są samokontrujące:σ2=τ=1
Planujemy odstępstwa od oczekiwanej oceny dla każdego ucznia, czyli warunki wraz ze (kropkowaną linią) średni odstęp dla każdej szkoły:schools+es,i
Macierz wariancji dla tego przykładu
źródło