Jaka jest matematyczna różnica między efektami losowymi i stałymi?

26

W Internecie wiele znalazłem na temat interpretacji efektów losowych i stałych. Jednak nie udało mi się uzyskać źródła określającego:

Jaka jest matematyczna różnica między efektami losowymi i stałymi?

Rozumiem przez to matematyczne sformułowanie modelu i sposób szacowania parametrów.

żart
źródło
1
Cóż, ustalone efekty wpływają na średnią rozkładu połączeń, a efekty losowe wpływają na wariancję i strukturę asocjacji. Co dokładnie rozumiesz przez „matematyczną różnicę”? Pytasz, jak zmienia się prawdopodobieństwo? Czy mógłbyś to sprecyzować?
Makro
Możliwe zainteresowanie: Jaka jest różnica między efektami losowymi, stałymi i marginalnymi?
gung - Przywróć Monikę
1
Pytanie wydaje się nie rozróżniać tła, z którego zostało sporządzone. Ta terminologia w panelu Data Economics różni się od terminologii stosowanej w modelach wielopoziomowych w innych naukach społecznych. Pytanie wymaga dalszego wyjaśnienia. W przeciwnym razie jest to mylące dla tych, którzy przybywają tutaj z dowolnego tła, nie wiedząc, że istnieje alternatywna definicja w powiązanej dziedzinie.
luchonacho

Odpowiedzi:

21

Najprostszym modelem z efektami losowymi jest jednostronny model ANOVA z efektami losowymi, podany przez obserwacje przy założeniach dystrybucyjnych: ( y i jμ i ) iid N ( μ i , σ 2 w ) ,yij

(yijμi)iidN(μi,σw2),j=1,,J,μiiidN(μ,σb2),i=1,,I.

Tutaj efektami losowymi są . Są to zmienne losowe, podczas gdy są to stałe liczby w modelu ANOVA ze stałymi efektami.μi

Na przykład każdy z trzech techników w laboratorium rejestruje serię pomiarów, a y i j jest j-tym pomiarem technika i . Nazwij μ i „prawdziwą średnią wartość” szeregu wygenerowanego przez technika i ; Jest to nieco sztuczny parametr można zobaczyć μ i jako wartość oznacza, że technika i można by było otrzymać, jeśli on / ona nagrał ogromną serię pomiarów.i=1,2,3yijjiμiiμii

Jeśli jesteś zainteresowany oceną , μ 2 , μ 3 (na przykład w celu oceny stronniczości między operatorami), musisz użyć modelu ANOVA z ustalonymi efektami.μ1μ2μ3

Jeśli interesują cię wariancje i σ 2 b definiujące model, oraz całkowita wariancja σ 2 b + σ 2 w (patrz poniżej), musisz użyć modelu ANOVA z efektami losowymi . Wariancja σ 2 W jest wariancją nagrań generowanych przez jedną technika (zakłada się być taki sam dla wszystkich technikami) i σ 2 b nazywa się odchylenie między-techników. Może idealnie, techników należy wybierać losowo.σw2σb2 σb2+σw2σw2σb2

Ten model odzwierciedla rozkład formuły wariancji dla próbki danych: wprowadź opis zdjęcia tutaj

Całkowita wariancja = wariancja średnich średnich wariancji wewnętrznych+

co znajduje odzwierciedlenie w modelu ANOVA z losowymi efektami: wprowadź opis zdjęcia tutaj

Rzeczywiście, rozkład jest zdefiniowany przez jego rozkład warunkowy ( y i j ) podany μ i oraz przez rozkład μ i . Jeśli obliczymy rozkład „bezwarunkowy” y i j, to znajdziemy y i jN ( μ , σ 2 b + σ 2 w ) .yij(yij)μiμiyijyijN(μ,σb2+σw2)

Zobacz slajd 24 i slajd 25 tutaj, aby uzyskać lepsze zdjęcia (musisz zapisać plik pdf, aby docenić nakładki, nie oglądaj wersji online).

Stéphane Laurent
źródło
1
(+1) Bardzo ładne liczby!
ameba mówi Przywróć Monikę
1
Dziękuję @amoeba, mój kod momentów bezwładności jest dostępny na moim blogu: stla.github.io/stlapblog/posts/Variance_inertia.html
Stéphane Laurent
μσ
σ
σσμiσb2μiσw2
16

Zasadniczo, moim zdaniem, najbardziej wyraźną różnicą, jeśli modelujesz czynnik jako losowy, jest to, że zakłada się, że efekty zostały wyciągnięte ze wspólnego rozkładu normalnego.

Na przykład, jeśli masz jakiś model dotyczący ocen i chcesz wziąć pod uwagę dane uczniów pochodzące z różnych szkół i modelujesz szkołę jako czynnik losowy, oznacza to, że zakładasz, że średnie według szkół są zwykle rozkładane. Oznacza to, że modeluje się dwa źródła zmienności: zmienność ocen uczniów w szkole oraz zmienność między szkołami.

Powoduje to coś zwanego częściowym łączeniem pul . Rozważ dwie skrajności:

  1. Szkoła nie ma żadnego efektu (zmienność między szkołami wynosi zero). W takim przypadku model liniowy, który nie uwzględnia szkoły, byłby optymalny.
  2. Zmienność szkół jest większa niż zmienność uczniów. Następnie w zasadzie musisz pracować na poziomie szkoły zamiast na poziomie uczniów (mniej # próbek). Jest to w zasadzie model, w którym rozliczasz szkołę za pomocą ustalonych efektów. Może to być problematyczne, jeśli masz kilka próbek na szkołę.

Szacując zmienność na obu poziomach, model mieszany stanowi inteligentny kompromis między tymi dwoma podejściami. Zwłaszcza jeśli masz nie tak dużą liczbę uczniów na szkołę, oznacza to, że zmniejszysz efekty dla poszczególnych szkół, oszacowane przez model 2 w stosunku do ogólnej średniej z modelu 1.

Jest tak, ponieważ modele mówią, że jeśli masz jedną szkołę z dwoma uczniami, co jest lepsze niż to, co jest „normalne” dla populacji szkół, prawdopodobne jest, że część tego efektu tłumaczy szkoła, która miała szczęście w wyborze dwóch studentów spojrzało. Nie czyni tego ślepo, robi to w zależności od oszacowania zmienności wewnątrz szkoły. Oznacza to również, że poziomy efektów przy mniejszej liczbie próbek są silniej przyciągane do ogólnej średniej niż w dużych szkołach.

Ważne jest, że potrzebujesz wymienności na poziomach współczynnika losowego. Oznacza to, że w tym przypadku szkoły są (z twojej wiedzy) wymienialne i nie wiesz nic, co je wyróżnia (poza jakimś dowodem tożsamości). Jeśli posiadasz dodatkowe informacje, możesz to uwzględnić jako dodatkowy czynnik, wystarczy, że szkoły są wymienialne pod warunkiem uwzględnienia innych informacji.

Na przykład sensowne byłoby założenie, że 30-letni dorośli mieszkający w Nowym Jorku podlegają wymianie zależnej od płci. Jeśli posiadasz więcej informacji (wiek, pochodzenie etniczne, wykształcenie), sensowne byłoby również włączenie tych informacji.

OTH, jeśli studiujesz z jedną grupą kontrolną i trzema bardzo różnymi grupami chorób, nie ma sensu modelować grupy jako losowej, ponieważ określonej choroby nie można wymienić. Jednak wielu ludzi tak bardzo lubi efekt skurczu, że wciąż opowiadają się za modelem efektów losowych, ale to już inna historia.

Zauważyłem, że nie za bardzo wgłębiłem się w matematykę, ale w zasadzie różnica polega na tym, że model efektów losowych oszacował normalnie rozłożony błąd zarówno na poziomie szkół, jak i na poziomie uczniów, podczas gdy model efektów stałych ma tylko błąd poziom studentów. Szczególnie oznacza to, że każda szkoła ma własny poziom, który nie jest połączony z innymi poziomami za pomocą wspólnej dystrybucji. Oznacza to również, że model stały nie pozwala na ekstrapolację ucznia szkoły nieuwzględnionego w oryginalnych danych, podczas gdy robi to model efektu losowego, ze zmiennością, która jest sumą poziomu ucznia i zmienności na poziomie szkoły. Jeśli jesteś szczególnie zainteresowany prawdopodobieństwem, możemy to wykorzystać.

Erik
źródło
1
(+1) Świetna odpowiedź, która jest zaskakująco niedoceniona. Zauważyłem mylącą literówkę: „wykluczone” powinno brzmieć „dołączone”. Poza tym: jaka byłaby oczekiwana praktyczna różnica między traktowaniem szkoły jako efektu losowego a ustalonym? Rozumiem, że traktowanie jako ustalone nie pozwoliłoby przewidzieć wyników ucznia z nowej szkoły, ale co z różnicami w dostępnych danych? Powiedzmy, że innymi ustalonymi efektami są płeć, rasa i waga uczniów (cokolwiek). Czy traktowanie szkoły jako przypadkowej / ustalonej wpływa na siłę głównych efektów lub interakcji będących przedmiotem zainteresowania? Jakieś inne różnice?
ameba mówi Przywróć Monikę
3
@amoeba Pomijając spójność, MSE na poziomie ucznia może być mniej lub bardziej efektywny w modelu losowym w porównaniu z efektem ustalonym, w zależności między innymi od poziomu korelacji między uczniem X a efektem losowym, liczby skupień itp. . Clark i Linzer 2012 ma symulacji wyników.
conjugateprior
1
@conjugateprior Wow, wielkie dzięki za ten komentarz! Przeczytałem połączony artykuł i jest to najbardziej jasne wyjaśnienie problemu, jaki widziałem. Spędziłem sporo czasu, czytając tutaj różne wątki na temat CV / efektów stałych / losowych, ale nie mogłem zrozumieć, kiedy należy używać jednego nad drugim i dlaczego. Czytanie C&L wyjaśniło mi wiele rzeczy. Czy może chcesz gdzieś napisać odpowiedź na CV, przedstawiając streszczenie tego i / lub powiązanych artykułów? Korzystam z nagrody za najczęściej głosowany wątek [model mieszany] i chętnie przyznam ci również kolejną nagrodę.
ameba mówi Przywróć Monikę
@Erik, edytowałem, aby poprawić „częściowe nauczanie” do „częściowego łączenia”. Myślę, że to była literówka, ale przepraszam, jeśli to była zamierzona gra słów!
ameba mówi Przywróć Monikę
2

Na ziemi ekonowej takie efekty są przechwytywaniami (lub stałymi) specyficznymi dla poszczególnych osób, które nie są obserwowane, ale można je oszacować na podstawie danych panelowych (powtarzane obserwacje na tych samych jednostkach w czasie). Metoda estymacji ustalonych efektów pozwala na korelację między przechwytywaniami specyficznymi dla jednostki a niezależnymi zmiennymi objaśniającymi. Losowe efekty nie. Kosztem zastosowania bardziej elastycznych stałych efektów jest to, że nie można oszacować współczynnika dla zmiennych, które są niezmienne w czasie (np. Płeć, religia lub rasa).

Uwaga: Inne dziedziny mają własną terminologię, co może być dość mylące.

Dimitriy V. Masterov
źródło
(-1) nie mówi to nic o matematycznej różnicy między efektami stałymi a losowymi
Makro
1
@Macro Zgoda. Zanim to się pojawi, dobrze byłoby wiedzieć, czy terminologia ekon jest tym, czego szuka PO. Powinienem był to wyjaśnić.
Dimitriy V. Masterov
DOBRZE. W takim razie może to być bardziej odpowiednie jako komentarz, prawda?
Makro
Stwierdzenie „Kosztem zastosowania bardziej elastycznych stałych efektów jest to, że nie można oszacować współczynnika dla zmiennych niezmiennych w czasie” po prostu nie jest prawdą. Właśnie wykonałem symulację, w której powtórzyłeś pomiary na osobnikach i pojedynczy binarny predyktor, który nie zmienia się w czasie. Jeśli podasz ustalony efekt dla ID i jeden dla predyktora binarnego, z pewnością możesz oszacować współczynnik na predyktorze binarnym (chociaż, przyznaję, jeśli nie masz wielu powtarzanych pomiarów, oszacowanie ma duży błąd standardowy).
Makro
3
Andrew Gelman (który nie jest ekonomistą), wymienia 5 różnych definicji w swoim dokumencie ANOVA: stat.columbia.edu/~gelman/research/published/banova7.pdf .
Dimitriy V. Masterov
2

W standardowym pakiecie oprogramowania (np. R lmer) podstawową różnicą jest:

  • ustalone efekty są szacowane na podstawie maksymalnego prawdopodobieństwa (najmniejszych kwadratów dla modelu liniowego)
  • efekty losowe są szacowane przez empiryczne Bayesa (najmniejsze kwadraty z pewnym skurczem dla modelu liniowego, gdzie parametr skurczu jest wybierany na podstawie maksymalnego prawdopodobieństwa)

Jeśli jesteś Bayesianem (np. WinBUGS), to nie ma prawdziwej różnicy.

Simon Byrne
źródło
3
Zdecydowanie nie zgadzam się, że nie ma różnicy. Można dopasować bayesowski model efektów stałych ze wszystkimi współczynnikami mającymi oddzielne priory lub bayesowski model mieszany, w którym występują hiperparametry.
Erik
Jeśli jesteś Bayesianin, różnica wygląda następująco .
conjugateprior
@ Simon to dokładna i chrupiąca odpowiedź. Powinienem o tym wspomnieć dawno temu.
Subhash C. Davar,
-3

@Joke Model o ustalonych efektach implikuje, że wielkość efektu wygenerowanego przez badanie (lub eksperyment) jest stała, tj. Powtarzane pomiary dla interwencji okazują się tego samego rozmiaru efektu. Prawdopodobnie warunki zewnętrzne i wewnętrzne eksperymentu się nie zmieniają. Jeśli masz wiele prób i / lub badań w różnych warunkach, będziesz mieć różne rozmiary efektów. Szacunki parametryczne średniej i wariancji dla zestawu wielkości efektów można zrealizować, zakładając, że są to efekty ustalone lub są to efekty losowe (realizowane z superpopulacji). Myślę, że to kwestia, którą można rozwiązać za pomocą statystyk matematycznych.

Subhash C. Davar
źródło