W Internecie wiele znalazłem na temat interpretacji efektów losowych i stałych. Jednak nie udało mi się uzyskać źródła określającego:
Jaka jest matematyczna różnica między efektami losowymi i stałymi?
Rozumiem przez to matematyczne sformułowanie modelu i sposób szacowania parametrów.
Odpowiedzi:
Najprostszym modelem z efektami losowymi jest jednostronny model ANOVA z efektami losowymi, podany przez obserwacje przy założeniach dystrybucyjnych: ( y i j ∣ μ i ) ∼ iid N ( μ i , σ 2 w ) ,yij
Tutaj efektami losowymi są . Są to zmienne losowe, podczas gdy są to stałe liczby w modelu ANOVA ze stałymi efektami.μi
Na przykład każdy z trzech techników w laboratorium rejestruje serię pomiarów, a y i j jest j-tym pomiarem technika i . Nazwij μ i „prawdziwą średnią wartość” szeregu wygenerowanego przez technika i ; Jest to nieco sztuczny parametr można zobaczyć μ i jako wartość oznacza, że technika i można by było otrzymać, jeśli on / ona nagrał ogromną serię pomiarów.i=1,2,3 yij j i μi i μi i
Jeśli jesteś zainteresowany oceną , μ 2 , μ 3 (na przykład w celu oceny stronniczości między operatorami), musisz użyć modelu ANOVA z ustalonymi efektami.μ1 μ2 μ3
Jeśli interesują cię wariancje i σ 2 b definiujące model, oraz całkowita wariancja σ 2 b + σ 2 w (patrz poniżej), musisz użyć modelu ANOVA z efektami losowymi . Wariancja σ 2 W jest wariancją nagrań generowanych przez jedną technika (zakłada się być taki sam dla wszystkich technikami) i σ 2 b nazywa się odchylenie między-techników. Może idealnie, techników należy wybierać losowo.σ2w σ2b σ2b+σ2w σ2w σ2b
Ten model odzwierciedla rozkład formuły wariancji dla próbki danych:
Całkowita wariancja = wariancja średnich średnich wariancji wewnętrznych+
co znajduje odzwierciedlenie w modelu ANOVA z losowymi efektami:
Rzeczywiście, rozkład jest zdefiniowany przez jego rozkład warunkowy ( y i j ) podany μ i oraz przez rozkład μ i . Jeśli obliczymy rozkład „bezwarunkowy” y i j, to znajdziemy y i j ∼ N ( μ , σ 2 b + σ 2 w ) .yij (yij) μi μi yij yij∼N(μ,σ2b+σ2w)
Zobacz slajd 24 i slajd 25 tutaj, aby uzyskać lepsze zdjęcia (musisz zapisać plik pdf, aby docenić nakładki, nie oglądaj wersji online).
źródło
Zasadniczo, moim zdaniem, najbardziej wyraźną różnicą, jeśli modelujesz czynnik jako losowy, jest to, że zakłada się, że efekty zostały wyciągnięte ze wspólnego rozkładu normalnego.
Na przykład, jeśli masz jakiś model dotyczący ocen i chcesz wziąć pod uwagę dane uczniów pochodzące z różnych szkół i modelujesz szkołę jako czynnik losowy, oznacza to, że zakładasz, że średnie według szkół są zwykle rozkładane. Oznacza to, że modeluje się dwa źródła zmienności: zmienność ocen uczniów w szkole oraz zmienność między szkołami.
Powoduje to coś zwanego częściowym łączeniem pul . Rozważ dwie skrajności:
Szacując zmienność na obu poziomach, model mieszany stanowi inteligentny kompromis między tymi dwoma podejściami. Zwłaszcza jeśli masz nie tak dużą liczbę uczniów na szkołę, oznacza to, że zmniejszysz efekty dla poszczególnych szkół, oszacowane przez model 2 w stosunku do ogólnej średniej z modelu 1.
Jest tak, ponieważ modele mówią, że jeśli masz jedną szkołę z dwoma uczniami, co jest lepsze niż to, co jest „normalne” dla populacji szkół, prawdopodobne jest, że część tego efektu tłumaczy szkoła, która miała szczęście w wyborze dwóch studentów spojrzało. Nie czyni tego ślepo, robi to w zależności od oszacowania zmienności wewnątrz szkoły. Oznacza to również, że poziomy efektów przy mniejszej liczbie próbek są silniej przyciągane do ogólnej średniej niż w dużych szkołach.
Ważne jest, że potrzebujesz wymienności na poziomach współczynnika losowego. Oznacza to, że w tym przypadku szkoły są (z twojej wiedzy) wymienialne i nie wiesz nic, co je wyróżnia (poza jakimś dowodem tożsamości). Jeśli posiadasz dodatkowe informacje, możesz to uwzględnić jako dodatkowy czynnik, wystarczy, że szkoły są wymienialne pod warunkiem uwzględnienia innych informacji.
Na przykład sensowne byłoby założenie, że 30-letni dorośli mieszkający w Nowym Jorku podlegają wymianie zależnej od płci. Jeśli posiadasz więcej informacji (wiek, pochodzenie etniczne, wykształcenie), sensowne byłoby również włączenie tych informacji.
OTH, jeśli studiujesz z jedną grupą kontrolną i trzema bardzo różnymi grupami chorób, nie ma sensu modelować grupy jako losowej, ponieważ określonej choroby nie można wymienić. Jednak wielu ludzi tak bardzo lubi efekt skurczu, że wciąż opowiadają się za modelem efektów losowych, ale to już inna historia.
Zauważyłem, że nie za bardzo wgłębiłem się w matematykę, ale w zasadzie różnica polega na tym, że model efektów losowych oszacował normalnie rozłożony błąd zarówno na poziomie szkół, jak i na poziomie uczniów, podczas gdy model efektów stałych ma tylko błąd poziom studentów. Szczególnie oznacza to, że każda szkoła ma własny poziom, który nie jest połączony z innymi poziomami za pomocą wspólnej dystrybucji. Oznacza to również, że model stały nie pozwala na ekstrapolację ucznia szkoły nieuwzględnionego w oryginalnych danych, podczas gdy robi to model efektu losowego, ze zmiennością, która jest sumą poziomu ucznia i zmienności na poziomie szkoły. Jeśli jesteś szczególnie zainteresowany prawdopodobieństwem, możemy to wykorzystać.
źródło
Na ziemi ekonowej takie efekty są przechwytywaniami (lub stałymi) specyficznymi dla poszczególnych osób, które nie są obserwowane, ale można je oszacować na podstawie danych panelowych (powtarzane obserwacje na tych samych jednostkach w czasie). Metoda estymacji ustalonych efektów pozwala na korelację między przechwytywaniami specyficznymi dla jednostki a niezależnymi zmiennymi objaśniającymi. Losowe efekty nie. Kosztem zastosowania bardziej elastycznych stałych efektów jest to, że nie można oszacować współczynnika dla zmiennych, które są niezmienne w czasie (np. Płeć, religia lub rasa).
Uwaga: Inne dziedziny mają własną terminologię, co może być dość mylące.
źródło
W standardowym pakiecie oprogramowania (np. R
lmer
) podstawową różnicą jest:Jeśli jesteś Bayesianem (np. WinBUGS), to nie ma prawdziwej różnicy.
źródło
@Joke Model o ustalonych efektach implikuje, że wielkość efektu wygenerowanego przez badanie (lub eksperyment) jest stała, tj. Powtarzane pomiary dla interwencji okazują się tego samego rozmiaru efektu. Prawdopodobnie warunki zewnętrzne i wewnętrzne eksperymentu się nie zmieniają. Jeśli masz wiele prób i / lub badań w różnych warunkach, będziesz mieć różne rozmiary efektów. Szacunki parametryczne średniej i wariancji dla zestawu wielkości efektów można zrealizować, zakładając, że są to efekty ustalone lub są to efekty losowe (realizowane z superpopulacji). Myślę, że to kwestia, którą można rozwiązać za pomocą statystyk matematycznych.
źródło