Mam problem z uznaniem korzyści oznaczania czynnika modelowego za losowy z kilku powodów. Wydaje mi się, że prawie we wszystkich przypadkach optymalnym rozwiązaniem jest traktowanie wszystkich czynników jako ustalonych.
Po pierwsze, rozróżnienie między ustalonym a losowym jest dość arbitralne. Standardowe wyjaśnienie jest takie, że jeśli ktoś interesuje się konkretnymi jednostkami eksperymentalnymi per se, to należy zastosować ustalone efekty, a jeśli interesuje się populacja reprezentowana przez jednostki eksperymentalne, należy zastosować efekty losowe. Nie jest to zbyt pomocne, ponieważ sugeruje, że można przełączać się między widokami stałymi i losowymi, nawet jeśli dane i projekt eksperymentalny pozostają takie same. Ponadto definicja ta promuje złudzenie, że jeśli czynnik jest oznaczony jako losowy, wnioskowanie z modelu jest w jakiś sposób bardziej odpowiednie dla populacji niż w przypadku, gdy czynnik jest oznaczony jako ustalony. Wreszcie, Gelman pokazuje, że rozróżnienie na nieruchome losowe jest mylące nawet na poziomie definicji, ponieważ istnieją jeszcze cztery definicje tego, czym są efekty stałe i losowe.
Po drugie, oszacowanie modeli mieszanych jest dość skomplikowane. W przeciwieństwie do „czysto ustalonego” modelu istnieje więcej niż kilka sposobów na uzyskanie wartości p. Prof. Bates, który zaimplementował oszacowanie REML w pakiecie lme4 w R, posunął się tak daleko, że odmówił podania wartości p .
Po trzecie, istnieje niejasna kwestia, ile domyślnych parametrów wprowadza czynnik losowy. Poniższy przykład to moja adaptacja tego w Burnham & Anderson, Wybór modelu i Wnioskowanie wielu modeli: Praktyczne podejście teoretyczno-informacyjne . Z perspektywy kompromisowej wariancji rolę efektów losowych można zilustrować w następujący sposób. Rozważ jednokierunkową ANOVA z terapiami i efektami głównego czynnika , z których można oszacować. Termin błędu ma rozkład . Jeżeli liczba obserwacji jest stała, kompromis bias-wariancji pogorszy jako idzie w górę. Załóżmy, że mówimy, żeK K - 1 N ( 0 , σ 2 ) K Kgłówne efekty pochodzą z rozkładu . Odpowiedni model będzie miał złożoność, która jest gdzieś pomiędzy poprawioną (przebudowaną) wersją a niedopasowanym modelem, który zawiera tylko przechwytywanie. Liczba efektywnych parametrów w modelu stałym wynosi
Liczba efektywnych parametrów w modelu losowym wynosi co najmniej trzy: . Ponadto model losowy ma szereg „ukrytych” parametrów implikowanych przez ograniczenie dystrybucji (normalne w tym przypadku) nałożone na główne efekty.
W szczególności, jeśli istnieje czynnik z dwoma poziomami, nie ma sensu nazywać go losowym, nawet jeśli wiemy na pewno, że z niektórych populacji losowo pobrano próbki. Jest tak, ponieważ wersja ze stałym efektem ma trzy parametry, a wersja z efektem losowym ma ponad trzy parametry. W tym przypadku model losowy okazuje się bardziej złożony niż wersja stała. Najwyraźniej przejście z wersji stałej na losową jest bardziej uziemione dla większego. Jednak liczba „ukrytych” parametrów w modelu losowym jest nieznana, więc niemożliwe jest porównanie wersji stałej i losowej na podstawie kryteriów informacyjnych, takich jak AIC. Dlatego, chociaż ten przykład naświetla wpływ efektów losowych (możliwość lepszego kompromisu wariancji odchylenia), pokazuje również, że trudno jest powiedzieć, kiedy uzasadnione jest ponowne oznaczenie współczynnika od stałego do losowego.
Żaden z powyższych problemów nie występuje w „czysto ustalonym” modelu. Dlatego jestem gotów zapytać:
Czy ktoś może podać przykład, gdy wydarzyło się coś bardzo złego, gdy zastosowano czynnik losowy tak, jakby został naprawiony? Uważam, że powinny istnieć pewne badania symulacyjne, które wyraźnie zajmą się tym problemem.
Czy istnieje sprawdzona metoda ilościowa, aby zdecydować, kiedy sensowne jest przejście od etykiety stałej do losowej?
Odpowiedzi:
1. Słynny przykład w psychologii i językoznawstwie opisuje Herb Clark (1973; po Coleman, 1964): „Błędność języka jako ustalonego efektu: krytyka statystyki języka w badaniach psychologicznych”.
Clark jest psycholingwistą omawiającym eksperymenty psychologiczne, w których próbka badanych odpowiada na zbiór materiałów stymulacyjnych, zwykle różnych słów zaczerpniętych z jakiegoś korpusu. Wskazuje, że standardowa procedura statystyczna stosowana w tych przypadkach, oparta na ANOVA z powtarzanymi pomiarami i określana przez Clarka jako , traktuje uczestników jako czynnik losowy, ale (być może domyślnie) traktuje materiały stymulacyjne (lub „język”) jak ustalono. Prowadzi to do problemów z interpretacją wyników testów hipotez dotyczących czynnika warunków eksperymentalnych: naturalnie chcemy założyć, że wynik dodatni mówi nam coś zarówno o populacji, z której pobraliśmy naszą próbę uczestnika, jak i populacji teoretycznej, z której czerpaliśmy materiały językowe. Ale F.fa1 , traktując uczestników jako przypadkowych, a bodźce jako ustalone, mówi nam tylko o wpływie czynnika warunkowego na innych podobnych uczestników reagującychna dokładnie te same bodźce. Przeprowadzenieanalizy F 1, gdy zarówno uczestnicy, jak i bodźce są bardziej odpowiednio postrzegane jako losowe, może prowadzić do poziomów błędu typu 1, które znacznie przekraczają nominalnypoziom α - zwykle 0,05 - z zakresem zależnym od czynników, takich jak liczba i zmienność bodźce i plan eksperymentu. W tych przypadkach bardziej odpowiednią analizą, przynajmniej w klasycznej strukturze ANOVA, jest wykorzystanie tak zwanychstatystykquasi- F opartych na stosunkachśrednich kwadratów.fa1 fa1 α fa kombinacji liniowych
Artykuł Clarka rozkwitł wówczas w psycholingwistyce, ale nie zrobił wielkiego wgniecenia w szerszej literaturze psychologicznej. (I nawet w psycholingwistyce rada Clarka z biegiem lat uległa pewnym zniekształceniom, jak udokumentowali Raaijmakers, Schrijnemakers i Gremmen, 1999.) Ale w ostatnich latach problem ten przeżył coś w rodzaju przebudzenia, w dużej mierze dzięki postępom statystycznym w modelach z efektami mieszanymi, których klasyczny model mieszany ANOVA może być postrzegany jako szczególny przypadek. Niektóre z tych ostatnich artykułów to Baayen, Davidson i Bates (2008), Murayama, Sakaki, Yan i Smith (2014) oraz ( ahem ) Judd, Westfall i Kenny (2012). Jestem pewien, że są pewne, o których zapominam.
2. Niezupełnie. Istniejąmetody pozwalające ustalić, czy czynnik jest lepiej uwzględniany jako efekt losowy, czy też wcale nie jest uwzględniany w modelu (patrz np. Pinheiro i Bates, 2000, s. 83-87; jednak patrz Barr, Levy, Scheepers i Tily, 2013). Oczywiście istnieją klasyczne techniki porównywania modeli w celu ustalenia, czy czynnik jest lepiej uwzględniony jako efekt stały, czy też wcale (tj.Testy ). Sądzę jednak, że określenie, czy czynnik jest lepiej uważany za stały czy losowy, najlepiej pozostawić jako pytanie koncepcyjne, na które należy odpowiedzieć, rozważając projekt badania i charakter wniosków, które należy z niego wyciągnąć.fa
Jeden z moich absolwentów instruktorów statystyki, Gary McClelland, lubił mówić, że być może podstawowe pytanie dotyczące wnioskowania statystycznego brzmi: „W porównaniu z czym?” Podążając za Garym, myślę, że możemy sformułować pytanie pojęciowe, o którym wspomniałem powyżej: Jaka jest klasa odniesienia hipotetycznych wyników eksperymentalnych, z którą chcę porównać moje rzeczywiste zaobserwowane wyniki? Pozostając w kontekście psycholingwistycznym i biorąc pod uwagę eksperymentalny plan, w którym mamy próbkę Badanych reagujących na próbkę słów sklasyfikowanych w jednym z dwóch Warunków (konkretny projekt omówiony szczegółowo przez Clarka, 1973), skupię się na dwie możliwości:
Aby uczynić to całkowicie konkretnym, poniżej przedstawiono kilka wykresów z (powyżej) 4 zestawów hipotetycznych wyników z 4 symulowanych eksperymentów w Modelu 1; (poniżej) 4 zestawy hipotetycznych wyników z 4 symulowanych eksperymentów w ramach Modelu 2. Każdy eksperyment wyświetla wyniki na dwa sposoby: (lewe panele) pogrupowane według osobników, przy czym dla każdego osobnika wykreślono środki i powiązano je ze sobą; (prawe panele) pogrupowane według słów, z wykresami ramkowymi podsumowującymi rozkład odpowiedzi dla każdego słowa. Wszystkie eksperymenty obejmują 10 podmiotów odpowiadających na 10 słów, a we wszystkich eksperymentach „hipoteza zerowa” braku różnicy warunków jest prawdziwa w odpowiedniej populacji.
Tematy i słowa losowe: 4 symulowane eksperymenty
Zauważ tutaj, że w każdym eksperymencie profile odpowiedzi dla tematów i słów są zupełnie inne. W przypadku Przedmiotów czasami mamy niską ogólną odpowiedź, czasem wysoką odpowiedź, czasami Tematy, które wykazują duże różnice w Warunkach, a czasami Tematy, które wykazują małe różnice w Warunkach. Podobnie w przypadku słów czasami otrzymujemy słowa, które mają tendencję do wywoływania niskich odpowiedzi, a czasami otrzymujemy słowa, które mają tendencję do wywoływania wysokich odpowiedzi.
Tematy losowe, Słowa naprawione: 4 symulowane eksperymenty
Zauważ tutaj, że w 4 symulowanych eksperymentach badani za każdym razem wyglądają inaczej, ale profile odpowiedzi dla słów wyglądają w zasadzie tak samo, zgodnie z założeniem, że używamy tego samego zestawu słów dla każdego eksperymentu w tym modelu.
Nasz wybór, czy naszym zdaniem Model 1 (podmioty i słowa zarówno losowe), jak i model 2 (podmioty losowe, słowa ustalone) zapewnia odpowiednią klasę referencyjną dla wyników eksperymentalnych, które faktycznie zaobserwowaliśmy, może mieć duży wpływ na naszą ocenę, czy manipulacja Warunkiem „pracował”. Spodziewamy się większej zmienności szans w danych w Modelu 1 niż w Modelu 2, ponieważ jest więcej „części ruchomych”. Jeśli więc wnioski, które chcemy wyciągnąć, są bardziej spójne z założeniami modelu 1, w którym zmienność szans jest stosunkowo wyższa, ale analizujemy nasze dane w oparciu o założenia modelu 2, w których zmienność szans jest stosunkowo mniejsza, to nasz błąd typu 1 szybkość testowania Różnica Warunków zostanie zawyżona do pewnego stopnia (być może całkiem dużego). Aby uzyskać więcej informacji, zobacz odnośniki poniżej.
Referencje
Baayen, RH, Davidson, DJ i Bates, DM (2008). Modelowanie efektów mieszanych ze skrzyżowanymi efektami losowymi dla przedmiotów i przedmiotów. Dziennik pamięci i języka, 59 (4), 390-412. PDF
Barr, DJ, Levy, R., Scheepers, C., i Tily, HJ (2013). Struktura efektów losowych do testowania hipotez potwierdzających: zachowaj maksymalną wartość. Journal of Memory and Language, 68 (3), 255–278. PDF
Clark, HH (1973). Błąd językowy jako ustalony efekt: krytyka statystyki językowej w badaniach psychologicznych. Dziennik uczenia się i zachowań werbalnych, 12 (4), 335-359. PDF
Coleman, EB (1964). Uogólnienie na populację językową. Raporty psychologiczne, 14 (1), 219–226.
Judd, CM, Westfall, J., i Kenny, DA (2012). Traktowanie bodźców jako przypadkowego czynnika w psychologii społecznej: nowe i kompleksowe rozwiązanie wszechobecnego, ale w dużej mierze ignorowanego problemu. Dziennik osobowości i psychologii społecznej, 103 (1), 54. PDF
Murayama, K., Sakaki, M., Yan, VX i Smith, GM (2014). Inflacja błędów typu I w tradycyjnej analizie przez uczestnika do dokładności metamemory: uogólniona perspektywa modelu z efektami mieszanymi. Journal of Experimental Psychology: Learning, Memory and Cognition. PDF
Pinheiro, JC i Bates, DM (2000). Modele z efektami mieszanymi w S i S-PLUS. Skoczek.
Raaijmakers, JG, Schrijnemakers, J., i Gremmen, F. (1999). Jak radzić sobie z „błędem językowym jako ustalonego efektu”: typowe nieporozumienia i alternatywne rozwiązania. Journal of Memory and Language, 41 (3), 416–426. PDF
źródło
Załóżmy, że mam proces produkcyjny, który polega na wytwarzaniu materiału na kilku różnych maszynach. To jedyne maszyny, które mam, więc „maszyna” to stały efekt. Ale tworzę wiele materiałów na każdej maszynie i jestem zainteresowany przewidywaniem rzeczy o przyszłych losach. Sprawię, że „numer partii” będzie czynnikiem losowym, ponieważ jestem zainteresowany wynikami, które uzyskam przyszłych partii.
źródło
Tak więc traktujesz je losowo, aby uzyskać efekt uśredniania między ogólną średnią a średnią dla tego konkretnego czynnika na podstawie wielkości próby czynnika i ogólnej liczby obserwacji. Pozwala to powiedzieć, że twoje wyniki odnoszą się do całej populacji, ponieważ masz pewien rodzaj średniej ważonej i szacunkową zmienność związaną z tym czynnikiem, jeśli nie, naprawdę możesz powiedzieć, że twoje wyniki odnoszą się do poziomów czynników użyty, ponieważ regresja będzie traktować je jako czynniki dyskretne, a nie losowe, które otrzymają średnią ważoną.
Są one również przydatne, gdy powtarzane są pomiary na ten sam temat, ponieważ można ich użyć, aby uwzględnić korelację między miarami na ten sam temat.
źródło
(Oryginalna odpowiedź)
Jednym z miejsc, w których zasadniczo wymagane jest użycie efektów losowych, jest włączenie parametrów niezmiennych na poziomie grupowania efektu stałego.
Na przykład powiedz, że chcesz zbadać wpływ cech lekarza (np. / Edukacji) na wyniki pacjentów. Zestaw danych jest na poziomie pacjenta z obserwowanymi wynikami pacjenta i cechami pacjenta / lekarza. Ponieważ pacjenci leczeni u jednego lekarza są prawdopodobnie skorelowani, należy to kontrolować. Możesz wstawić tutaj efekt naprawiony przez lekarza, ale robiąc to, wykluczasz włączenie do modelu jakichkolwiek cech lekarza. Co jest problematyczne, jeśli zainteresowanie dotyczy cech na poziomie lekarza.
źródło
Myślę, że ma to związek ze spójnością szacunków.
Neyman i Scott (1948) zwracają uwagę na problem spójności
zgodny. Przynajmniej tak rozumiałem ...
źródło