Odpowiedni pozostały stopień swobody po usunięciu warunków z modelu

27

Zastanawiam się nad dyskusją wokół tego pytania, aw szczególności z komentarzem Franka Harrella, że ​​oszacowanie wariancji w modelu zredukowanym (tj. Takim, z którego przetestowano i odrzucono wiele zmiennych objaśniających) powinno wykorzystywać ogólny stopień wolności Ye . Profesor Harrell podkreśla, że ​​będzie to znacznie bliższe pozostałym stopniom swobody oryginalnego „pełnego” modelu (ze wszystkimi zmiennymi) niż modelu końcowego (z którego odrzucono wiele zmiennych).

Pytanie 1. Jeśli chcę zastosować odpowiednie podejście do wszystkich standardowych streszczeń i statystyk z modelu zredukowanego (ale bez pełnego wdrożenia Uogólnionego stopnia swobody), rozsądnym podejściem byłoby po prostu wykorzystanie pozostałych stopni swobody od pełny model w moich szacunkach wariancji rezydualnej itp.?

Pytanie 2. Jeśli powyższe jest prawdziwe i chcę to zrobić R, czy może to być tak proste, jak ustawienie

finalModel$df.residual <- fullModel$df.residual

w pewnym momencie ćwiczenia dopasowywania modelu, gdzie finalModel i fullModel zostały utworzone za pomocą lm () lub podobnej funkcji. Po czym funkcje takie jak Summary () i confint () wydają się działać z pożądanym plikiem df.residual, aczkolwiek zwracają komunikat o błędzie, który ktoś wyraźnie zrzucił z obiektu finalModel.

Peter Ellis
źródło
8
Dobre pytanie. Jest to związane z tym, dlaczego Douglas Bates nie uwzględnia wartości p na lmerwyjściu. Zobacz jego uzasadnienie tutaj .
2
Wiele razy widziałem pełny model df w takiej sytuacji. (Podejście Ye pojawia się bardzo często w różnych sytuacjach; jest to artykuł, który regularnie polecam ludziom. Byłoby miło mieć jakąś ogólną, ale wydajną funkcję R, z której wiele funkcji mogłoby skorzystać.)
Glen_b -Reinstate Monica

Odpowiedzi:

3

Czy nie zgadzasz się z odpowiedzią @ FrankHarrel, że parsimony wiąże się z brzydkimi kompromisami naukowymi?

Podoba mi się link podany w komentarzu @ MikeWiezbickiego do uzasadnienia Douga Batesa. Jeśli ktoś nie zgadza się z twoją analizą, może to zrobić po swojemu, a to jest fajny sposób na rozpoczęcie naukowej dyskusji na temat twoich podstawowych założeń. Wartość p nie czyni z twojej konkluzji „absolutnej prawdy”.

Jeśli decyzja o włączeniu parametru do modelu sprowadza się do „zbierania włosów” w stosunku do tego, co w przypadku próbek mających znaczenie naukowe jest stosunkowo niewielkie rozbieżności w df - i nie masz do czynienia z problemami , które uzasadniają w każdym razie bardziej dopracowane wnioskowanie - wtedy masz parametry tak bliskie osiągnięcia swoich granic, że powinieneś być przejrzysty i porozmawiać o tym w każdy sposób: po prostu dołącz go lub przeanalizuj model z nim i bez niego, ale zdecydowanie omawiaj swoją decyzję w ostateczna analiza. n<p

egbutter
źródło
2
+1 i teraz jestem skłonny się zgodzić, że w rzeczywistości moje pierwotne pytanie nie jest tak ważne, biorąc pod uwagę te inne kwestie
Peter Ellis