Diagnostyka resztkowa i jednorodność wariancji w liniowym modelu mieszanym

10

Zanim zadałem to pytanie, przeszukałem naszą stronę i znalazłem wiele podobnych pytań (jak tutaj , tutaj i tutaj ). Ale wydaje mi się, że na te powiązane pytania nie udzielono odpowiedzi lub nie omówiono ich, dlatego chciałbym ponownie zadać to pytanie. Uważam, że powinna istnieć duża liczba odbiorców, którzy chcieliby, aby tego rodzaju pytania zostały wyjaśnione jaśniej.

W przypadku moich pytań najpierw rozważ liniowy model efektów mieszanych,

y = X β + Z γ + ϵ

$\mathbf{y = X\boldsymbol \beta + Z \boldsymbol \gamma + \boldsymbol \epsilon}$ gdzie

X β

$X\boldsymbol \beta$ jest liniowym składnikiem efektów stałych,

Z

$\mathbf{Z}$ jest dodatkowa matryca konstrukcja odpowiada na te parametry losowych efektów ,

γ

$\boldsymbol \gamma$ . A

ϵ \sim N (0, σ^{2} I)

$\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})$ jest zwykłym terminem określającym błąd.

Załóżmy, że jedynym czynnikiem o stałym efekcie jest zmienna kategoryczna Leczenie , z 3 różnymi poziomami. A jedynym czynnikiem losowym jest zmienna Temat . To powiedziawszy, mamy model mieszanego efektu z ustalonym efektem leczenia i przypadkowym efektem podmiotu.

Moje pytania są zatem następujące:

Czy istnieje homogeniczność założenia wariancji w ustawieniu liniowego modelu mieszanego, analogicznego do tradycyjnych modeli regresji liniowej? Jeśli tak, co konkretnie oznacza to założenie w kontekście problemu liniowego modelu mieszanego przedstawionego powyżej? Jakie inne ważne założenia należy ocenić?

Moje myśli: TAK. założenia (mam na myśli, zero błędu średniego i równą wariancję) wciąż są stąd: . W tradycyjnym ustawieniu modelu regresji liniowej możemy powiedzieć, że założeniem jest, że „wariancja błędów (lub tylko wariancja zmiennej zależnej) jest stała na wszystkich 3 poziomach leczenia”. Ale zgubiłem się, jak wyjaśnić to założenie w warunkach modelu mieszanego. Czy powinniśmy powiedzieć „wariancje są stałe na 3 poziomach leczenia, uwarunkowane tematami? $\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})$

Dokument online SAS na temat resztek i diagnostyki wpływu przywołał dwie różne resztki, tj. brzeżne , i warunkowe resztki , Moje pytanie brzmi: do czego służą dwie reszty? Jak moglibyśmy je wykorzystać do sprawdzenia założenia jednorodności? Dla mnie tylko marginalne reszty mogą być użyte do rozwiązania problemu jednorodności, ponieważ odpowiada modelu. Czy moje rozumienie tutaj jest prawidłowe?
$r_{m} = Y - X \hat{β}$ $\mathbf{r_m = Y - X \hat{\boldsymbol \beta}}$ $r_{c} = Y - X \hat{β} - Z \hat{γ} = r_{m} - Z \hat{γ} .$ $\mathbf{r_c = Y - X \hat{\boldsymbol \beta} - Z \hat{\boldsymbol \gamma} = r_m - Z \hat{\boldsymbol \gamma}} .$ $\boldsymbol \epsilon$
Czy zaproponowano jakieś testy w celu przetestowania założenia jednorodności w liniowym modelu mieszanym? @Kam wskazał wcześniej test Levene'a , czy to byłby właściwy sposób? Jeśli nie, jakie są kierunki? Myślę, że po dopasowaniu modelu mieszanego możemy uzyskać resztki i być może możemy wykonać kilka testów (np. Test dobroci dopasowania?), Ale nie jestem pewien, jak by to było.
Zauważyłem również, że istnieją trzy rodzaje reszt z Proc Mixed w SAS, a mianowicie: Surowa reszta , Reszta uczona i Reszta Pearson . Rozumiem różnice między nimi pod względem formuł. Ale wydaje mi się, że są bardzo podobne, jeśli chodzi o rzeczywiste wykresy danych. Jak więc powinny być stosowane w praktyce? Czy są sytuacje, w których jeden typ jest preferowany od innych?
Dla przykładu z danymi rzeczywistymi następujące dwa pozostałe wykresy pochodzą z Proc Mixed w SAS. W jaki sposób można przez nich rozwiązać założenie o jednorodności wariancji?

[Wiem, że mam tutaj kilka pytań. Jeśli mógłbyś przekazać mi swoje przemyślenia na dowolne pytanie, to świetnie. Nie musisz zwracać się do wszystkich, jeśli nie możesz. Naprawdę chcę o nich dyskutować, aby uzyskać pełne zrozumienie. Dzięki!]

Oto marginalne (surowe) wykresy resztkowe.

Oto warunkowe (surowe) wykresy resztkowe.

mixed-model residuals heteroscedasticity diagnostic Aaron Zeng
źródło

Świetne pytania - możliwą odpowiedź na twój numer 2 można znaleźć tutaj comp.soft-sys.sas.narkive.com/7Qmrgufe/…

dandar

3

Myślę, że pytania 1 i 2 są ze sobą powiązane. Po pierwsze, pochodzi stąd założenie o jednorodności wariancji, . Ale założenie to można rozłożyć na bardziej ogólne struktury wariancji, w których założenie jednorodności nie jest konieczne. Oznacza to, że tak naprawdę zależy to od tego, jak zakłada się rozkład . $\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})$ $\boldsymbol \epsilon$

Po drugie, warunkowe reszty służą do sprawdzania rozkładu (a więc wszelkich założeń związanych) , podczas gdy krańcowe reszty mogą być wykorzystywane do sprawdzania całkowitej struktury wariancji. $\boldsymbol \epsilon$

Aaron Zeng
źródło

Mam do czynienia z takimi samymi problemami jak @AaronZeng. Co to znaczy „sprawdzić całkowitą strukturę wariancji”, dla której należy zastosować wartości krańcowe? Jak sobie z tym poradzić i dlaczego nie skupić się na sprawdzeniu struktury wariancji dla ? Dziękuję Ci. $\gamma$

clarpaul

1

To jest naprawdę szeroki temat i przedstawię jedynie ogólny obraz połączenia ze standardową regresją liniową.

W modelu wymienionym w pytaniu jeśli , gdzie oznacza podmiot lub klaster. Niech . Korzystając z rozkładu Choleskiego , możemy przekształcić macierz wyników i projektowania,

y_{i} \sim N (X_{i} β, Z_{i} D Z_{i}^{'} + σ^{2} I),

$\mathbf{y_i \sim N(X_i\boldsymbol \beta, Z_i \boldsymbol D Z'_i + \boldsymbol \sigma^2 I)},$

γ_{i} \sim N (0, D)

$\boldsymbol \gamma_i \sim N(\mathbf{0, D})$

i

$i$

Σ_{i} = Z_{i} D Z_{i}^{'} + σ^{2} I

$\mathbf{\Sigma_i=Z_i \boldsymbol D Z'_i + \boldsymbol \sigma^2 I}$

Σ_{i} = L_{i} L_{i}^{'}

$\mathbf{\Sigma_i=L_i L'_i}$

y_{i}^{*} = L_{i}^{- 1} y_{i}; X_{i}^{*} = L_{i}^{- 1} X_{i} .

$\mathbf{y^*_i=L_i^{-1}y_i; X^*_i=L_i^{-1}X_i}.$

Jak zauważono w Applied Longitudinal Analysis (Strona 268), uogólnione oszacowanie najmniejszych kwadratów (GLS) dla (regressing na ) można ponownie oszacować na podstawie regresji OLS na . Można tu więc zastosować wszystkie wbudowane diagnostyki szczątkowe z wynikowego OLS . $\boldsymbol \beta$ $\mathbf y_i$ $\mathbf X_i$ $\mathbf y^*_i$ $\mathbf X^*_i$

To, co musimy zrobić, to:

estimate na podstawie (marginalnych) oszacowań komponentu rezydualnego lub wariancji w liniowym modelu mieszanym; $\boldsymbol \Sigma_i$
ponownie dopasuj regresję OLS przy użyciu przetworzonych danych.

Regresja OLS zakłada niezależne obserwacje z jednorodną wariancją, więc do jej pozostałości można zastosować standardowe techniki diagnostyczne.

Znacznie więcej szczegółów można znaleźć w rozdziale 10 „Analizy resztkowe i diagnostyka” książki Applied Longitudinal Analysis . Omówili także przekształcanie reszty za pomocą , i istnieją pewne wykresy (transformowanych) reszt (w stosunku do przewidywanych wartości lub predyktorów). Więcej lektur znajduje się w 10.8 „Dalsze lektury” i zawarte w nich uwagi bibliograficzne. $\mathbf L_i$

Ponadto, moim zdaniem, zakładając, że są niezależne z jednorodną wariancją, możemy przetestować te założenia na warunkowych resztach za pomocą narzędzi z regresji standardowej. $\boldsymbol \epsilon$

Randel
źródło

Gorący artykuł prasowy na ten temat.

Randel

Diagnostyka resztkowa i jednorodność wariancji w liniowym modelu mieszanym

Odpowiedzi: