Czy różnicę między kontrolą a leczeniem należy modelować w sposób jawny czy dorozumiany?

9

Biorąc pod uwagę następującą konfigurację eksperymentalną:

Od pacjenta pobiera się wiele próbek, a każda próbka jest traktowana na wiele sposobów (w tym leczenie kontrolne). Najbardziej interesująca jest różnica między kontrolą a każdym leczeniem.

Mogę wymyślić dwa proste modele tych danych. Gdy próbka , leczenie , leczenie 0 jest kontrolą, niech będzie danymi, będzie odniesienia dla próbki , będzie różnicą dla leczenia . Pierwszy model uwzględnia zarówno kontrolę, jak i różnicę:ijYijγiiδjj

Yij=γi+δj+ϵij
δ0=0

Podczas gdy drugi model patrzy tylko na różnicę. Jeśli precalculate wcześniej następnie dij

dij=YijYi0
dij=δj+εij

Moje pytanie brzmi: jakie są podstawowe różnice między tymi dwoma konfiguracjami? W szczególności, jeśli poziomy same w sobie są pozbawione znaczenia, a liczy się tylko różnica, to czy pierwszy model robi zbyt wiele i może ma słabą moc?

Rónán Daly
źródło
2
Mogę udzielić dokładniejszej odpowiedzi później, ale sugerowałbym, że ten artykuł Paula Allisona byłby interesujący ( Allison, 1990 ).
Andy W
1
Edytowane w celu odzwierciedlenia faktu, że błędy w różnych modelach nie są w rzeczywistości takie same, a zatem nie powinny używać tych samych symboli.
Rónán Daly,

Odpowiedzi:

6

są prawdopodobnie skorelowane w drugim modelu, ale nie pierwszy.ϵij

W pierwszym, terminy te reprezentują błąd pomiaru i odchylenia od modelu addytywnego. Z należytą starannością - na przykład poprzez losową sekwencję pomiarów - błędy te można uniezależnić, gdy model jest dokładny. Skąd

dij=YijYi0=γi+δj+ϵij(γi+δ0+ϵi0)=δj+(ϵijϵi0).

(Zauważ, że jest to sprzeczne z ostatnim równaniem w pytaniu, ponieważ błędne jest założenie, że Takie postępowanie zmusiłoby nas do przyznania, że są zmiennymi losowymi, a nie parametrami, przynajmniej raz potwierdzimy możliwość błędu pomiaru dla kontroli. Prowadziłoby to do tych samych wniosków poniżej).ϵi0=0γi

Dla , to implikujej,k0jk

Cov(dij,dik)=Cov(ϵijϵi0,ϵikϵi0)=Var(ϵi0)0.

Korelacja może być znaczna. W przypadku błędów id, podobne obliczenia pokazują, że wynosi 0,5. O ile nie używasz procedur, które jawnie i poprawnie obsługują tę korelację, faworyzuj pierwszy model nad drugim.

Whuber
źródło
Tak więc założyłeś, że pierwszy model jest modelem prawdziwym i wyprowadziłeś niepożądaną właściwość drugiego modelu. Wiemy, że wszystkie modele są błędne, więc czy ten wynik jest naprawdę znaczący?
Makro
1
@Macro Proszę uważnie przeczytać moją odpowiedź: jest stworzony, aby pokazać, jakie założenia są potrzebne, aby uzasadnić pierwszy model i odróżnić go od drugiego, ale nie zawiera żadnych założeń, że jakikolwiek model jest „prawdziwy”. Na przykład zwróć uwagę na „kiedy model jest dokładny”. Nawet słowo „dokładny” zostało wybrane z myślą o uniknięciu błędnego wrażenia, że ​​istnieje „prawdziwy” lub „poprawny” model.
whuber
1
Jestem trochę zdezorientowany, co to jest ? dik
Andy W
1
@Andy i indeksują dwa różne sposoby leczenia. Powinienem napisać „For ...”; Naprawię tę literówkę. Dzięki za złapanie tego. jkj,k0
whuber
@whuber Czy są jakieś odniesienia, które wspierają twoje stwierdzenie, np. w celu przekonania recenzentów?
Daniel