Próbuję uruchomić regresję OLS:
DV: Zmiana masy ciała w ciągu roku (waga początkowa - waga końcowa)
IV: Czy ćwiczysz czy nie.
Wydaje się jednak rozsądne, że cięższe osoby będą tracić więcej masy na jednostkę ćwiczeń niż osoby szczuplejsze. Dlatego chciałem dołączyć zmienną kontrolną:
- CV: początkowa waga początkowa.
Jednak teraz początkowa waga jest używana ZARÓWNO do obliczenia zmiennej zależnej ORAZ jako zmiennej kontrolnej.
Czy to w porządku? Czy to narusza założenie OLS?
regression
repeated-measures
least-squares
change-scores
ChrisStata
źródło
źródło
Odpowiedzi:
Aby odpowiedzieć na twoje dosłowne pytanie: „Czy prawidłowe jest uwzględnienie miary odniesienia jako zmiennej kontrolnej podczas testowania wpływu zmiennej niezależnej na wyniki zmian?”, Odpowiedź brzmi „ nie” . Odpowiedź brzmi „nie”, ponieważ poprzez konstrukcję wynik wyjściowy jest skorelowany ze składnikiem błędu, gdy wynik zmiany jest stosowany jako zmienna zależna, stąd oszacowany wpływ wartości wyjściowej na wynik zmiany jest nie do interpretacji.
Za pomocą
Jeden ma model regresji na T i X ;Δ Y T. X
Który z definicji jest równoważny;
Teraz, jeśli uwzględnisz linię bazową jako zmienną towarzyszącą, powinieneś zobaczyć problem, polegający na tym, że masz człon po obu stronach równania. To pokazuje, że β 3 Y 1 jest nie do zinterpretowania, ponieważ jest z natury skorelowany ze składnikiem błędu.Y1 β3)Y1
Teraz część zamieszania w różnych odpowiedziach wydaje się wynikać z faktu, że różne modele przyniosą identyczne wyniki dla efektu leczenia , w moim powyższym sformułowaniu. Tak więc, gdyby porównać efekt leczenia dla modelu, stosując wyniki zmian jako zmienną zależną do modelu wykorzystującego „poziomy” (z każdym modelem zawierającym linię bazową Y 1 jako zmienną towarzyszącą), interpretacja efektu leczenia byłaby to samo. W dwóch kolejnych modelach β 1 T będzie taki sam, podobnie jak wnioski oparte na nich (Bruce Weaver opublikował kod SPSS wykazujący również równoważność).β1T. Y1 β1T.
Więc niektórzy będą się kłócić (jak Felix ma w tym wątku i jak Bruce Weaver w niektórych dyskusjach na temat grupy dyskusyjnej SPSS), ponieważ ponieważ modele dają taki sam szacowany efekt leczenia, nie ma znaczenia, który wybierzesz. Nie zgadzam się, ponieważ nie można zinterpretować wyjściowej zmiennej towarzyszącej w modelu wyniku zmiany, nigdy nie należy włączać linii bazowej jako zmiennej dodatkowej (niezależnie od tego, czy szacowany efekt leczenia jest taki sam, czy nie). Pojawia się zatem kolejne pytanie, jaki jest sens stosowania wyników zmian jako zmiennych zależnych? Jak już zauważył Felix, model wykorzystujący wynik zmiany jako zmienną zależną, z wyłączeniem linii podstawowej jako współzmiennej, jest inny niż model wykorzystujący poziomy. Aby wyjaśnić, kolejne modele dadzą różne efekty leczenia (szczególnie w przypadku, gdy leczenie jest skorelowane z linią podstawową);
Zostało to odnotowane w poprzedniej literaturze jako „Paradoks Pana”. Który model ma rację? Cóż, w przypadku eksperymentów randomizowanych powiedziałbym, że preferowany jest model Poziomy (chociaż jeśli wykonałeś dobrą robotę losowo, średni efekt leczenia powinien być bardzo zbliżony między modelami). Inni zauważyli powody, dla których preferowany jest model poziomów, odpowiedź Charliego ma sens, ponieważ można oszacować efekty interakcji z linią bazową w modelu poziomów (ale nie można tego zrobić w modelu oceny zmian). Whuber w tej odpowiedzi na bardzo podobne pytanie pokazuje, w jaki sposób wyniki zmian indukują korelacje między różnymi metodami leczenia.
W sytuacjach, w których leczenie nie jest losowo przypisywane, model wykorzystujący wyniki zmian jako zmienną zależną powinien zostać bardziej szczegółowo rozważony. Główną zaletą modelu oceny zmian jest to, że kontrolowane są zawsze niezmienne predyktory wyniku. Powiedzmy w powyższym sformułowaniu, że jest stały w czasie (na przykład powiedz, że predyspozycje genetyczne mają określoną wagę) i że X jest skorelowany z tym, czy dana osoba decyduje się na ćwiczenie (a X nie jest obserwowany). W takim przypadku preferowany jest model oceny zmian. Również w przypadkach, w których wybór do leczenia jest skorelowany z wartością wyjściową, model oceny zmian może być preferowany. Paul Allison w swoim artykule,X X X Zmień wyniki jako zmienne zależne w analizie regresji , podaje te same przykłady (i w dużej mierze wpłynęło na moją perspektywę na ten temat, więc gorąco sugeruję, aby ją przeczytać).
Nie oznacza to, że wyniki zmian są zawsze lepsze w przypadku ustawień nierandomizowanych. W przypadku, gdy spodziewasz się, że poziom wyjściowy będzie miał rzeczywisty wpływ przyczynowy na wagę postu, powinieneś użyć modelu poziomów. W przypadku, gdy oczekuje się, że poziom wyjściowy będzie miał przyczynowo-skutkowy wpływ, a wybór leczenia jest skorelowany z poziomem wyjściowym, efekt leczenia jest mylony z efektem wyjściowym.
Zignorowałem notatkę Charliego, że logarytm wagi może być użyty jako zmienna zależna. Chociaż nie wątpię, że może to być możliwa, to w pewnym stopniu nie jest to sekwencyjne pytanie wstępne. Kolejne pytanie dotyczyło tego, kiedy należy zastosować logarytmy zmiennej (i te nadal obowiązują w tym przypadku). Prawdopodobnie istnieje wcześniejsza literatura na ten temat, która pomogłaby ci ustalić, czy stosowanie zarejestrowanej masy ciała jest również odpowiednie.
Cytat
Allison, Paul D. 1990. Zmień wyniki jako zmienne zależne w analizie regresji . Metodologia socjologiczna 20: 93-114. Publiczna wersja PDF .
źródło
Odpowiedź Andy'ego wydaje się być poglądem ekonomisty na rzeczy. W badaniach klinicznych przyjęto, że prawie zawsze dostosowuje się do podstawowej wersji zmiennej odpowiedzi, aby znacznie zwiększyć moc. Ponieważ warunkujemy na podstawie zmiennych podstawowych, nie ma „terminu błędu”, aby można było je pomylić z ogólnym terminem błędu. Jedynym problemem byłoby, gdyby błędy pomiaru w kowariacie linii bazowej były pomylone z innym X, zniekształcając efekt tego drugiego X. Ogólnie preferowaną metodą jest dostosowanie wartości wyjściowej i modelowanie zmiennej odpowiedzi, nie obliczając zmiany. Jednym z powodów tego jest fakt, że zmiana jest silnie zależna od poprawności transformacji Y i że zmiana ta nie dotyczy ogólnie modeli regresji. Np. Jeśli Y jest porządkowe, różnica między dwiema zmiennymi porządkowymi nie jest już porządkowa.
źródło
Jak widać, interakcje między stronami na temat warunków interakcji mogą być nieco trudne do interpretacji, ale mogą uchwycić interesujący cię wpływ.
źródło
EDYCJA: Argument Andy'ego W przekonał mnie do upuszczenia Modelu C. Dodałem kolejną możliwość: Analizowanie zmian za pomocą modeli o losowym współczynniku (zwanych także modelami wielopoziomowymi lub modelami o mieszanym działaniu)
Odbyła się debata naukowa na temat korzystania z wyników różnic. Moje ulubione teksty to Rogosa (1982, [1]) i Fitzmaurice, Laird i Ware (2004, [2])
Ogólnie rzecz biorąc, masz trzy możliwości analizy swoich danych:
C) Weź wynik różnicy jako DV i kontroluj go dla linii bazowej (to model, który zasugerowałeś).Z powodu argumentów Andy'ego W zrezygnowałem z tej alternatywyModele A i B mogą dawać bardzo różne wyniki, jeśli poziom wyjściowy jest skorelowany z wynikiem zmiany (np. Cięższe osoby mają większą utratę masy ciała) i / lub przypisanie leczenia jest skorelowane z poziomem wyjściowym.
Jeśli chcesz dowiedzieć się więcej na temat tych problemów, zobacz cytowane artykuły lub tutaj i tutaj .
Niedawno przeprowadzono także badanie symulacyjne [3], które empirycznie porównuje warunki, w których preferowane są A lub B.
W przypadku całkowicie zbalansowanych projektów bez brakujących wartości model D powinien być równoważny z modelem A. Jednak zapewnia więcej informacji na temat zmienności między osobami, można go łatwo rozszerzyć na więcej punktów pomiarowych i ma ładne właściwości w obecności niezrównoważonych danych i / lub brakujące wartości.
Podsumowując: W twoim przypadku przeanalizowałbym pomiary kontrolowane dla linii bazowej (Model B).
[1] Rogosa, D., Brandt, D., i Zimowski, M. (1982). Podejście krzywej wzrostu do pomiaru zmiany. Psychological Bulletin, 92, 726-748.
[2] Fitzmaurice, GM, Laird, NM i Ware, JH (2004). Zastosowana analiza podłużna. Hoboken, NJ: Wiley.
[3] Petscher, Y., i Schatschneider, C., 2011. Badanie symulacyjne dotyczące wydajności prostych wyników z uwzględnieniem różnic i kowariancji w randomizowanych projektach eksperymentalnych. Journal of Educational Measurement, 48, 31-43.
źródło
Laird, N. (1983). Further Comparative Analyses of Pretest-Posttest Research Designs. The American Statistician, 37, 329-330.
, kto wykazuje równoważność B i C?Zobacz Josh Angrist na dokładnie to pytanie: http://www.mostlyharmlesseconometrics.com/2009/10/adding-lagged-dependent-vars-to-differenced-models/ . Sprowadza się głównie do włączenia opóźnionego sygnału DV do twojego modelu. W jego odpowiedzi nie ma niczego, czego nie ma w powyższych odpowiedziach, ale dalsza zwięzła odpowiedź na twoje pytanie może pomóc.
źródło
Glymour i in. (2005) rozwiązany przy użyciu korekty linii bazowej podczas analizy wyniku zmiany. Jeśli zmiana stanu zdrowia poprzedza ocenę linii podstawowej lub występuje duży błąd pomiaru w zmiennej zależnej, stwierdzają, że może wystąpić błąd, jeśli model regresji wykorzystujący wynik zmiany jako zmienną zależną zawiera zmienną podstawową. Odpowiedź Franka Harrella: „Jedynym problemem byłoby, gdyby błędy pomiarowe w kowariacie linii bazowej były pomylone z innym X, zniekształcając efekt tego innego X”. może odzwierciedlać ten sam błąd co adresy Glymour.
Glymour (2005) „Kiedy dostosowanie linii podstawowej jest przydatne w analizie zmiany? Przykład edukacji i zmiany poznawczej. American Journal of Epidemiology 162: 267-278
źródło
Ocram jest nieprawidłowy. Różnica wag nie uwzględnia początkowej masy. W szczególności ciężar początkowy jest niejako wyjęty przez odjęcie od niego ciężaru końcowego.
Dlatego twierdzę, że nie narusza żadnych założeń, jeśli kontrolujesz początkową wagę.
(Ta sama logika obowiązuje, jeśli weźmiesz różnicę BMI i początkowego BMI.)
Aktualizacja
Po tym, jak krytyk Andy'ego W. pozwoli mi bardziej formalnie wyjaśnić, dlaczego mam rację, a Ocram się myli (przynajmniej z mojego punktu widzenia).
Jeśli chcesz wziąć to pod uwagę, musisz uwzględnić go osobno w swoim modelu (jako zwykły parametr i / lub jako termin interakcji).
źródło
Obseruj to
jest równa
Innymi słowy, użycie zmiany masy (zamiast samej masy końcowej), ponieważ DV stanowi już ciężar początkowy.
źródło