Jak dobrze regresja wielokrotna może „kontrolować” zmienne towarzyszące?

45

Wszyscy znamy badania obserwacyjne, które próbują ustalić związek przyczynowy między nierandomizowanym predyktorem X a wynikiem poprzez włączenie każdego możliwego potencjalnego zakłócacza do modelu regresji wielokrotnej. Argumentując, że „kontrolując” wszystkie czynniki zakłócające, izolujemy efekt predyktora zainteresowania.

Rozwijam się coraz bardziej z powodu tego pomysłu, opartego głównie na spostrzeżeniach wygłaszanych przez różnych profesorów moich klas statystyki. Można je podzielić na kilka głównych kategorii:

1. Możesz kontrolować tylko zmienne towarzyszące, o których myślisz i które mierzysz.
To oczywiste, ale zastanawiam się, czy jest to najbardziej szkodliwe i nie do pokonania ze wszystkich.

2. Podejście to doprowadziło do brzydkich błędów w przeszłości.

Na przykład Petitti i Freedman (2005) omawiają, w jaki sposób dziesięciolecia statystycznie skorygowanych badań obserwacyjnych doprowadziły do ​​katastrofalnie błędnych wniosków na temat wpływu hormonalnej terapii zastępczej na ryzyko chorób serca. Później RCT wykazały prawie przeciwne efekty.

3. Związek predyktor-wynik może zachowywać się dziwnie, gdy kontrolujesz zmienne towarzyszące.

Yu-Kang Tu, Gunnell i Gilthorpe (2008) omawiają różne przejawy, w tym Paradoks Lorda, Paradoks Simpsona i zmienne supresorowe.

4. Jednemu modelowi (regresji wielokrotnej) trudno jest odpowiednio dopasować zmienne towarzyszące i jednocześnie modelować relację predyktor-wynik.

Słyszałem, że podano to jako przyczynę wyższości metod, takich jak oceny skłonności i rozwarstwienie na mylących, ale nie jestem pewien, czy naprawdę to rozumiem.

5. Model ANCOVA wymaga, by zmienna towarzysząca i predyktor zainteresowania były niezależne.

Oczywiście dostosowujemy pomyłki dokładnie, PONIEWAŻ są one skorelowane z predyktorem zainteresowania, więc wydaje się, że model zakończy się niepowodzeniem w dokładnie takich przypadkach, kiedy najbardziej tego chcemy. Argument jest taki, że dostosowanie jest odpowiednie tylko w celu zmniejszenia hałasu w badaniach randomizowanych. Miller i Chapman, 2001 dają świetną recenzję.

Więc moje pytania to:

  1. Jak poważne są te problemy i inne, o których mógłbym nie wiedzieć?
  2. Jak mam się bać, kiedy widzę badanie, które „kontroluje wszystko”?

(Mam nadzieję, że to pytanie nie zapuszcza się zbyt daleko w obszar dyskusji i chętnie zapraszam do sugestii dotyczących jego ulepszenia).

EDYCJA : Dodałem punkt 5 po znalezieniu nowego odniesienia.

półprzejście
źródło
1
W przypadku pytania 2 myślę, że „kontrola wszystkiego” jest bardziej ogólnym zagadnieniem specyfikacji. Mam problem z myśleniem o sytuacji, w której model parametryczny jest poprawnie określony. To powiedziawszy, model upraszcza rzeczywistość i tam leży sztuka tego rodzaju badań. Badacz musi zdecydować, co jest i nie jest ważne w modelu.
kirk
4
To pytanie sprawiło, że stałem się fanem.
rolando2
1
Myślę, że to podnosi pewne bardzo dobre punkty; ale myślę, że odpowiedzi są poza dziedziną ściśle statystyczną. Zatem każdy wynik statystyczny jest bardziej wartościowy, jeśli 1) jest replikowany 2) jest merytorycznie wykonalny itp. Zobacz także kryteria MAGIC i ogólny argument Abelsona.
Peter Flom - Przywróć Monikę
1
Punkt 5 jest całkowicie fałszywy. Papier Millera i Chapmana jest całkowicie błędny, kropka.
Jake Westfall,
1
@ half-pass Nie jestem pewien, co jeszcze o tym powiedzieć, poza tym, że główne twierdzenie artykułu - tj. że predykator ogniskowy X i zmienna towarzysząca C muszą być nieskorelowane - po prostu nie jest prawdą. Zauważ, że ANCOVA jest tylko modelem regresji, więc ta sama linia rozumowania najwyraźniej unieważniłaby prawie wszystkie rzeczywiste zastosowania regresji wielokrotnej! Kilka miesięcy temu miałem dyskusję na Twitterze o tym okropnym artykule: twitter.com/CookieSci/status/902298218494644228
Jake Westfall

Odpowiedzi:

4

Staje się powszechnie akceptowana, być może niestatystyczna, odpowiedź na - jakie założenia należy przyjąć, aby twierdzić, że naprawdę kontrolowano zmienne towarzyszące.

Można tego dokonać za pomocą grafów przyczynowych Judei Pearl i rachunku różniczkowego .

Zobacz http://ftp.cs.ucla.edu/pub/stat_ser/r402.pdf, a także inne materiały na jego stronie internetowej.

Jako statystycy wiemy, że wszystkie modele są fałszywe, a prawdziwym pytaniem statystycznym są te zidentyfikowane założenia, które prawdopodobnie nie będą zbyt błędne, więc nasza odpowiedź będzie w przybliżeniu OK. Pearl zdaje sobie z tego sprawę i dyskutuje o tym w swojej pracy, ale być może nie jest to wystarczająco wyraźne i często wystarczające, aby uniknąć frustracji wielu statystów twierdzeniem, że ma odpowiedź (którą, jak sądzę, robi w odniesieniu do jakich założeń należy poczynić? ).

(Obecnie ASA oferuje nagrodę za materiały dydaktyczne do włączenia tych metod do kursów statystycznych, patrz tutaj )

phaneron
źródło
Świetne nawiązanie do eleganckiej reprezentacji graficznej, dziękuję.
półfinał
0

Odpowiedź na pytanie 1:

  • Wielkość powagi najlepiej oceniać kontekstowo (tj. Należy wziąć pod uwagę wszystkie czynniki wpływające na ważność).
  • Waga powagi nie powinna być oceniana kategorycznie. Przykładem jest pojęcie hierarchii wnioskowania dla projektów badań (np. Raporty przypadków są najniższe, a RCT są kategorycznie najwyższe). Ten rodzaj schematu jest często nauczany w szkołach medycznych jako prosta heurystyka umożliwiająca szybką identyfikację dowodów wysokiej jakości. Problem z tego rodzaju myśleniem polega na tym, że jest on algorytmiczny i zbyt deterministyczny, w rzeczywistości sama odpowiedź jest przesadnie określona. Kiedy tak się dzieje, możesz przeoczyć sposoby, w które źle zaprojektowane RCT mogą dać gorsze wyniki niż dobrze zaprojektowane badanie obserwacyjne.
  • Zobacz tę łatwą do przeczytania recenzję, aby uzyskać pełną dyskusję na temat powyższych punktów z perspektywy epidemiologa (Rothman, 2014) .

Odpowiedź na pytanie 2:

Flaunk
źródło