Czy ze statystycznego punktu widzenia można wnioskować o przyczynowości na podstawie wyników oceny skłonności w badaniu obserwacyjnym?

27

Pytanie: Czy z punktu widzenia statystyki (lub praktyka) można wnioskować o przyczynowości na podstawie wyników skłonności w badaniu obserwacyjnym ( nie w eksperymencie )?

Proszę, nie chcę rozpętać wojny z płomieniami ani fanatycznej debaty.

Kontekst: W ramach naszego programu doktoranckiego statystyką zajmowaliśmy się jedynie wnioskami przyczynowymi za pośrednictwem grup roboczych i kilku sesji tematycznych. Istnieje jednak kilku bardzo znanych badaczy z innych wydziałów (np. HDFS, socjologia), którzy aktywnie z nich korzystają.

Byłem już świadkiem bardzo gorącej debaty na ten temat. Nie mam zamiaru tu zaczynać. To powiedziawszy, jakie referencje napotkałeś? Jakie masz poglądy? Na przykład, jeden argument, który słyszałem przeciwko punktom skłonności jako technice wnioskowania przyczynowego, jest taki, że nigdy nie można wnioskować o przyczynowości z powodu pominięcia zmiennej zmienności - jeśli pominiesz coś ważnego, przerwiesz łańcuch przyczynowy. Czy to problem nie do rozwiązania?

Zastrzeżenie: To pytanie może nie mieć poprawnej odpowiedzi - całkowicie fajne po kliknięciu cw, ale osobiście jestem bardzo zainteresowany odpowiedziami i byłbym zadowolony z kilku dobrych referencji, które zawierają przykłady z prawdziwego świata.

M. Tibbits
źródło

Odpowiedzi:

16

Na początku artykułu mającego na celu promowanie stosowania PS w epidemiologii Oakes i Church (1) przytoczyli twierdzenia Hernána i Robinsa o zakłócającym działaniu w epidemiologii (2):

Czy możesz zagwarantować, że na wyniki badania obserwacyjnego nie wpłynie niezmierzony błąd? Jedyną odpowiedzią, jaką może udzielić epidemiolog, jest „nie”.

Nie oznacza to tylko, że nie możemy zagwarantować, że wyniki badań obserwacyjnych są obiektywne lub bezużyteczne (ponieważ, jak powiedział @propofol, ich wyniki mogą być przydatne do projektowania RCT), ale także, że PS z pewnością nie oferują kompletnego rozwiązania tego problemu problem, a przynajmniej niekoniecznie dają lepsze wyniki niż inne metody dopasowania lub wielowymiarowe (patrz np. (10)).

Oceny skłonności (PS) są z założenia wskaźnikami probabilistycznymi, a nie przyczynowymi . Wybór zmiennych towarzyszących, które wchodzą w funkcję oceny skłonności, jest kluczowym elementem dla zapewnienia jej wiarygodności, a ich słabość, jak już powiedziano, polega głównie na tym, że nie kontroluje się nieobserwowanych czynników zakłócających (co jest dość prawdopodobne w badaniach retrospektywnych lub kontroli przypadków ) . Należy wziąć pod uwagę inne czynniki: (a) błędne sprecyzowanie modelu wpłynie na oszacowania efektu bezpośredniego (jednak nie więcej niż w przypadku OLS), (b) mogą brakować danych na poziomie zmiennych towarzyszących, (c) PS nie przezwyciężyć efektów synergicznych, o których wiadomo, że wpływają na interpretację przyczynową (8,9).

Jeśli chodzi o referencje, znalazłem slajdy Rogera Newsona - przyczynowość, pomieszanie i oceny skłonności - stosunkowo dobrze wyważone na temat zalet i wad stosowania ocen skłonności, z ilustracjami z prawdziwych badań. Było też kilka dobrych artykułów omawiających wykorzystanie wyników skłonności w badaniach obserwacyjnych lub epidemiologii środowiskowej dwa lata temu w Statistics in Medicine, a na końcu dołączam kilka z nich (3-6). Ale podoba mi się opinia Pearl (7), ponieważ oferuje ona szersze spojrzenie na kwestie przyczynowości (PS omówione są na s. 117 i 130). Oczywiście, znajdziesz wiele innych ilustracji, patrząc na badania stosowane. Chciałbym dodać dwa ostatnie artykuły Williama R. Shadisha, które trafiły na stronę internetową Andrew Gelmana (11,12). Omówiono wykorzystanie wyników skłonności, ale te dwa artykuły w większym stopniu koncentrują się na wnioskowaniu przyczynowym w badaniach obserwacyjnych (i na porównaniu z przypadkami).

Referencje

  1. Oakes, JM and Church, TR (2007). Zaproszony komentarz: Zaawansowane metody oceny skłonności w epidemiologii . American Journal of Epidemiology , 165 (10), 1119-1121.
  2. Hernan MA i Robins JM (2006). Instrumenty wnioskowania przyczynowego: marzenie epidemiologa? Epidemiology , 17, 360-72.
  3. Rubin, D. (2007). Projekt a analiza badań obserwacyjnych pod kątem skutków przyczynowych: Równoległe z planowaniem badań losowych . Statystyka w medycynie , 26, 20–36.
  4. Shrier, I. (2008). List do redakcji . Statystyka w medycynie , 27, 2740–2741.
  5. Pearl, J. (2009). Uwagi na temat metody oceny skłonności . Statystyka w medycynie , 28, 1415–1424.
  6. Stuart, EA (2008). Opracowanie praktycznych zaleceń dotyczących stosowania wyników skłonności: Dyskusja na temat „Krytycznej oceny dopasowania wyników skłonności w literaturze medycznej w latach 1996–2003” autorstwa Petera Austina . Statystyka w medycynie , 27, 2062–2065.
  7. Pearl, J. (2009). Wnioskowanie przyczynowe w statystyce: przegląd . Ankiety statystyczne , 3, 96–146.
  8. Oakes, JM i Johnson, PJ (2006). Dopasowywanie wyników skłonności do epidemiologii społecznej . W Methods in Social Epidemiology , JM Oakes i S. Kaufman (red.), S. 364–386. Jossez-Bass.
  9. Höfler, M (2005). Wnioskowanie przyczynowe na podstawie scenariuszy alternatywnych . BMC Medical Research Methodology , 5, 28.
  10. Winkelmayer, WC i Kurth, T. (2004). Wyniki skłonności: pomoc czy szum? Nefrologia Dializa Transplantation , 19 (7), 1671-1673.
  11. Shadish, WR, Clark, MH i Steiner, PM (2008). Czy nielosowe eksperymenty mogą dać dokładne odpowiedzi? Randomizowany eksperyment porównujący losowe i nielosowe zadania . JASA , 103 (484), 1334–1356.
  12. Cook, TD, Shadish, WR i Wong, VC (2008). Trzy warunki, w których eksperymenty i badania obserwacyjne dają porównywalne szacunki przyczynowe: nowe ustalenia z porównań w ramach badania . Journal of Policy Analysis and Management , 27 (4), 724–750.
chl
źródło
11

Oceny skłonności są zwykle stosowane w dopasowanej literaturze. Oceny skłonności wykorzystują zmienne towarzyszące przed leczeniem, aby oszacować prawdopodobieństwo otrzymania leczenia. Zasadniczo regresja (tylko zwykły OLS lub logit, probit itp.) Jest używana do obliczania wyniku skłonności do leczenia, ponieważ twoje wyniki i zmienne sprzed leczenia są twoimi zmiennymi towarzyszącymi. Po uzyskaniu dobrego oszacowania wyniku skłonności, osoby z podobnymi wynikami skłonności, ale otrzymanymi różnymi metodami leczenia, są dobierane do siebie. Efektem leczenia jest różnica średnich między tymi dwiema grupami.

Rosenbaum i Rubin (1983) pokazują, że dopasowanie leczonych i kontrolnych pacjentów przy użyciu tylko oceny skłonności jest wystarczające do usunięcia wszystkich stronniczości w oszacowaniu efektu leczenia wynikającego z obserwowanych zmiennych towarzyszących przed leczeniem zastosowanych do skonstruowania oceny. Zauważ, że ten dowód wymaga użycia prawdziwej oceny skłonności, a nie oszacowania. Zaletą tego podejścia jest to, że zamienia problem dopasowania w wielu wymiarach (po jednym dla każdej współzmiennej obróbki wstępnej) w jednowymiarowy przypadek dopasowania - wielkie uproszczenie.

Rosenbaum, Paul R. i Donald B. Rubin. 1983. „ Centralna rola wskaźnika skłonności w badaniach obserwacyjnych nad skutkami przyczynowymi ”. Biometrika. 70 (1): 41--55.

Charlie
źródło
8

Tylko prospektywne randomizowane badanie może ustalić związek przyczynowy. W badaniach obserwacyjnych zawsze będzie istniała nieznana lub nieznana zmienna towarzysząca, która uniemożliwia przypisanie przyczynowości.

Jednak próby obserwacyjne mogą dostarczyć dowodów silnego związku między xiy, a zatem są przydatne do generowania hipotez. Te hipotezy należy następnie potwierdzić w randomizowanym badaniu.

pmgjones
źródło
Całkowicie się z Tobą zgadzam. Badanie obserwacyjne może być przydatne do odkrycia niektórych skojarzeń, które z kolei można przetestować przy użyciu znacznie bardziej rygorystycznych ram (próba losowa, jak sugerujesz).
Sympa,
Zgrabna ekspresja. Nie mogę się z tobą bardziej zgodzić ze słowem „silne” powiązanie między xiy.
Kevin Kang,
7

Pytanie wydaje się obejmować dwie rzeczy, które naprawdę należy rozpatrywać osobno. Po pierwsze, czy można wnioskować o przyczynowości na podstawie badania obserwacyjnego, a na tym można przeciwstawić poglądy, powiedzmy Pearl (2009), który twierdzi, że tak, o ile można odpowiednio modelować proces, w porównaniu z poglądem @propofol, który będzie znaleźć wielu sprzymierzeńców w dyscyplinach eksperymentalnych i którzy mogą dzielić się niektórymi przemyśleniami wyrażonymi w (raczej niejasnym, ale mimo to dobrym) eseju Gerbera i in. (2004). Po drugie, zakładając, że uważasz, że przyczynowość można wywnioskować z danych obserwacyjnych, możesz zastanawiać się, czy metody oceny skłonności są przydatne w tym celu. Metody oceny skłonności obejmują różne strategie warunkowania, a także odwrotne ważenie skłonności. Miłą recenzję podają Lunceford i Davidian (2004).

Trochę zmarszczek: dopasowanie oceny skłonności i ważenie są również wykorzystywane w analizie randomizowanych eksperymentów, gdy na przykład istnieje zainteresowanie obliczeniem „efektów pośrednich”, a także gdy występują problemy z potencjalnie nieprzypadkowym zużyciem lub wypadnięciem ( w takim przypadku to, co masz, przypomina badanie obserwacyjne).

Referencje

Gerber A i in. 2004. „Iluzja uczenia się na podstawie badań obserwacyjnych”. W Shapiro I i wsp., Problems and Methods in the Study of Politics , Cambridge University Press.

Lunceford JK, Davidian M. 2004. „Stratyfikacja i ważenie za pomocą oceny skłonności w ocenie skutków leczenia przyczynowego: badanie porównawcze”. Statystyka w medycynie 23 (19): 2937–2960.

Pearl J. 2009. Causality (2nd Ed.) , Cambridge University Press.

Cyrus S.
źródło
Dobrze, że zacytowałeś całą książkę Pearl.
chl
0

Konwencjonalna mądrość głosi, że tylko randomizowane próby kontrolowane („prawdziwe” eksperymenty) mogą zidentyfikować przyczynowość.

Nie jest to jednak takie proste.

Jednym z powodów, dla których randomizacja może być niewystarczająca, jest to, że w „małych” próbkach prawo dużej liczby nie jest „wystarczająco silne”, aby zapewnić zrównoważenie wszystkich różnic. Pytanie brzmi: co jest „za małe”, a kiedy zaczyna się „wystarczająco duże”? Saint-Mont (2015) twierdzi tutaj, że „wystarczająco duży” może równie dobrze zacząć się w tysiącach (n> 1000)!

W końcu chodzi o zrównoważenie różnic między grupami, kontrolowanie różnic. Dlatego nawet w eksperymentach należy zachować wielką ostrożność, aby zrównoważyć różnice między grupami. Według obliczeń Saint-Mont (2015) może się zdarzyć, że w mniejszych próbkach można znacznie lepiej dopasować (ręcznie zrównoważone) próbki.

Co do prawdopodobieństwa. Oczywiście prawdopodobieństwo nigdy nie jest w stanie udzielić jednoznacznej odpowiedzi - chyba że prawdopodobieństwo jest ekstremalne (zero lub jeden). Jednak w nauce często mieliśmy do czynienia z sytuacjami, w których nie jesteśmy w stanie udzielić jednoznacznej odpowiedzi, ponieważ rzeczy są trudne. Stąd potrzeba prawdopodobieństwa. Prawdopodobieństwo jest jedynie sposobem wyrażenia naszej niepewności w oświadczeniu. Jako taki jest podobny do logiki; patrz Briggs (2016) tutaj .

Prawdopodobieństwo pomoże nam, ale nie da jednoznacznych odpowiedzi, bez pewności. Ale to jest bardzo przydatne - do wyrażania niepewności.

Należy również zauważyć, że przyczynowość nie jest przede wszystkim kwestią statystyczną. Załóżmy, że dwa sposoby różnią się „znacznie”. Czy to nie znaczy, że zmienna grupująca jest przyczyną różnicy mierzonej zmiennej? Nie (niekoniecznie). Bez względu na to, jakiej konkretnej statystyki się używa - wskaźnik skłonności, wartości p, współczynniki Bayesa i tak dalej - takie metody (praktycznie) nigdy nie wystarczą do uzasadnienia roszczeń przyczynowych.

Sebastian Sauer
źródło