Jak rozwiązać paradoks Simpsona?

35

Paradoks Simpsona to klasyczna łamigłówka omawiana na wstępnych kursach statystyki na całym świecie. Jednak mój kurs był satysfakcjonujący, aby po prostu zauważyć, że istniał problem i nie przedstawił rozwiązania. Chciałbym wiedzieć, jak rozwiązać paradoks. To znaczy, w obliczu paradoksu Simpsona, gdzie dwie różne opcje wydają się konkurować o najlepszy wybór w zależności od sposobu podziału danych, który wybór należy wybrać?

Aby uczynić problem konkretnym, rozważmy pierwszy przykład podany w odpowiednim artykule w Wikipedii . Opiera się na prawdziwych badaniach dotyczących leczenia kamieni nerkowych.

wprowadź opis zdjęcia tutaj

Załóżmy, że jestem lekarzem, a badanie ujawni, że pacjent ma kamienie nerkowe. Korzystając tylko z informacji podanych w tabeli, chciałbym ustalić, czy powinienem zastosować leczenie A, czy leczenie B. Wydaje się, że jeśli znam wielkość kamienia, powinniśmy preferować leczenie A. Ale jeśli nie, to wtedy powinniśmy preferować leczenie B.

Ale zastanów się nad innym możliwym sposobem na uzyskanie odpowiedzi. Jeśli kamień jest duży, powinniśmy wybrać A, a jeśli jest mały, powinniśmy ponownie wybrać A. Więc nawet jeśli nie znamy rozmiaru kamienia, metodą przypadków widzimy, że powinniśmy preferować A. Jest to sprzeczne z naszym wcześniejszym rozumowaniem.

Więc: Pacjent wchodzi do mojego biura. Test ujawnia, że ​​mają kamienie nerkowe, ale nie daje mi żadnych informacji o ich wielkości. Jakie leczenie polecam? Czy istnieje zaakceptowane rozwiązanie tego problemu?

Wikipedia sugeruje rozwiązanie przy użyciu „przyczynowych sieci bayesowskich” i testu „tylnych drzwi”, ale nie mam pojęcia, co to jest.

Ziemniak
źródło
2
Na podstawowe Paradoks Simpsona Link wspomniano powyżej jest przykładem danych obserwacyjnych. Nie możemy jednoznacznie decydować między szpitalami, ponieważ pacjenci prawdopodobnie nie zostali losowo przydzieleni do szpitali, a postawione pytanie nie pozwala nam ustalić, czy na przykład jeden szpital miał skłonność do przyjmowania pacjentów o wyższym ryzyku. Podział wyników na operacje AE nie rozwiązuje tego problemu.
Emil Friedman,
@EmilFriedman Zgadzam się, że to prawda, że ​​możemy jednoznacznie decydować między szpitalami. Ale z pewnością dane obsługują jeden nad drugim. (To nieprawda, że ​​dane niczego nie nauczyły nas o jakości szpitali.)
Ziemniak

Odpowiedzi:

14

W swoim pytaniu stwierdzasz, że nie wiesz, czym są „przyczynowe sieci bayesowskie” i „testy tylnych drzwi”.

Załóżmy, że masz przyczynową sieć bayesowską. To jest ukierunkowany wykres acykliczny, którego węzły przedstawiają zdania, a których skierowane krawędzie reprezentują potencjalne związki przyczynowe. Możesz mieć wiele takich sieci dla każdej z twoich hipotez. Istnieją trzy sposoby na przekonywanie o sile lub istnieniu krawędzi A?b .

Najłatwiejszym sposobem jest interwencja. To właśnie sugerują inne odpowiedzi, gdy mówią, że „właściwa randomizacja” naprawi problem. Losowo zmuszasz do różnych wartości i mierzysz BAB . Jeśli możesz to zrobić, jesteś skończony, ale nie zawsze możesz to zrobić. W twoim przykładzie może być nieetyczne traktowanie ludzi nieskutecznych metod leczenia śmiertelnych chorób lub mogą oni mieć pewne zdanie na temat leczenia, np. Mogą wybrać mniej surowe (leczenie B), gdy ich kamienie nerkowe są małe i mniej bolesne.

Drugi sposób to metoda drzwi wejściowych. Chcesz pokazać, że działa na B przez C , czyli A C B . Jeśli założymy, że C jest potencjalnie spowodowane przez A , ale nie ma innych przyczyn, a można mierzyć że C jest skorelowane z A i B jest skorelowana z C , to można stwierdzić, dowody muszą być płynący poprzez C . Oryginalny przykład: A to palenie, B to rak, CABCACBCACABCCABCto akumulacja substancji smolistych. Smoła może pochodzić tylko z palenia i jest skorelowana zarówno z paleniem, jak i rakiem. Dlatego palenie powoduje raka poprzez smołę (choć mogą istnieć inne ścieżki przyczynowe, które łagodzą ten efekt).

Trzecim sposobem jest metoda tylnych drzwi. Chcesz pokazać, że i B nie są skorelowane z powodu „tylnymi drzwiami”, np wspólnej sprawy, czyli A D B . Ponieważ założyliśmy model przyczynowy, to po prostu trzeba zablokować wszystkie ścieżki (obserwując zmienne i klimatyzacji na nich), że dowody mogą płynąć w górę od A i do B . Blokowanie tych ścieżek jest nieco trudne, ale Pearl podaje przejrzysty algorytm, który informuje, które zmienne należy obserwować, aby zablokować te ścieżki.ABADBAB

Gung ma rację, że przy dobrej randomizacji pomieszanie nie będzie miało znaczenia. Ponieważ zakładamy, że interwencja w hipotetyczną przyczynę (leczenie) jest niedozwolona, ​​jakakolwiek wspólna przyczyna między hipotetyczną przyczyną (leczenie) a skutkiem (przeżycie), taka jak wiek lub rozmiar kamienia nerkowego, będzie dezorientująca. Rozwiązaniem jest wykonanie odpowiednich pomiarów, aby zablokować wszystkie tylne drzwi. Więcej informacji można znaleźć w:

Pearl, Judea. „Diagramy przyczynowe dla badań empirycznych”. Biometrika 82,4 (1995): 669-688.


Aby zastosować to do twojego problemu, najpierw narysujmy wykres przyczynowy. (Leczeniem poprzedzających) Powierzchnia kamicy nerkowej i typu obróbki Y są zarówno przyczyny sukcesu Z . X może być przyczyną Y, jeśli inni lekarze przypisują leczenie na podstawie wielkości kamienia nerkowego. Oczywiście istnieją żadne inne związki przyczynowy pomiędzy X , Y i Z . Y pojawia się po X, więc nie może być jego przyczyną. Podobnie Z pochodzi od X i Y .XYZXYXYZYXZXY

Ponieważ jest częstą przyczyną, należy go zmierzyć. Do eksperymentatora należy określenie wszechświata zmiennych i potencjalnych związków przyczynowych . Dla każdego eksperymentu eksperymentator mierzy niezbędne „zmienne tylnych drzwi”, a następnie oblicza krańcowy rozkład prawdopodobieństwa sukcesu leczenia dla każdej konfiguracji zmiennych. W przypadku nowego pacjenta mierzysz zmienne i postępujesz zgodnie z kuracją wskazaną przez rozkład brzeżny. Jeśli nie możesz zmierzyć wszystkiego lub nie masz dużo danych, ale wiesz coś o architekturze relacji, możesz przeprowadzić „propagację przekonań” (wnioskowanie bayesowskie) w sieci.X

Neil G.
źródło
2
Bardzo miła odpowiedź. Czy mógłbyś krótko powiedzieć, jak zastosować te ramy do przykładu podanego w pytaniu? Czy daje oczekiwaną odpowiedź (A)?
Ziemniak
Dzięki! Czy znasz dobre, krótkie wprowadzenie do „propagowania przekonań”? Chcę dowiedzieć się więcej.
Ziemniak
@Potato: Nauczyłem się tego z jego książki „Probabilistic Reasoning in Intelligent Systems”. Istnieje wiele samouczków online, ale trudno jest znaleźć taki, który buduje intuicję, a nie tylko przedstawia algorytm.
Neil G
22

Mam wcześniejszą odpowiedź, która omawia paradoks Simpsona : podstawowy paradoks Simpsona . Pomoże Ci to przeczytać, aby lepiej zrozumieć zjawisko.

Krótko mówiąc, paradoks Simpsona występuje z powodu zamieszania. W twoim przykładzie leczenie jest zakłócone* z rodzajem kamieni nerkowych każdego pacjenta. Wiemy z pełnej tabeli przedstawionych wyników, że leczenie A jest zawsze lepsze. Dlatego lekarz powinien wybrać leczenie A. Jedynym powodem, dla którego leczenie B wygląda lepiej, jest to, że częściej podawano go pacjentom z mniej ciężkim stanem, podczas gdy leczenie A podawano pacjentom z cięższym stanem. Niemniej jednak leczenie A działało lepiej w obu stanach. Jako lekarz nie dbasz o to, że w przeszłości gorsze leczenie było udzielane pacjentom, którzy mieli gorszy stan, dbasz tylko o pacjenta przed sobą, a jeśli chcesz, aby ten pacjent się poprawił, zapewnisz je z najlepszym dostępnym leczeniem.

* Należy pamiętać, że celem przeprowadzania eksperymentów i randomizowania leczenia jest stworzenie sytuacji, w której leczenie nie jest zakłócone. Gdyby omawiane badanie było eksperymentem, powiedziałbym, że proces randomizacji nie doprowadził do stworzenia sprawiedliwych grup, chociaż może to być badanie obserwacyjne - nie wiem.

gung - Przywróć Monikę
źródło
Opowiadasz się za podejściem normalizacyjnym sugerowanym również przez inną odpowiedź. Uważam to za problematyczne. Możliwe jest wyświetlenie dwóch partycji tego samego zestawu danych, które dają różne wnioski podczas normalizacji. Zobacz mój link i cytat w odpowiedzi na drugą odpowiedź.
Ziemniak
2
Nie czytałem artykułu Stanforda. Jednak moim zdaniem uzasadnienie cytatu nie jest przekonujące. Może się zdarzyć, że w niektórych populacjach leczenie B jest lepsze niż leczenie A. To nie ma znaczenia. Jeśli dotyczy to niektórych populacji, dzieje się tak tylko dlatego, że cechy populacji są pomieszane. Masz do czynienia z pacjentem (nie z populacją) i ten pacjent jest bardziej podatny na poprawę w trakcie leczenia. Bez względu na to, czy pacjent ma duże lub małe kamienie nerkowe. Powinieneś wybrać leczenie A.
Gung - Przywróć Monikę
2
Czy młoda / stara partycja jest zakłócona? Jeśli nie, to nie będzie problemu. Jeśli tak, wykorzystamy wszystkie informacje, aby podjąć najlepszą decyzję. Na podstawie tego, co wiemy obecnie, „leczenie B wygląda najlepiej w kruszywie” to czerwony śledź. Wydaje się, że tak jest tylko z powodu zamieszania, ale jest to (statystyczna) iluzja.
gung - Przywróć Monikę
2
Miałbyś bardziej skomplikowany stół, który uwzględniałby zarówno rozmiar kamienia nerkowego, jak i wiek. Możesz przyjrzeć się przykładowi przypadku uprzedzeń płciowych Berkeley na stronie Wikipedii.
gung - Przywróć Monikę
1
Nienawidzę przedłużać komentarzy tak długo, ale ... Nie powiedziałbym, że paradoks zawsze wynika z dezorientacji. Wynika to z zależności między zmiennymi, które będzie miała zmienna myląca, ale nie nazwałbym wszystkich zmiennych prowadzących do paradoksu dezorientacji Simpsona (np. Waga 30-latków i 90-latków x ilość chipsów ziemniaczanych spożywanych rocznie) ponieważ osoby w wieku 90 lat są znacznie lżejsze, ponieważ główny efekt żetonów może być ujemny bez uwzględnienia interakcji. Nie nazwałbym jednak wieku pomieszanym. (patrz pierwsza ryc. na stronie Wikipedii)
John
4

Czy chcesz rozwiązać ten jeden przykład czy ogólnie paradoks? Nie ma takiego drugiego, ponieważ paradoks może powstać z więcej niż jednego powodu i należy go oceniać indywidualnie dla każdego przypadku.

Paradoks jest przede wszystkim problematyczny przy zgłaszaniu danych podsumowujących i ma kluczowe znaczenie w szkoleniu osób w zakresie analizy i raportowania danych. Nie chcemy, aby badacze zgłaszali statystyki podsumowujące, które ukrywają lub zaciemniają wzorce w danych, lub analityków danych nie rozpoznają prawdziwego wzorca w danych. Nie podano rozwiązania, ponieważ nie ma jednego rozwiązania.

W tym konkretnym przypadku lekarz z tabelą wyraźnie zawsze wybiera A i ignoruje wiersz podsumowania. Nie ma znaczenia, czy znają rozmiar kamienia, czy nie. Gdyby ktoś analizujący dane zgłosił tylko linie podsumowujące przedstawione dla A i B, to byłby problem, ponieważ dane otrzymane przez lekarza nie odzwierciedlałyby rzeczywistości. W takim przypadku prawdopodobnie powinni oni również zostawić ostatni wiersz poza tabelą, ponieważ jest to poprawne tylko pod jedną interpretacją statystyki podsumowującej (możliwe są dwie). Pozostawienie czytelnikowi interpretacji poszczególnych komórek na ogół dałoby prawidłowy wynik.

(Twoje obfite komentarze wydają się sugerować, że najbardziej martwisz się nierównymi problemami N, a Simpson jest szerszy niż ten, więc nie chcę dalej rozwodzić się nad nierównym zagadnieniem N. Być może zadaj bardziej ukierunkowane pytanie. Ponadto wydaje ci się, że myślę opowiadam się za wnioskiem o normalizację. Nie jestem. Argumentuję, że należy wziąć pod uwagę, że statystyka podsumowująca jest stosunkowo arbitralnie wybrana, a wybór dokonany przez niektórych analityków doprowadził do paradoksu. Ponadto twierdzę, że patrzysz na komórki, które mieć.)

Jan
źródło
Twierdzisz, że powinniśmy zignorować wiersz podsumowania. Dlaczego to jest „jasne”?
Ziemniak
Jest jasne, ponieważ leczenie A jest lepsze w przypadku dużych lub małych kamieni, a B wychodzi tylko z powodu nierównych N. Ponadto ostatnia linia to interpretacja, a nie ewangelia. Istnieją co najmniej dwa sposoby obliczenia tej linii. Obliczalibyście to w ten sposób tylko wtedy, gdybyście chcieli powiedzieć coś o konkretnej próbce.
Jan
Przepraszam, nie rozumiem, dlaczego wiersz podsumowania jest nieprawidłowym raportem. Myślę, że brakuje mi twojego centralnego punktu. Czy mógłbyś wyjaśnić?
Ziemniak
1
Możesz normalizować, a następnie uśredniać, co daje „poprawny” wynik (A). Ale to nielegalne. Poniższy cytat pochodzi z odpowiedniego artykułu w Stanford Encyclopedia of Philosophy, dostępnego tutaj: plato.stanford.edu/entries/paradox-simpson
Potato
2
„Cofnięcia Simpsona pokazują, że istnieje wiele sposobów podziału populacji, które są spójne ze skojarzeniami w całej populacji. Podział według płci może wskazywać, że zarówno mężczyźni, jak i kobiety radzili sobie gorzej, gdy otrzymali nowe leczenie, podczas gdy podział tej samej populacji według wieku wskazano, że zarówno pacjenci w wieku poniżej pięćdziesięciu lat, jak i pacjenci w wieku pięćdziesięciu lat i starsi radzili sobie lepiej po nowym leczeniu. Normalizacja danych z różnych sposobów podziału tej samej populacji dostarczy niezgodnych wniosków na temat powiązań, które utrzymują się w całej populacji.
Ziemniak
4

Jednym ważnym „odejściem” jest to, że jeśli przypisania do leczenia są nieproporcjonalne między podgrupami, należy wziąć pod uwagę podgrupy podczas analizy danych.

Drugim ważnym „odejściem” jest to, że badania obserwacyjne są szczególnie podatne na udzielanie błędnych odpowiedzi z powodu nieznanej obecności paradoksu Simpsona. Wynika to z faktu, że nie możemy poprawić faktu, że leczenie A było zwykle stosowane w trudniejszych przypadkach, jeśli nie wiemy, że tak było.

W odpowiednio randomizowanym badaniu możemy (1) losowo przydzielić leczenie, tak że przyznanie „nieuczciwej przewagi” jednemu zabiegowi jest wysoce nieprawdopodobne i zostanie automatycznie uwzględnione w analizie danych, lub (2) jeśli istnieje ważny powód w tym celu przydzielaj zabiegi losowo, ale nieproporcjonalnie w oparciu o znany problem, a następnie weź to pod uwagę podczas analizy.

Emil Friedman
źródło
+1, jednak „automatyczne załatwienie się” nie jest do końca prawdą (przynajmniej w bezpośredniej sytuacji, o co przede wszystkim chodzi). To prawda na dłuższą metę, ale nadal możesz mieć bardzo dużo błędów typu I i typu II z powodu błędu próbkowania (tj. Pacjenci w 1 stanie leczenia mieli tendencję do poważniejszych chorób tylko przez przypadek).
Gung - Przywróć Monikę
Ale wpływ błędu próbkowania zostanie wzięty pod uwagę, gdy przeanalizujemy tabelę awaryjności oraz obliczymy i odpowiednio zinterpretujemy wartość p.
Emil Friedman,