Poniżej znajduje się pytanie dotyczące wielu wizualizacji przedstawionych jako „dowód za obrazem” istnienia paradoksu Simpsona i być może pytanie dotyczące terminologii.
Paradoks Simpsona jest dość prostym zjawiskiem, które można opisać i podać numeryczne przykłady (powód, dla którego może się to zdarzyć, jest głęboki i interesujący). Paradoks polega na tym, że istnieją tabele warunkowe 2x2x2 (Agresti, Analiza danych kategorialnych), w których powiązanie brzeżne ma inny kierunek niż każde powiązanie warunkowe.
Oznacza to, że porównanie wskaźników w dwóch subpopulacjach może iść w jednym kierunku, ale porównanie w połączonej populacji idzie w innym kierunku. W symbolach:
Istnieją takie, że a + b
ale oraz
Jest to dokładnie przedstawione w następującej wizualizacji (z Wikipedii ):
Ułamek jest po prostu nachyleniem odpowiednich wektorów i łatwo zauważyć w przykładzie, że krótsze wektory B mają większe nachylenie niż odpowiadające wektory L, ale połączony wektor B ma mniejsze nachylenie niż połączony wektor L.
Istnieje bardzo powszechna wizualizacja w wielu formach, szczególnie w przedniej części tej Wikipedii na stronie Simpsona:
To świetny przykład pomieszania, w jaki sposób ukryta zmienna (która oddziela dwie subpopulacje) może wykazywać inny wzorzec.
Jednak matematycznie taki obraz w żaden sposób nie wyświetla tabel awaryjnych, które są podstawą zjawiska znanego jako paradoks Simpsona . Po pierwsze, linie regresji są nad danymi z zestawu punktów o wartościach rzeczywistych, a nie zliczają danych z tabeli awaryjnej.
Można również tworzyć zestawy danych z dowolną relacją nachyleń w liniach regresji, ale w tabelach awaryjnych istnieje ograniczenie, jak różne mogą być nachylenia. Oznacza to, że linia regresji populacji może być ortogonalna do wszystkich regresji danych subpopulacji. Ale w paradoksie Simpsona proporcje subpopulacji, choć nie nachylenie regresji, nie mogą zbytnio oddalić się od mieszanej populacji, nawet jeśli w przeciwnym kierunku (ponownie, patrz porównanie obrazu z Wikipedii).
Dla mnie to wystarczy, aby być zaskoczonym za każdym razem, gdy widzę ten ostatni obraz jako wizualizację paradoksu Simpsona. Ale ponieważ widzę przykłady (które nazywam źle) wszędzie, jestem ciekawy, aby wiedzieć:
- Czy brakuje mi subtelnej transformacji z oryginalnych przykładów tabel nieprzewidzianych Simpsona / Yule w rzeczywiste wartości uzasadniające wizualizację linii regresji?
- Z pewnością Simpson jest szczególnym przypadkiem mylącego błędu. Czy termin „paradoks Simpsona” jest teraz utożsamiany z mylącym błędem, tak więc bez względu na matematykę każdą zmianę kierunku za pomocą ukrytej zmiennej można nazwać paradoksem Simpsona?
Dodatek: Oto przykład uogólnienia na tablicę 2xmxn (lub 2 na metr ciągłą):
Jeśli połączysz rodzaj strzału, wygląda na to, że gracz wykonuje więcej strzałów, gdy obrońcy są bliżej. Pogrupowane według rodzaju strzału (naprawdę odległość od kosza), im bardziej intuicyjnie spodziewana sytuacja, im więcej strzałów, tym bardziej obrońcy są dalej.
Ten obraz uważam za uogólnienie Simpsona w bardziej ciągłą sytuację (dystans obrońców). Ale wciąż nie rozumiem, jak przykład linii regresji jest przykładem Simpsona.
źródło
Odpowiedzi:
Głównym problemem jest to, że utożsamiasz jeden prosty sposób pokazania paradoksu jako samego paradoksu. Prostym przykładem tabeli awaryjnej nie jest sam w sobie paradoks. Paradoks Simpsona dotyczy sprzecznych przyczynowych intuicji przy porównywaniu marginalnych i warunkowych skojarzeń, najczęściej ze względu na odwrócenie znaków (lub ekstremalne tłumienie, takie jak niezależność, jak w oryginalnym przykładzie podanym przez samego Simpsona , w którym nie ma odwrócenia znaku). Paradoks powstaje, gdy interpretujesz oba szacunki przyczynowo, co może prowadzić do różnych wniosków - czy leczenie pomaga czy krzywdzi pacjenta? A jakich szacunków powinieneś użyć?
To jest niepoprawne! Paradoks Simpsona nie jest szczególnym przypadkiem mylącego błędu - gdyby tak było, wówczas w ogóle nie byłoby paradoksu. W końcu, jeśli jesteś pewien, że jakaś relacja jest zakłócona, nie zdziwiłbyś się widząc odwrócenie znaków lub osłabienie w tabelach awaryjnych lub współczynnikach regresji - może nawet byś tego oczekiwał.
Tak więc, chociaż paradoks Simpsona odnosi się do odwrócenia (lub skrajnego osłabienia) „efektów” przy porównywaniu skojarzeń marginalnych i warunkowych, może to nie wynikać z pomieszania i a priori nie można wiedzieć, czy tabela marginalna czy warunkowa jest „poprawna” „jeden do konsultacji, aby odpowiedzieć na twoje pytanie przyczynowe. Aby to zrobić, musisz dowiedzieć się więcej o przyczynowej strukturze problemu.
Rozważ te przykłady podane w Pearl :
Wyjaśnienie Pearl, dlaczego uznano to za „paradoks” i dlaczego nadal intryguje ludzi, jest bardzo prawdopodobne. Weźmy na przykład prosty przypadek przedstawiony w (a): efekty przyczynowe nie mogą tak po prostu odwrócić. Dlatego też, jeśli jesteśmy błędnie zakładając, że oba szacunki są przyczynowy (marginalna i warunkowe), chcielibyśmy być zaskoczony, aby zobaczyć coś takiego dzieje --- a ludzie wydają się być przewodowy zobaczyć związku przyczynowego w większości stowarzyszeń.
Wróćmy do głównego pytania (tytułowego):
W pewnym sensie jest to obecna definicja paradoksu Simpsona. Ale oczywiście zmienna warunkowa nie jest ukryta, należy ją obserwować, w przeciwnym razie nie zobaczysz paradoksu. Większość zagadkowej części paradoksu wynika z przyczyn przyczynowych, a ta „ukryta” zmienna niekoniecznie jest myląca.
Tabele zakaźności i regresja
źródło
Tak. Podobna reprezentacja analiz kategorycznych jest możliwa poprzez wizualizację logarytmicznych szans odpowiedzi na osi Y. Paradoks Simpsona pojawia się w podobny sposób, gdy „prymitywna” linia przebiega w stosunku do trendów specyficznych dla warstwy, ważonych w odległości zgodnie z logarytmicznymi szansami wyniku dla warstwy.
Oto przykład z danymi dotyczącymi przyjęć w Berkeley
Tutaj płeć jest kodem męsko-żeńskim, na osi X znajduje się prymitywny logarytm przyjęć dla mężczyzn w stosunku do kobiet, ciężka przerywana czarna linia pokazuje preferencje płci: dodatnie nachylenie sugeruje uprzedzenie w stosunku do przyjęć mężczyzn. Kolory reprezentują wstęp do określonych działów. We wszystkich przypadkach oprócz dwóch nachylenie linii preferencji płciowej dla danego działu jest ujemne. Jeśli wyniki te zostaną uśrednione razem w modelu logistycznym nie uwzględniającym interakcji, ogólnym efektem jest odwrócenie faworyzowania przyjęć kobiet. Stosowali się do trudniejszych działów częściej niż mężczyźni.
W skrócie nie. Paradoks Simpsona jest jedynie „co”, podczas gdy mylące jest „dlaczego”. Dominująca dyskusja skupiła się na tym, gdzie się zgadzają. Zamieszanie może mieć minimalny lub nieistotny wpływ na oszacowania, a na przemian paradoks Simpsona, choć dramatyczny, może być spowodowany przez osoby nieprzeszkadzające. Uwaga: zmienne „ukryte” lub „czające się” są nieprecyzyjne. Z punktu widzenia epidemiologa staranna kontrola i projekt badań powinny umożliwić pomiar lub kontrolę potencjalnych czynników przyczyniających się do mylącego nastawienia. Nie muszą być „ukryte”, aby stanowić problem.
Są chwile, w których szacunki punktowe mogą się drastycznie różnić, aż do punktu odwrócenia, który nie wynika z pomyłki. Zderzacze i mediatorzy również zmieniają efekty, prawdopodobnie odwracając je. Rozumowanie przyczynowe ostrzega, że do badania efektów główny efekt powinien być badany w oderwaniu, a nie uwzględniać go, ponieważ oszacowanie warstwowe jest błędne. (Jest to podobne do wnioskowania, niepoprawnie, że wizyta u lekarza wywołuje zachorowanie lub że pistolety zabijają ludzi, a zatem ludzie nie zabijają ludzi).
źródło