Prawdopodobnie nie rozumiem paradoksu Simpsona . Nieformalnie wiem, że średnia odpowiedzi Y1, zgrupowana na wszystkich możliwych poziomach czynnika A, może być wyższa niż średnia odpowiedzi Y2 na wszystkich poziomach A, nawet jeśli średnia Y1 dla każdego poziomu A (każdej grupy) wynosi zawsze mniej niż odpowiadająca średnia Y2. Czytałem przykłady, ale wciąż jestem zaskoczony za każdym razem, gdy je widzę, może dlatego, że nie uczę się dobrze na konkretnych przykładach: mam problemy z ich uogólnieniem. Uczę się najlepiej i wolę zobaczyć wyjaśnienie formuł. Czy potrafisz wyjaśnić paradoks oparty na równaniach zamiast zliczać tabele?
Myślę też, że powodem mojego zaskoczenia jest to, że mogę nieświadomie poczynić pewne założenia dotyczące średnich związanych z paradoksem, co może nie być prawdą w ogóle. Może zapomniałem ważyć według liczby próbek w każdej grupie? Ale potem chciałbym zobaczyć równanie, które pokazuje mi, że oszacowanie całkowitej średniej jest dokładniejsze, jeśli ważę średnią każdej grupy według liczby próbek w każdej grupie, ponieważ (jeśli to prawda) nie jest to oczywiste ogólnie dla mnie. Naiwnie sądzę, że oszacowanie ma niższy błąd standardowy, gdy mam więcej próbek, niezależnie od wagi.
Odpowiedzi:
Oto ogólne podejście do algebraicznego rozumienia paradoksu Simpsona dla danych zliczania.
Załóżmy, że mamy dane dotyczące przeżycia dla ekspozycji i tworzymy tabelę zdarzeń awaryjnych 2x2. Dla uproszczenia będziemy mieć takie same liczby w każdej komórce. Moglibyśmy to rozluźnić, ale spowodowałoby to bałagan w algebrze.
W tym przypadku wskaźnik śmiertelności jest taki sam zarówno w grupach narażonych, jak i nienaświetlonych.
Teraz, jeśli podzielimy dane, powiedzmy na jedną grupę dla kobiet i inną grupę dla mężczyzn, otrzymamy 2 tabele, z następującymi liczbami:
Mężczyźni:NarażonyNienaświetlonyZmarłyXzaXdoPrzetrwałXbXreŚmiertelnośćzaa + bdoc + d
a dla kobiet:NarażonyNienaświetlonyZmarłyX( a - 1 )X( c - 1 )PrzetrwałX( b - 1 )X( d- 1 )Śmiertelnośća - 1a + b - 2c - 1c + d- 2
gdziea , b , c , d∈ [ 0 , 1 ] to proporcje każdej komórki w zagregowanej tabeli danych, które są płci męskiej.
Paradoks Simpsona pojawi się, gdy śmiertelność narażonych mężczyzn będzie większa niż śmiertelność nienaświetlonych mężczyzn ORAZ śmiertelność narażonych kobiet jest większa niż śmiertelność nieeksponowanych kobiet. Alternatywnie, nastąpi to również wtedy, gdy śmiertelność narażonych mężczyzn jest mniejsza niż śmiertelność nienaświetlonych mężczyzn ORAZ śmiertelność narażonych kobiet jest mniejsza niż śmiertelność nieeksponowanych kobiet. To jest, kiedy
Jako konkretny przykład niechX= 100 , a a=0.5,b=0.8,c=0.9 . Będziemy mieli paradoks Simpsona, gdy:
Z którego wnioskujemy, że d musi leżeć(0.96,1]
Drugi zestaw nierówności daje:
a dla kobiet:
Tak więc mężczyźni mają wyższą śmiertelność w grupie nie narażonej niż w grupie narażonej, a kobiety również mają wyższy wskaźnik śmiertelności w grupie nie narażonej niż grupa narażona, jednak wskaźniki zgonów w danych zbiorczych są takie same dla narażonych i nienaświetlonych .
źródło
Suppose we have data on 2 variables,x and y , for 2 groups, A and B.
Data in group A are such that the fitted regression line is
with mean values of2 and 9 for x and y respectively.
Data in group B are such that the fitted regression line is
with mean values of11 and 14 for x and y respectively.
So the regression coefficient forx is −1 in both groups.
Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is(2,9) for group A and (11,14) for group B. Then it is easy to see that the overall regression line slope must be (14−9)/(11−2)=0.55 which is the overall regression coefficient for x . Thus we see Simpson’s paradox in action – we have a negative association of x with y w każdej grupie indywidualnie, ale ogólnie pozytywne skojarzenie, gdy dane są agregowane. Możemy to łatwo zademonstrować w R w następujący sposób:
Czerwone punkty i linia regresji to grupa A, niebieskie punkty i linia regresji to grupa B, a czarna linia to ogólna linia regresji.
źródło