Czy potrafisz wyjaśnić paradoks Simpsona równaniami zamiast tabel awaryjnych?

14

Prawdopodobnie nie rozumiem paradoksu Simpsona . Nieformalnie wiem, że średnia odpowiedzi Y1, zgrupowana na wszystkich możliwych poziomach czynnika A, może być wyższa niż średnia odpowiedzi Y2 na wszystkich poziomach A, nawet jeśli średnia Y1 dla każdego poziomu A (każdej grupy) wynosi zawsze mniej niż odpowiadająca średnia Y2. Czytałem przykłady, ale wciąż jestem zaskoczony za każdym razem, gdy je widzę, może dlatego, że nie uczę się dobrze na konkretnych przykładach: mam problemy z ich uogólnieniem. Uczę się najlepiej i wolę zobaczyć wyjaśnienie formuł. Czy potrafisz wyjaśnić paradoks oparty na równaniach zamiast zliczać tabele?

Myślę też, że powodem mojego zaskoczenia jest to, że mogę nieświadomie poczynić pewne założenia dotyczące średnich związanych z paradoksem, co może nie być prawdą w ogóle. Może zapomniałem ważyć według liczby próbek w każdej grupie? Ale potem chciałbym zobaczyć równanie, które pokazuje mi, że oszacowanie całkowitej średniej jest dokładniejsze, jeśli ważę średnią każdej grupy według liczby próbek w każdej grupie, ponieważ (jeśli to prawda) nie jest to oczywiste ogólnie dla mnie. Naiwnie sądzę, że oszacowanie ma niższy błąd standardowy, gdy mam więcej próbek, niezależnie od wagi.mi[Y1]

DeltaIV
źródło
1
Mam Related Post tutaj z symulacji. Symulacja może być pomocna w zrozumieniu paradoksu
Simpsona
oto maszyna produkująca paradoksy Simpsona na żądanie!
kjetil b halvorsen

Odpowiedzi:

11

Oto ogólne podejście do algebraicznego rozumienia paradoksu Simpsona dla danych zliczania.

Załóżmy, że mamy dane dotyczące przeżycia dla ekspozycji i tworzymy tabelę zdarzeń awaryjnych 2x2. Dla uproszczenia będziemy mieć takie same liczby w każdej komórce. Moglibyśmy to rozluźnić, ale spowodowałoby to bałagan w algebrze.

ZmarłyPrzetrwałŚmiertelnośćNarażonyXX0,5NienaświetlonyXX0,5

W tym przypadku wskaźnik śmiertelności jest taki sam zarówno w grupach narażonych, jak i nienaświetlonych.

Teraz, jeśli podzielimy dane, powiedzmy na jedną grupę dla kobiet i inną grupę dla mężczyzn, otrzymamy 2 tabele, z następującymi liczbami:

Mężczyźni:

ZmarłyPrzetrwałŚmiertelnośćNarażonyXzaXbzaza+bNienaświetlonyXdoXredodo+re

a dla kobiet:

ZmarłyPrzetrwałŚmiertelnośćNarażonyX(za-1)X(b-1)za-1za+b-2)NienaświetlonyX(do-1)X(re-1)do-1do+re-2)

gdzie za,b,do,re[0,1] to proporcje każdej komórki w zagregowanej tabeli danych, które są płci męskiej.

Paradoks Simpsona pojawi się, gdy śmiertelność narażonych mężczyzn będzie większa niż śmiertelność nienaświetlonych mężczyzn ORAZ śmiertelność narażonych kobiet jest większa niż śmiertelność nieeksponowanych kobiet. Alternatywnie, nastąpi to również wtedy, gdy śmiertelność narażonych mężczyzn jest mniejsza niż śmiertelność nienaświetlonych mężczyzn ORAZ śmiertelność narażonych kobiet jest mniejsza niż śmiertelność nieeksponowanych kobiet. To jest, kiedy

(zaza+b<dodo+re) i (za-1za+b-2)<do-1do+re-2))

Lub 

(zaza+b>dodo+re) i (za-1za+b-2)>do-1do+re-2))

Jako konkretny przykład niech X=100 , a a=0.5,b=0.8,c=0.9 . Będziemy mieli paradoks Simpsona, gdy:

(0.50.8+0.9<0.90.9+d) and (0.510.5+0.82<0.910.9+d2)

(9<d<1.44) and (0.96<d<1.1)

Z którego wnioskujemy, że d musi leżeć (0.96,1]

Drugi zestaw nierówności daje:

(0,50,8+0,9>0,90,9+re) i (0,5-10,5+0,8-2)>0,9-10,9+re-2))

(re<-0,9 lub re>1.44) i (0,96<re lub re>1.44)

re[0,1]

za,b,dore0,99

0,5/(0,5+0,8)=38% w grupie narażonej
0,9/(0,9+0,99)=48% w nienaświetlonej grupie

a dla kobiet:

(0,5-1)/(0,5+0,8-2))=71% w grupie narażonej
(0,9-1)/(0,9+0,99-2))=91% w nienaświetlonej grupie

Tak więc mężczyźni mają wyższą śmiertelność w grupie nie narażonej niż w grupie narażonej, a kobiety również mają wyższy wskaźnik śmiertelności w grupie nie narażonej niż grupa narażona, jednak wskaźniki zgonów w danych zbiorczych są takie same dla narażonych i nienaświetlonych .

Robert Long
źródło
16

Suppose we have data on 2 variables, x and y, for 2 groups, A and B.

Data in group A are such that the fitted regression line is

y=11x

with mean values of 2 and 9 for x and y respectively.

Data in group B are such that the fitted regression line is

y=25x

with mean values of 11 and 14 for x and y respectively.

So the regression coefficient for x is 1 in both groups.

Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is (2,9) for group A and (11,14) for group B. Then it is easy to see that the overall regression line slope must be (149)/(112)=0.55 which is the overall regression coefficient for x. Thus we see Simpson’s paradox in action – we have a negative association of x with yw każdej grupie indywidualnie, ale ogólnie pozytywne skojarzenie, gdy dane są agregowane. Możemy to łatwo zademonstrować w R w następujący sposób:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

wprowadź opis zdjęcia tutaj

Czerwone punkty i linia regresji to grupa A, niebieskie punkty i linia regresji to grupa B, a czarna linia to ogólna linia regresji.

Robert Long
źródło
Cześć, dzięki za odpowiedź, ale to kolejny konkretny przykład paradoksu Simpsona. Poprosiłem konkretnie o coś w postaci twierdzenia lub zestawu równań, bardziej abstrakcyjnego i ogólnego podejścia. W każdym razie, ponieważ nie ma innych odpowiedzi, przestudiuję twój przykład i jeśli uważam, że pomaga mi to uogólnić pojęcie, przyjmuję odpowiedź.
DeltaIV
3
@DeltaIV Napisałem nową odpowiedź używając czysto algebraicznych argumentów.
Robert Long,