Czy potrafisz wyjaśnić paradoks Simpsona równaniami zamiast tabel awaryjnych?

14

Prawdopodobnie nie rozumiem paradoksu Simpsona . Nieformalnie wiem, że średnia odpowiedzi Y1, zgrupowana na wszystkich możliwych poziomach czynnika A, może być wyższa niż średnia odpowiedzi Y2 na wszystkich poziomach A, nawet jeśli średnia Y1 dla każdego poziomu A (każdej grupy) wynosi zawsze mniej niż odpowiadająca średnia Y2. Czytałem przykłady, ale wciąż jestem zaskoczony za każdym razem, gdy je widzę, może dlatego, że nie uczę się dobrze na konkretnych przykładach: mam problemy z ich uogólnieniem. Uczę się najlepiej i wolę zobaczyć wyjaśnienie formuł. Czy potrafisz wyjaśnić paradoks oparty na równaniach zamiast zliczać tabele?

Myślę też, że powodem mojego zaskoczenia jest to, że mogę nieświadomie poczynić pewne założenia dotyczące średnich związanych z paradoksem, co może nie być prawdą w ogóle. Może zapomniałem ważyć według liczby próbek w każdej grupie? Ale potem chciałbym zobaczyć równanie, które pokazuje mi, że oszacowanie całkowitej średniej jest dokładniejsze, jeśli ważę średnią każdej grupy według liczby próbek w każdej grupie, ponieważ (jeśli to prawda) nie jest to oczywiste ogólnie dla mnie. Naiwnie sądzę, że oszacowanie ma niższy błąd standardowy, gdy mam więcej próbek, niezależnie od wagi. $\mathbf{E}[Y_1]$

mathematical-statistics simpsons-paradox DeltaIV
źródło

1

Mam Related Post tutaj z symulacji. Symulacja może być pomocna w zrozumieniu paradoksu

Simpsona

oto maszyna produkująca paradoksy Simpsona na żądanie!

kjetil b halvorsen

11

Oto ogólne podejście do algebraicznego rozumienia paradoksu Simpsona dla danych zliczania.

Załóżmy, że mamy dane dotyczące przeżycia dla ekspozycji i tworzymy tabelę zdarzeń awaryjnych 2x2. Dla uproszczenia będziemy mieć takie same liczby w każdej komórce. Moglibyśmy to rozluźnić, ale spowodowałoby to bałagan w algebrze.

\begin{array}{cccc} Zmarły & Przetrwał & Śmiertelność \\ Narażony & X & X & 0,5 \\ Nienaświetlony & X & X & 0,5 \end{array}

$\begin{array}{|c|c|c|c|} \hline & \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline \text{Exposed} & X & X & 0.5 \\ \hline \text{Unexposed}& X & X & 0.5\\ \hline \end{array}$

W tym przypadku wskaźnik śmiertelności jest taki sam zarówno w grupach narażonych, jak i nienaświetlonych.

Teraz, jeśli podzielimy dane, powiedzmy na jedną grupę dla kobiet i inną grupę dla mężczyzn, otrzymamy 2 tabele, z następującymi liczbami:

Mężczyźni:

\begin{array}{cccc} Zmarły & Przetrwał & Śmiertelność \\ Narażony & X za & X b & \frac{za}{za + b} \\ Nienaświetlony & X do & X re & \frac{do}{do + re} \end{array}

$\begin{array}{|c|c|c|c|} \hline & \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline \text{Exposed} & Xa & Xb & \frac{a}{a+b} \\ \hline \text{Unexposed}& Xc & Xd & \frac{c}{c+d}\\ \hline \end{array}$

a dla kobiet:

\begin{array}{cccc} Zmarły & Przetrwał & Śmiertelność \\ Narażony & X (za - 1) & X (b - 1) & \frac{za - 1}{za + b - 2)} \\ Nienaświetlony & X (do - 1) & X (re - 1) & \frac{do - 1}{do + re - 2)} \end{array}

$\begin{array}{|c|c|c|c|} \hline & \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline \text{Exposed} & X(a-1) & X(b-1) & \frac{a-1}{a+b-2} \\ \hline \text{Unexposed}& X(c-1) & X(d-1) & \frac{c-1}{c+d-2}\\ \hline \end{array}$

gdzie $a,b,c,d \in [0,1]$ to proporcje każdej komórki w zagregowanej tabeli danych, które są płci męskiej.

Paradoks Simpsona pojawi się, gdy śmiertelność narażonych mężczyzn będzie większa niż śmiertelność nienaświetlonych mężczyzn ORAZ śmiertelność narażonych kobiet jest większa niż śmiertelność nieeksponowanych kobiet. Alternatywnie, nastąpi to również wtedy, gdy śmiertelność narażonych mężczyzn jest mniejsza niż śmiertelność nienaświetlonych mężczyzn ORAZ śmiertelność narażonych kobiet jest mniejsza niż śmiertelność nieeksponowanych kobiet. To jest, kiedy

(\frac{za}{za + b} < \frac{do}{do + re}) i (\frac{za - 1}{za + b - 2)} < \frac{do - 1}{do + re - 2)})

$\left(\frac{a}{a+b} < \frac{c}{c+d}\right) \text{ and } \left(\frac{a-1}{a+b-2} < \frac{c-1}{c+d-2}\right)$

Lub

$\text{Or }$

(\frac{za}{za + b} > \frac{do}{do + re}) i (\frac{za - 1}{za + b - 2)} > \frac{do - 1}{do + re - 2)})

$\left(\frac{a}{a+b} > \frac{c}{c+d}\right) \text{ and } \left(\frac{a-1}{a+b-2} > \frac{c-1}{c+d-2}\right)$

Jako konkretny przykład niech $X=100$ , a $a=0.5, b=0.8, c=0.9$ . Będziemy mieli paradoks Simpsona, gdy:

(\frac{0.5}{0.8 + 0.9} < \frac{0.9}{0.9 + d}) and (\frac{0.5 - 1}{0.5 + 0.8 - 2} < \frac{0.9 - 1}{0.9 + d - 2})

$\left(\frac{0.5}{0.8+0.9} < \frac{0.9}{0.9+d}\right) \text{ and } \left(\frac{0.5-1}{0.5+0.8-2} < \frac{0.9-1}{0.9+d-2}\right)$

(- 9 < d < 1.44) and (0.96 < d < 1.1)

$(-9 < d < 1.44) \text{ and } (0.96 < d < 1.1)$

Z którego wnioskujemy, że d musi leżeć $(0.96,1]$

Drugi zestaw nierówności daje:

(\frac{0,5}{0,8 + 0,9} > \frac{0,9}{0,9 + re}) i (\frac{0,5 - 1}{0,5 + 0,8 - 2)} > \frac{0,9 - 1}{0,9 + re - 2)})

$\left(\frac{0.5}{0.8+0.9} > \frac{0.9}{0.9+d}\right) \text{ and } \left(\frac{0.5-1}{0.5+0.8-2} > \frac{0.9-1}{0.9+d-2}\right)$

(re < - 0,9 lub re > 1.44) i (0,96 < re lub re > 1.44)

$(d < -0.9 \text{ or } d>1.44) \text{ and } (0.96 < d \text{ or } d > 1.44)$

$d \in [0,1]$

$a,b,$ $c$ $d$ $0.99$

0,5 / (0,5 + 0,8) = 38 % w grupie narażonej

$0.5/ (0.5+0.8) = 38 \text{% in the exposed group}$

0,9 / (0,9 + 0,99) = 48 % w nienaświetlonej grupie

$0.9/ (0.9+0.99) = 48 \text{% in the unexposed group}$

a dla kobiet:

(0,5 - 1) / (0,5 + 0,8 - 2)) = 71 % w grupie narażonej

$(0.5-1)/ (0.5+0.8-2) = 71 \text{% in the exposed group}$

(0,9 - 1) / (0,9 + 0,99 - 2)) = 91 % w nienaświetlonej grupie

$(0.9-1)/ (0.9+0.99-2) = 91 \text{% in the unexposed group}$

Tak więc mężczyźni mają wyższą śmiertelność w grupie nie narażonej niż w grupie narażonej, a kobiety również mają wyższy wskaźnik śmiertelności w grupie nie narażonej niż grupa narażona, jednak wskaźniki zgonów w danych zbiorczych są takie same dla narażonych i nienaświetlonych .

Robert Long
źródło

16

Suppose we have data on 2 variables, $x$ and $y$ , for 2 groups, A and B.

Data in group A are such that the fitted regression line is

y = 11 - x

$y = 11 - x$

with mean values of $2$ and $9$ for $x$ and $y$ respectively.

Data in group B are such that the fitted regression line is

y = 25 - x

$y = 25 - x$

with mean values of $11$ and $14$ for $x$ and $y$ respectively.

So the regression coefficient for $x$ is $-1$ in both groups.

Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is $(2,9)$ for group A and $(11,14)$ for group B. Then it is easy to see that the overall regression line slope must be $(14-9)/(11-2) = 0.55$ which is the overall regression coefficient for $x$ . Thus we see Simpson’s paradox in action – we have a negative association of $x$ with $y$ w każdej grupie indywidualnie, ale ogólnie pozytywne skojarzenie, gdy dane są agregowane. Możemy to łatwo zademonstrować w R w następujący sposób:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

Czerwone punkty i linia regresji to grupa A, niebieskie punkty i linia regresji to grupa B, a czarna linia to ogólna linia regresji.

Robert Long
źródło

Cześć, dzięki za odpowiedź, ale to kolejny konkretny przykład paradoksu Simpsona. Poprosiłem konkretnie o coś w postaci twierdzenia lub zestawu równań, bardziej abstrakcyjnego i ogólnego podejścia. W każdym razie, ponieważ nie ma innych odpowiedzi, przestudiuję twój przykład i jeśli uważam, że pomaga mi to uogólnić pojęcie, przyjmuję odpowiedź.

DeltaIV

3

@DeltaIV Napisałem nową odpowiedź używając czysto algebraicznych argumentów.

Robert Long,

Czy potrafisz wyjaśnić paradoks Simpsona równaniami zamiast tabel awaryjnych?

Odpowiedzi: