Czy przyczyną regresji jest brak pominiętych zmiennych?

13

Regresję y w x nie musi być przyczynowy, jeżeli pominięto zmienne, które mają wpływ zarówno x i y . Ale jeśli nie w przypadku pominiętych zmiennych i błędu pomiaru, to czy regresja jest przyczyną? To znaczy, czy regresja obejmuje każdą możliwą zmienną?

Esza
źródło
4
Nie, nawet jeśli uwzględnisz każdą zmienną na świecie, może to być odwrotna przyczyna. Na przykład bliskość planety do najbliższej gwiazdy można dokładnie przewidzieć na podstawie temperatury powierzchni planety, ale wyraźnie przyczynowość idzie w drugą stronę
gazza89,
@ gazza89 - ponieważ to skutecznie odpowiada na pytanie, możesz chcieć rozwinąć je w odpowiedź.
jbowman
3
Co to są „zmienne pominięte”? Załóżmy, że mam w zestawie danych Y i 4 X. Pasuję do modelu zawierającego wszystkie 4 X-y. Więc nie mam pominiętych zmiennych?
user158565,

Odpowiedzi:

20

Nie, nie, pokażę wam kilka kontrprzykładów.

Pierwszym z nich jest odwrotna przyczyna . Rozważmy, że modelem przyczynowym jest YX , gdzie X i Y są standardowymi zmiennymi losowymi gaussowskimi. Następnie E[Y|do(x)]=0 , ponieważ X nie powoduje Y , ale E[Y|x] zależy od X .

Drugi przykład to kontrola zderzaczy (patrz tutaj ). Rozważmy model przyczynowy XZY , to znaczy X nie powoduje Y a Z jest częstą przyczyną. Pamiętaj jednak, że jeśli uruchomisz regresję obejmującą Z , współczynnik regresji X nie będzie wynosił zero, ponieważ uwarunkowanie wspólnej przyczyny spowoduje powiązanie między Y i X (możesz również zobaczyć tutaj Analiza ścieżki w obecności Zderzak warunkowany ).

Mówiąc bardziej ogólnie, regresja Y na X będzie przyczynowa, jeśli zmienne zawarte w regresji spełniają kryterium backdoora .

Carlos Cinelli
źródło
3
Gorąco polecam Book of Why autorstwa Judei Pearl. Dokładnie wyjaśnia, o czym mówi Carlos.
Markos Kashiouris
3
do(x)
5
@ naught101 oznacza to, że faktycznie wymuszasz X = x, w przeciwieństwie do biernego obserwowania X = x, zobacz tutaj stats.stackexchange.com/questions/211008/dox-operator-meaning/...
Carlos Cinelli
XZYZXY
xyz
6

Oprócz ważnej odpowiedzi Carlosa Cinelli na to pytanie istnieje jeszcze kilka powodów, dla których współczynniki regresji mogą nie być przyczynowe.

XYXE(YX)=X2YXX2XY

Po drugie, i związane z tematem odwrotnej przyczynowości, istnieje również ryzyko, że możesz mieć uprzedzenie selekcyjne , tj. Że twoja próbka została wybrana w taki sposób, że nie jest reprezentatywna dla populacji, do której chcesz wyciągnąć wnioski. Ponadto brakujące dane mogą również powodować błąd systematyczny, jeśli dane nie zostaną całkowicie przypadkowo usunięte.

Phil
źródło