Jaka jest różnica między kontrolowaniem zmiennej w modelu regresji a kontrolowaniem zmiennej w projekcie badania?

11

Wyobrażam sobie, że kontrolowanie zmiennej w projekcie badania jest bardziej skuteczne w zmniejszaniu błędu niż kontrolowanie jej post hoc w modelu regresji.

Czy ktoś mógłby wyjaśnić formalnie, czym różnią się te dwa przypadki „kontrolowania”? Jak stosunkowo są skuteczne w zmniejszaniu błędów i uzyskiwaniu dokładniejszych prognoz?

mrt
źródło

Odpowiedzi:

13

Przez „kontrolowanie zmiennej w projekcie badania” zakładam, że masz na myśli spowodowanie, aby zmienna była stała we wszystkich jednostkach badawczych lub manipulowanie zmienną, aby poziom tej zmiennej był niezależnie ustawiony dla każdej jednostki badawczej. Oznacza to, że kontrolowanie zmiennej w projekcie badania oznacza, że ​​przeprowadzasz prawdziwy eksperyment . Zaletą tego jest to, że może pomóc w wnioskowaniu o przyczynowości .

Teoretycznie kontrolowanie zmiennej w modelu regresji może również pomóc w wnioskowaniu o przyczynowości. Jednak dzieje się tak tylko wtedy, gdy kontrolujesz każdą zmienną, która ma bezpośredni związek przyczynowy z odpowiedzią. Jeśli pominiesz taką zmienną (być może nie wiedziałeś, że ją uwzględnić) i jest ona skorelowana z dowolną inną zmienną, wówczas twoje wnioski przyczynowe będą tendencyjne i niepoprawne. W praktyce nie znamy wszystkich istotnych zmiennych, więc kontrola statystyczna jest dość trudnym przedsięwzięciem, które opiera się na dużych założeniach, których nie można sprawdzić.

Twoje pytanie dotyczy jednak „ograniczenia błędów i uzyskania bardziej precyzyjnych prognoz”, a nie wnioskowania o przyczynowości. To inny problem. Gdybyś miał uczynić daną zmienną stałą w swoim projekcie badania, cała zmienność odpowiedzi spowodowana tą zmienną zostałaby wyeliminowana. Z drugiej strony, jeśli po prostu kontrolujesz zmienną, szacujesz jej efekt, który podlega co najmniej błędowi próbkowania . Innymi słowy, kontrola statystyczna nie byłaby tak dobra na dłuższą metę w zmniejszaniu resztkowej wariancji w próbie.

Ale jeśli chcesz zmniejszyć liczbę błędów i uzyskać bardziej precyzyjne prognozy, prawdopodobnie zależy Ci przede wszystkim na właściwościach próbki, a nie na precyzji w próbce. I na tym polega pocieranie. Kiedy kontrolujesz zmienną, manipulując nią w jakiejś formie (utrzymując ją na stałym poziomie itp.), Tworzysz sytuację, która jest bardziej sztuczna niż oryginalna, naturalna obserwacja. Oznacza to, że eksperymenty mają tendencję do mniejszej zewnętrznej wiarygodności / uogólnienia niż badania obserwacyjne.


W przypadku, gdy nie jest to jasne, przykładem prawdziwego eksperymentu, który utrzymuje coś stałego, może być ocena leczenia w modelu mysim przy użyciu wsobnych myszy, które są genetycznie identyczne. Z drugiej strony przykładem kontrolowania zmiennej może być przedstawienie historii choroby w rodzinie za pomocą fałszywego kodu i włączenie tej zmiennej do modelu regresji wielokrotnej (por. Jak dokładnie jedna „kontroluje inne zmienne”? I jak czy dodanie drugiego IV może sprawić, że pierwszy IV będzie znaczący? ).

gung - Przywróć Monikę
źródło
1
Świetne wyjaśnienia! @gung
Aaron Zeng