Czy istnieje różnica między „kontrolowaniem” i „ignorowaniem” innych zmiennych w regresji wielokrotnej?

50

Współczynnik zmiennej objaśniającej w regresji wielokrotnej mówi nam o związku tej zmiennej objaśniającej ze zmienną zależną. Wszystko to podczas „kontrolowania” pozostałych zmiennych objaśniających.

Jak do tej pory go przeglądałem:

Podczas obliczania każdego współczynnika inne zmienne nie są brane pod uwagę, więc uważam je za ignorowane.

Czy mam zatem rację, gdy uważam, że terminów „kontrolowany” i „ignorowany” można używać zamiennie?

Siddharth Gopi
źródło
2
Nie byłem tak zachwycony tym pytaniem, dopóki nie zobaczyłem dwóch osób, które zainspirowały @gung do zaoferowania.
DW
1
Nie byłeś świadomy rozmowy, którą prowadziliśmy w innym miejscu, która uzasadniła to pytanie, @DWin. Zbyt wiele było próby wyjaśnienia tego w komentarzu, więc poprosiłem PO o formalne pytanie. Wydaje mi się, że wyraźne podkreślenie rozróżnienia b / t ignorowania i kontrolowania innych zmiennych w regresji jest świetnym pytaniem i cieszę się, że zostało tu omówione.
gung - Przywróć Monikę
2
zobacz także pierwszy schemat tutaj
Glen_b,
1
Czy dane wykorzystane w tym pytaniu są dostępne, abyśmy mogli sami je przeprowadzić jako próbę edukacyjną.
Larry,

Odpowiedzi:

88

Kontrolowanie czegoś i ignorowanie czegoś to nie to samo. Rozważmy wszechświat, w którym istnieją tylko 3 zmienne: , i . Chcemy zbudować model regresji, który przewiduje , i jesteśmy szczególnie zainteresowani jego relacją z . Istnieją dwie podstawowe możliwości. X 1 X 2 Y X 1YX1X2YX1

  1. Mogliśmy ocenić związek pomiędzy i , podczas sterowania na : lub Y X 2 Y = β 0 + β 1 X 1 + β 2 X 2X1YX2
    Y=β0+β1X1+β2X2
  2. moglibyśmy ocenić związek między i , ignorując : Y X 2X1Y X2

    Y=β0+β1X1

To prawda, są to bardzo proste modele, ale stanowią one różne sposoby patrzenia na to, jak relacje między i przejawia. Często szacowane s mogą być podobne w obu modelach, ale mogą być zupełnie inne. Najważniejsze w określeniu ich różnic jest relacja (lub jej brak) między i . Rozważ tę liczbę: Y β 1 X 1 X 2X1Yβ^1X1X2

wprowadź opis zdjęcia tutaj

W tym scenariuszu jest skorelowane z . Ponieważ wykres jest dwuwymiarowy, w pewnym sensie ignoruje (być może ironicznie), więc wskazałem wartości dla każdego punktu za pomocą różnych symboli i kolorów (poniższy wykres pseudo-3D zapewnia inny sposób próby wyświetlenia struktury danych). Jeśli dopasujemy model regresji, który ignoruje , otrzymamy ciągłą czarną linię regresji. Gdybyśmy dopasowali model, który kontrolował dla , otrzymalibyśmy płaszczyznę regresji, która znów jest trudna do wykreślenia, więc narysowałem trzy przekroje w tej płaszczyźnie, gdzie , , aX 2 X 2 X 2 X 2 X 2 X 2 = 1 X 2 = 2 X 2 = 3 X 1 Y X 2 X 2X1X2X2X2 X2X2X2=1X2=2X2=3. Tak więc, mamy linie, które pokazują związek między i , które posiadają kiedy kontrolować za . Warto zauważyć, że kontrolowanie nie daje ani jednej linii, ale zestawu linii. X1YX2 X2

wprowadź opis zdjęcia tutaj

Innym sposobem myślenia o rozróżnieniu między ignorowaniem i kontrolowaniem innej zmiennej jest rozważenie różnicy między rozkładem krańcowym a rozkładem warunkowym . Rozważ tę liczbę:

wprowadź opis zdjęcia tutaj

( To pochodzi z mojej odpowiedzi tutaj: jaka jest intuicja kryjąca się za warunkowymi rozkładami Gaussa? )

Jeśli spojrzeć na krzywą normalną poprowadzoną na lewo od głównego rysunku, który jest marginalny dystrybucja . Jest to dystrybucja jeśli ignorować jego relacje z . Na głównej figurze są dwie normalne krzywe reprezentujące rozkłady warunkowe gdy i . Rozkłady warunkowe kontrolują poziom , podczas gdy rozkład krańcowy go ignoruje . Y X Y X 1 = 25 X 1 = 45 X 1YYXYX1=25X1=45X1

gung - Przywróć Monikę
źródło
2
Gung, to jest pouczające, cieszę się, że popełniłem błąd, używając słowa „ignoruj” w mojej odpowiedzi na to pytanie. Teraz spróbuję dowiedzieć się, jak dokładnie pakiety statystyczne „kontrolują” pozostałe zmienne. (Moja pierwsza myśl jest taka, że ​​używają pewnej miary, takiej jak współczynnik korelacji Pearsona. Przy wielu zmiennych objaśniających, sprawy by się popsuły) Dziękuję za tę odpowiedź!
Siddharth Gopi,
1
Nie ma za co, @garciaj, chociaż jeszcze nie skończyłem ;-). Szukam innej postaci; Może będę musiał zrobić to od zera.
gung - Przywróć Monikę
4
Kluczową ideą na pierwszym rysunku jest to, że punkty te leżą w trójwymiarowej przestrzeni, w / czerwone kółka na płaskiej płaszczyźnie na ekranie komputera, niebieskie trójkąty na płaszczyźnie równoległej nieco przed ekranem i zielony plusy w samolocie nieco przed tym. Płaszczyzna regresji pochyla się w dół w prawo, ale pochyla się w górę, gdy przesuwa się z ekranu w twoją stronę. Należy zauważyć, że zjawisko to występuje, ponieważ X1 i X2 są skorelowane, gdyby były nieskorelowane, szacowane bety byłyby takie same.
gung - Przywróć Monikę
1
Ten rodzaj korelacji między predyktorami (np. Scenariusz @gung) jest zwykle przyczyną paradoksu Simpsona . We wszechświecie z więcej niż trzema zmiennymi dobrze jest pamiętać, że może to czaić się twoje wnioski (d'oh!).
FairMiles,
2
@MSIS, gdy kontrolujesz zmienną w modelu, model próbuje utrzymać ją na stałym poziomie (ustaloną) w celu oszacowania całej reszty w modelu. Jest to jednak tylko próba i podlega losowemu błędowi, więc niekoniecznie musi być identyczna z tym, co byś otrzymał, gdybyś przeprowadził badanie z / zmienną fizycznie ustaloną dla danej wartości.
gung - Przywróć Monikę
8

Są one nie ignorowane. Gdyby zostali „zignorowani”, nie byliby w tym modelu. Oszacowanie zmiennej objaśniającej zainteresowania jest uwarunkowane od innych zmiennych. Oszacowanie jest tworzone „w kontekście” lub „uwzględniając wpływ” innych zmiennych w modelu.

DWin
źródło
Oszacowanie podlega oczywiście innym zmiennym. Ale musimy to oczyścić, wprowadzając do modelu tak zwane inne czynniki. Czasami jednak czynniki te mogą mieć charakter kategoryczny i powodować więcej problemów niż dać prawidłowe rozwiązanie.
Subhash C. Davar,