Współczynnik zmiennej objaśniającej w regresji wielokrotnej mówi nam o związku tej zmiennej objaśniającej ze zmienną zależną. Wszystko to podczas „kontrolowania” pozostałych zmiennych objaśniających.
Jak do tej pory go przeglądałem:
Podczas obliczania każdego współczynnika inne zmienne nie są brane pod uwagę, więc uważam je za ignorowane.
Czy mam zatem rację, gdy uważam, że terminów „kontrolowany” i „ignorowany” można używać zamiennie?
regression
multiple-regression
Siddharth Gopi
źródło
źródło
Odpowiedzi:
Kontrolowanie czegoś i ignorowanie czegoś to nie to samo. Rozważmy wszechświat, w którym istnieją tylko 3 zmienne: , i . Chcemy zbudować model regresji, który przewiduje , i jesteśmy szczególnie zainteresowani jego relacją z . Istnieją dwie podstawowe możliwości. X 1 X 2 Y X 1Y X1 X2 Y X1
moglibyśmy ocenić związek między i , ignorując : Y X 2X1 Y X2
To prawda, są to bardzo proste modele, ale stanowią one różne sposoby patrzenia na to, jak relacje między i przejawia. Często szacowane s mogą być podobne w obu modelach, ale mogą być zupełnie inne. Najważniejsze w określeniu ich różnic jest relacja (lub jej brak) między i . Rozważ tę liczbę: Y β 1 X 1 X 2X1 Y β^1 X1 X2
W tym scenariuszu jest skorelowane z . Ponieważ wykres jest dwuwymiarowy, w pewnym sensie ignoruje (być może ironicznie), więc wskazałem wartości dla każdego punktu za pomocą różnych symboli i kolorów (poniższy wykres pseudo-3D zapewnia inny sposób próby wyświetlenia struktury danych). Jeśli dopasujemy model regresji, który ignoruje , otrzymamy ciągłą czarną linię regresji. Gdybyśmy dopasowali model, który kontrolował dla , otrzymalibyśmy płaszczyznę regresji, która znów jest trudna do wykreślenia, więc narysowałem trzy przekroje w tej płaszczyźnie, gdzie , , aX 2 X 2 X 2 X 2 X 2 X 2 = 1 X 2 = 2 X 2 = 3 X 1 Y X 2 X 2X1 X2 X2 X2 X2 X2 X2=1 X2=2 X2=3 . Tak więc, mamy linie, które pokazują związek między i , które posiadają kiedy kontrolować za . Warto zauważyć, że kontrolowanie nie daje ani jednej linii, ale zestawu linii. X1 Y X2 X2
Innym sposobem myślenia o rozróżnieniu między ignorowaniem i kontrolowaniem innej zmiennej jest rozważenie różnicy między rozkładem krańcowym a rozkładem warunkowym . Rozważ tę liczbę:
( To pochodzi z mojej odpowiedzi tutaj: jaka jest intuicja kryjąca się za warunkowymi rozkładami Gaussa? )
Jeśli spojrzeć na krzywą normalną poprowadzoną na lewo od głównego rysunku, który jest marginalny dystrybucja . Jest to dystrybucja jeśli ignorować jego relacje z . Na głównej figurze są dwie normalne krzywe reprezentujące rozkłady warunkowe gdy i . Rozkłady warunkowe kontrolują poziom , podczas gdy rozkład krańcowy go ignoruje . Y X Y X 1 = 25 X 1 = 45 X 1Y Y X Y X1=25 X1=45 X1
źródło
Są one nie ignorowane. Gdyby zostali „zignorowani”, nie byliby w tym modelu. Oszacowanie zmiennej objaśniającej zainteresowania jest uwarunkowane od innych zmiennych. Oszacowanie jest tworzone „w kontekście” lub „uwzględniając wpływ” innych zmiennych w modelu.
źródło