Przerzucanie znaków podczas dodawania jeszcze jednej zmiennej w regresji i o znacznie większej wielkości

9

Podstawowe ustawienia:

Model regresji: y=constant+β1x1+β2x2+β3x3+β4x4+αC+ϵ gdzie C jest wektorem zmiennych kontrolnych.

Interesuję się β i oczekuj β1 i β2być negatywnym. W modelu występuje jednak problem wielokoliniowości, współczynnik korelacji podaje: corr (x1,x2)= 0,9345, corr (x1,x3)= 0,1765, corr (x2,x3)= 0,3019.

Więc x1 i x2są wysoce skorelowane i powinny właściwie dostarczać te same informacje. Prowadzę trzy regresje:

  1. wykluczać x1zmienna; 2. wykluczyćx2zmienna; 3. oryginalny model z obydwomax1 i x2.

Wyniki:
Dla regresji 1 i 2 zapewnia oczekiwany znakβ2 i β1odpowiednio i o podobnej wielkości. Iβ2 i β1 są znaczące na poziomie 10% w obu modelach po wykonaniu korekcji HAC w błędzie standardowym. β3 jest dodatni, ale nieistotny w obu modelach.

Ale za 3 β1 ma oczekiwany znak, ale znak dla β2 jest dodatni z wielkością dwukrotnie większą niż β1w wartości bezwzględnej. I obojeβ1 i β2są nieistotne. Co więcej, wielkość dlaβ3 zmniejsza się prawie o połowę w porównaniu z regresją 1 i 2.

Moje pytanie brzmi:

Dlaczego za 3, znak β2 staje się pozytywny i znacznie większy niż β1w wartości bezwzględnej? Czy ma to jakiś statystyczny powód?β2może odwrócić znak i ma dużą wielkość? A może dlatego, że model 1 i 2 cierpią z powodu pomijanego problemu zmiennej, który się zawyżałβ3 opatrzony x2ma pozytywny wpływ na Ciebie? Ale potem w modelu regresji 1 i 2, obaβ2 i β1 powinien być dodatni zamiast ujemny, ponieważ całkowity efekt x1 i x2 w regresji model 3 jest dodatni.

ting
źródło

Odpowiedzi:

8

Pomyśl o tym przykładzie:

Zbierz zestaw danych na podstawie monet w kieszeniach narodowych, zmienna y / odpowiedź to całkowita wartość monet, zmienna x1 to całkowita liczba monet, a x2 to liczba monet, które nie są ćwiartkami (lub jakąkolwiek największą wartością wspólnych monet są dla lokalnych).

Łatwo zauważyć, że regresja z x1 lub x2 dałaby dodatnie nachylenie, ale przy włączeniu obu w modelu nachylenie na x2 byłoby ujemne, ponieważ zwiększenie liczby mniejszych monet bez zwiększenia całkowitej liczby monet oznaczałoby zastąpienie duże monety z mniejszymi i zmniejszające ogólną wartość (y).

To samo może się zdarzyć za każdym razem, gdy masz skorelowane zmienne x, znaki mogą łatwo być przeciwne, gdy termin jest sam w sobie i w obecności innych.

Greg Snow
źródło
3

Odpowiedziałeś na swoje pytanie - istnieje kolinearność.

Trochę wyjaśnienia: x1 i x2są wysoce kolinearne. Ale kiedy wpiszesz oba do regresji, regresja próbuje kontrolować wpływ innych zmiennych. Innymi słowy, przytrzymajx1 stała, w czym się zmieniają x2 zrobić, by y. Ale fakt, że są tak ściśle powiązane, oznacza, że ​​to pytanie jest głupie i mogą się zdarzyć dziwne rzeczy.

Peter Flom
źródło
Wielkie dzięki. Ale ponieważ w teorii wielokolonowość wpływa tylko na wariancję, ale nie wpływa na ogólną moc predykcyjną wysoce skorelowanych zmiennych, pomyślałemβ1x1+β2x2 w modelu 3 powinien zapewniać podobny wynik jak β2x2 w modelu 1 lub β1x1w modelu 2, ponieważ korelacja par x1 x2 z x3 nie jest wysoka (w rzeczywistości jest to moja myląca część). Ponieważ jednak korelacja może być naprawdę nieuporządkowana i w praktyce nie powinienem się tego spodziewać, ponieważ mój model jest jedynie przybliżeniem MZD i korelacja z innymi zmiennymi ma znaczenie.
ting
Jeśli chcesz zrozumieć matematykę, bardzo polecam książki Davida Belsleya.
Peter Flom
Świetnie, dziękuję bardzo !!! Tylko o książki z biblioteki :)
ting
2

Dlaczego w 3 znak β2 staje się dodatni i znacznie większy niż β1 w wartości bezwzględnej? Czy istnieje jakiś statystyczny powód, dla którego β2 może odwrócić znak i ma dużą wielkość?

Prosta odpowiedź brzmi: nie ma głębokiego powodu.

Można myśleć o tym tak, że gdy wielokoliniowe podejście zbliża się idealnie, konkretne wartości, które ostatecznie uzyskujesz z dopasowania, stają się coraz bardziej zależne od coraz mniejszych szczegółów danych. Jeśli próbkujesz tę samą ilość danych z tego samego rozkładu podstawowego, a następnie dopasowujesz, możesz uzyskać zupełnie inne dopasowane wartości.

oneloop
źródło