Wyobrażać sobie
- Prowadzisz regresję liniową za pomocą czterech predyktorów numerycznych (IV1, ..., IV4)
- Gdy jako predyktor uwzględniono tylko IV1, standaryzowana jest beta
+.20
- Gdy uwzględnisz także IV2 do IV4, znak znormalizowanego współczynnika regresji IV1 zmienia się na
-.25
(tzn. Staje się ujemny).
Rodzi to kilka pytań:
- Jeśli chodzi o terminologię, czy nazywacie to „efektem tłumiącym”?
- Jakie strategie zastosowałbyś do wyjaśnienia i zrozumienia tego efektu?
- Czy masz jakieś przykłady takich efektów w praktyce i jak wyjaśniłeś i zrozumiałeś te efekty?
regression
predictor
Jeromy Anglim
źródło
źródło
Odpowiedzi:
Wielokoliniowość jest zwykle podejrzanym, jak wspomniał JoFrhwld. Zasadniczo, jeśli twoje zmienne są dodatnio skorelowane, wówczas współczynniki będą skorelowane ujemnie, co może prowadzić do błędnego znaku na jednym ze współczynników.
Jednym z nich byłoby wykonanie regresji głównych składników lub regresji kalenicowej. Zmniejsza to wymiarowość przestrzeni regresji, obsługując wielokoliniowość. Skończysz z tendencyjnymi szacunkami, ale prawdopodobnie niższym MSE i poprawionymi znakami. Niezależnie od tego, czy wybierasz te konkretne wyniki, czy nie, jest to dobra kontrola diagnostyczna. Jeśli nadal pojawiają się zmiany znaków, może to być teoretycznie interesujące.
AKTUALIZACJA
Po komentarzu w odpowiedzi Johna Christie może to być interesujące. Odwrócenie w powiązaniu (wielkość lub kierunek) to przykłady Paradoksu Simpsona, Paradoksu Lorda i Efektu Tłumienia. Różnice dotyczą głównie rodzaju zmiennej. Bardziej przydatne jest zrozumienie podstawowego zjawiska niż myślenie w kategoriach konkretnego „paradoksu” lub efektu. Z przyczyn przyczynowych poniższy artykuł dobrze wyjaśnia, dlaczego, i przytoczę szczegółowo ich wprowadzenie i wnioski, aby pobudzić apetyt.
źródło
Wierzę, że takie skutki są często spowodowane kolinearnością (patrz to pytanie ). Myślę, że książka o modelowaniu wielopoziomowym autorstwa Gelmana i Hilla mówi o tym. Problem polega na tym, że
IV1
jest on skorelowany z jednym lub kilkoma innymi predyktorami, a gdy wszystkie są uwzględnione w modelu, ich oszacowanie staje się nieregularne.Jeśli przerzucanie współczynnika wynika z kolinearności, raportowanie nie jest tak naprawdę interesujące, ponieważ nie wynika to z relacji między predyktorami a wynikiem, ale z powodu relacji między predyktorami.
Sugerowane przeze mnie rozwiązanie tego problemu to resualizacja. Najpierw dopasujesz model
IV2 ~ IV1
, a następnie weź pozostałości tego modelu jakorIV2
. Jeśli wszystkie zmienne są skorelowane, powinieneś naprawdę zmienić ich położenie. Możesz to zrobić takTeraz dopasuj ostateczny model do
Teraz współczynnik dla
rIV2
reprezentuje niezależny efektIV2
danej korelacji zIV1
. Słyszałem, że nie uzyskasz tego samego rezultatu, jeśli dokonałeś rezydalizacji w innej kolejności, a wybranie kolejności rezydencji jest naprawdę decyzją w ramach twoich badań.źródło
O
, a twoimi predyktorami sąIncome
iFather's Income
.Income
Skorelowany z nim fakt jest zFather's Income
natury interesujący, ale fakt ten byłby prawdziwy bez względu na wartośćO
. Oznacza to, że możesz ustalić, żeO
wszystkie predyktory są współliniowe bez gromadzenia danych o wynikach, a nawet wiedząc, jaki jest wynik! Fakty te nie powinny się szczególnie bardziej interesujące, gdy wiesz, żeO
jest naprawdęEducation
.Zobacz paradoks Simpsona . Krótko mówiąc, główny obserwowany efekt może ulec odwróceniu po dodaniu interakcji do modelu. Na połączonej stronie większość przykładów jest kategoryczna, ale u góry strony znajduje się liczba, którą można sobie wyobrazić w sposób ciągły. Na przykład, jeśli masz predyktor jakościowy i ciągły, to predyktor ciągły może łatwo przerzucić znak, jeśli kategoryczny zostanie dodany, aw każdej kategorii znak różni się od ogólnego wyniku.
źródło