Nauczyłem się w mojej klasie modeli liniowych, że jeśli dwa predyktory są skorelowane i oba są zawarte w modelu, jeden będzie nieistotny. Załóżmy na przykład, że wielkość domu i liczba sypialni są skorelowane. Podczas prognozowania kosztu domu za pomocą tych dwóch predyktorów jeden z nich można upuścić, ponieważ oba zapewniają wiele takich samych informacji. Intuicyjnie ma to sens, ale mam kilka technicznych pytań:
- W jaki sposób efekt ten przejawia się w wartościach p współczynników regresji, gdy uwzględnia się tylko jeden lub oba predyktory w modelu?
- Jak na zmienność współczynników regresji wpływa wpływ obu predyktorów w modelu lub tylko jeden?
- Skąd mam wiedzieć, który predyktor wybierze model jako mniej istotny?
- W jaki sposób uwzględnienie tylko jednego lub obu predyktorów zmienia wartość / wariancję moich prognozowanych kosztów?
regression
multiple-regression
p-value
linear-model
multicollinearity
Vivek Subramanian
źródło
źródło
Odpowiedzi:
Temat, o który pytasz, to wielokoliniowość . Możesz przeczytać niektóre wątki na CV skategoryzowane pod tagiem wielokoliniowości . Warto również poświęcić czas na powyższą odpowiedź @ whubera, do której odsyłam powyżej .
Twierdzenie, że „jeśli dwa predyktory są skorelowane i oba są zawarte w modelu, jeden będzie nieistotny”, nie jest poprawne. Jeśli istnieje rzeczywisty wpływ zmiennej, prawdopodobieństwo, że zmienna będzie znacząca, jest funkcją kilku rzeczy, takich jak wielkość efektu, wielkość wariancji błędu, wariancja samej zmiennej, ilość danych masz i liczbę innych zmiennych w modelu. To, czy zmienne są skorelowane, jest również istotne, ale nie zastępuje tych faktów. Rozważ następującą prostą demonstrację w
R
:Korelacja między dwiema zmiennymi jest najniższa w pierwszym przykładzie i najwyższa w trzecim, ale żadna ze zmiennych nie jest znacząca w pierwszym przykładzie, a obie są w ostatnim przykładzie. Wielkość efektów jest identyczna we wszystkich trzech przypadkach, a wariancje zmiennych i błędy powinny być podobne (są one stochastyczne, ale pochodzą z populacji o tej samej wariancji). Wzór, który tu widzimy, wynika przede wszystkim z tego, że manipulowałem dla każdego przypadku.N
Kluczową koncepcją, którą należy zrozumieć, aby rozwiązać swoje pytania, jest współczynnik inflacji wariancji (VIF). VIF to o ile wariancja współczynnika regresji jest większa niż w innym przypadku, gdyby zmienna była całkowicie nieskorelowana ze wszystkimi innymi zmiennymi w modelu. Zauważ, że VIF jest multiplikatywnym czynnikiem, jeśli zmienna, o której mowa, jest nieskorelowana, VIF = 1. Proste zrozumienie VIF jest następujące: możesz dopasować model przewidujący zmienną (powiedzmy ) ze wszystkich innych zmiennych w twoim modelu (powiedzmy ) i uzyskać wielokrotność . VIF dla to . Powiedzmy, że VIF dla toX 2 R 2 X 1 1 / ( 1 - R 2 ) X 1 10 X 1 10 × X 1X1 X2 R2 X1 1/(1−R2) X1 10 (często uważany za próg nadmiernej wielokoliniowości), wówczas wariancja rozkładu próbkowania współczynnika regresji dla byłaby większa niż byłaby, gdyby był całkowicie nieskorelowany ze wszystkimi innymi zmiennymi w modelu. X1 10× X1
Myślenie o tym, co by się stało, gdybyś uwzględnił obie skorelowane zmienne vs. tylko jedna jest podobna, ale nieco bardziej skomplikowana niż podejście omówione powyżej. Wynika to z faktu, że nie uwzględnienie zmiennej oznacza, że model wykorzystuje mniejszy stopień swobody, co zmienia wariancję resztkową i wszystko obliczone na tej podstawie (w tym wariancję współczynników regresji). Ponadto, jeśli nieuwzględniona zmienna naprawdę jest powiązana z odpowiedzią, wariancja odpowiedzi spowodowana tą zmienną zostanie uwzględniona w wariancji rezydualnej, czyniąc ją większą niż w innym przypadku. Tak więc kilka rzeczy zmienia się jednocześnie (zmienna jest skorelowana lub nie z inną zmienną, a wariancja rezydualna), a dokładny efekt porzucenia / włączenia innej zmiennej będzie zależeć od tego, w jaki sposób te kompromisy się wymieniają.
Uzbrojeni w zrozumienie VIF, oto odpowiedzi na twoje pytania:
źródło
To bardziej komentarz, ale chciałem dołączyć wykres i trochę kodu.
Myślę, że stwierdzenie „jeśli dwa predyktory są skorelowane i oba są zawarte w modelu, jeden będzie nieistotny” jest fałszywe, jeśli masz na myśli „tylko jeden”. Binarne znaczenie statystyczne nie może być użyte do wyboru zmiennych.
Oto mój kontrprzykład z wykorzystaniem regresji procentowej zawartości tłuszczu w ciele na obwodzie uda, grubości fałdu skórnego * i obwodu środkowego ramienia:
Jak widać z tabeli regresji, wszystko jest nieznaczne, chociaż wartości p różnią się nieco.
Ostatnie polecenie Stata przedstawia obszar ufności dla 2 współczynników regresji (dwuwymiarowy analog znanych przedziałów ufności) wraz z oszacowaniami punktów (czerwona kropka). Elipsa zaufania dla grubości fałdu skórnego i współczynników obwodu uda jest długa, wąska i pochylona, co odzwierciedla kolinearność regresorów. Pomiędzy szacowanymi współczynnikami występuje wysoka kowariancja ujemna. Elipsa obejmuje części osi pionowej i poziomej, co oznacza, że nie możemy odrzucić poszczególnych hipotez, że są równe zero, chociaż możemy odrzucić połączenie zerowe, które są oba, ponieważ elipsa nie obejmuje początku. Innymi słowy, zarówno udo, jak i triceps są istotne dla tkanki tłuszczowej, ale nie można ustalić, który z nich jest winowajcą.β
Skąd więc wiemy, które predyktory byłyby mniej znaczące? Zmianę regresora można podzielić na dwa typy:
Przy szacowaniu współczynników każdego regresora zostanie wykorzystany tylko pierwszy. Wspólna odmiana jest ignorowana, ponieważ nie można jej przypisać, chociaż jest używana do przewidywania i obliczania . Gdy jest mało unikalnych informacji, zaufanie będzie niskie, a wariancje współczynników będą wysokie. Im wyższa wielokoliniowość, tym mniejsza unikalna odmiana i większe wariancje.R2
* Fałd skóry to szerokość fałdu skóry przejęta przez mięsień trójgłowy, mierzona za pomocą suwmiarki.
źródło
Jak zauważył @whuber, jest to złożone pytanie. Jednak pierwsze zdanie Twojego posta jest ogromnym uproszczeniem. Często zdarza się, że dwie (lub więcej) zmienne zostaną skorelowane i obie będą powiązane ze zmienną zależną. To, czy są znaczące, czy nie, zależy zarówno od wielkości efektu, jak i wielkości komórki.
W twoim przykładzie załóżmy, że dla danej wielkości domu ludzie woleli mniej pokoi (przynajmniej w Nowym Jorku, nie jest to nierozsądne - oznaczałoby to starsze budynki, więcej solidnych ścian itp. I może być markerem sąsiedztwa). Wtedy oba mogą być znaczące, w przeciwnych kierunkach!
Albo załóżmy, że tymi dwiema zmiennymi były wielkość domu i sąsiedztwo - byłyby one z pewnością skorelowane z większymi domami w lepszych dzielnicach - ale nadal mogły być oba znaczące i na pewno byłyby powiązane z ceną domu.
Ponadto użycie tylko „skorelowanych” masek złożoności. Zmienne mogą być silnie powiązane bez korelacji.
źródło