Wiki omawia problemy, które powstają, gdy wielokoliniowość jest problemem regresji liniowej. Podstawowym problemem jest to, że wielokoliniowość powoduje niestabilne oszacowanie parametrów, co bardzo utrudnia ocenę wpływu zmiennych niezależnych na zmienne zależne.
Rozumiem techniczne przyczyny problemów (może nie być w stanie odwrócić , źle warunkowane itp.), Ale szukam bardziej intuicyjnego (być może geometrycznego?) Wyjaśnienia tego problemu.
Czy istnieje geometryczna lub może inna forma łatwego do zrozumienia wyjaśnienia, dlaczego wielokoliniowość jest problematyczna w kontekście regresji liniowej?
Odpowiedzi:
Rozważ najprostszy przypadek, w którym jest regresowany względem i a i są wysoce dodatnio skorelowane. To efekt w jest trudna do odróżnienia od efektu na , ponieważ każdy wzrost wydaje się być związany ze wzrostem .Y X Z X Z X Y Z Y X Z
Innym sposobem na to jest rozważenie równania. Jeśli napiszemy , wówczas współczynnik jest wzrostem dla każdego wzrostu jednostki przy utrzymaniu stałejAle w praktyce często niemożliwe jest utrzymanie stałej a dodatnia korelacja między i oznacza, że wzrostowi jednostkowemu w towarzyszy zwykle pewien wzrost w tym samym czasie.Y=b0+b1X+b2Z+e b1 Y X Z Z X Z X Z
Podobne, ale bardziej skomplikowane wyjaśnienie dotyczy innych form wielokoliniowości.
źródło
Kiedyś jadłem sushi i pomyślałem, że może to być dobra intuicyjna prezentacja źle uwarunkowanych problemów. Załóżmy, że chcesz pokazać komuś samolot za pomocą dwóch drążków dotykających jego podstaw.
Prawdopodobnie trzymałbyś kije prostopadle do siebie. Efekt jakiegokolwiek drżenia rąk na samolocie powoduje, że kołysze się nieco wokół tego, co chciałeś pokazać ludziom, ale po obserwowaniu cię przez jakiś czas mają dobre pojęcie o tym, jaki samolot zamierzasz pokazać.
Powiedzmy jednak, że zbliżasz końce pałeczek do siebie i obserwuj, jak drżą ci ręce. Samolot, który utworzy, będzie o wiele bardziej szalony. Twoi odbiorcy będą musieli dłużej oglądać, aby dowiedzieć się, jaki samolot próbujesz pokazać.
źródło
Podejście geometryczny jest rozważenie najmniejszych kwadratów projekcję na podprzestrzeni objętej przez .Y X
Powiedz, że masz model:
Nasza przestrzeń szacunkowa jest płaszczyzną wyznaczoną przez wektory i a problemem jest znalezienie współrzędnych odpowiadających które wektor , rzut na najmniejszą kwadrat na tę płaszczyznę.X1 X2 (β1,β2) Y^ Y
Załóżmy teraz, że , tzn. Są one współliniowe. Następnie podprzestrzeń określona przez i jest tylko linią i mamy tylko jeden stopień swobody. Nie możemy więc ustalić dwóch wartości i zgodnie z pytaniem.X1=2X2 X1 X2 β1 β2
źródło
Dwie osoby pchają głaz na wzgórze. Chcesz wiedzieć, jak mocno każdy z nich naciska. Załóżmy, że patrzysz, jak pchają się razem przez dziesięć minut, a głaz porusza się o 10 stóp. Czy pierwszy facet wykonał całą pracę, a drugi po prostu podrobił to? Lub odwrotnie? Lub 50-50? Ponieważ obie siły działają dokładnie w tym samym czasie, nie można rozdzielić siły żadnej z nich osobno. Wszystko, co możesz powiedzieć, to to, że ich łączna siła wynosi 1 stopę na minutę.
Teraz wyobraź sobie, że pierwszy facet popycha się przez minutę, potem dziewięć minut z drugim facetem, a ostatnia minuta to tylko drugi facet pchający. Teraz możesz użyć szacunków sił w pierwszej i ostatniej minucie, aby obliczyć siłę każdej osoby osobno. Mimo że nadal w dużej mierze działają w tym samym czasie, fakt, że istnieje niewielka różnica, pozwala uzyskać oszacowanie siły dla każdego z nich.
Jeśli widziałeś, jak każdy mężczyzna pcha niezależnie przez pełne dziesięć minut, dałoby to dokładniejsze oszacowanie sił, niż gdyby siły nakładały się w dużym stopniu.
Pozostawiam jako ćwiczenie dla czytelnika, aby rozszerzyć tę sprawę na jednego mężczyznę pchającego w górę, a drugiego pchającego w dół (nadal działa).
Idealna wielokolonowość uniemożliwia osobne oszacowanie sił; prawie wielokolonowość daje większe standardowe błędy.
źródło
Tak naprawdę myślę o tym w kategoriach informacji. Powiedzieć każdej i zawiera informacje o . Im bardziej skorelowane i są ze sobą, tym bardziej treść informacji o z i jest podobna lub nakłada się, do tego stopnia, że dla idealnie skorelowanego i , to naprawdę ta sama treść informacyjna. Jeśli teraz umieścimy i w tym samym modelu (regresji) w celu wyjaśnienia , model spróbuje „przydzielić” informacje, które (X1 X2 Y X1 X2 Y X1 X2 X1 X2 X1 X2 Y X1 , ) zawiera około dla każdego z i , w nieco arbitralny sposób. Nie ma naprawdę dobrego sposobu, aby to rozdzielić, ponieważ jakikolwiek podział informacji nadal prowadzi do zachowania całkowitej informacji z ( , ) w modelu (dla idealnie skorelowanych , to naprawdę jest przypadek braku możliwości identyfikacji). Prowadzi to do niestabilnych indywidualnych oszacowań dla indywidualnych współczynników i , chociaż jeśli spojrzysz na przewidywane wartości wielu przebiegów i szacunki iX2 Y X1 X2 X1 X2 X X1 X2 b1X1+b2X2 b1 b2 , będą one dość stabilne.
źródło
Moja (bardzo) świecka intuicja polega na tym, że model OLS potrzebuje pewnego poziomu „sygnału” w zmiennej X, aby go wykryć, daje „dobre” przewidywanie dla Y. Jeśli ten sam „sygnał” rozłożony jest na wiele X (ponieważ są skorelowane), to żaden ze skorelowanych X nie może dać wystarczająco „dowodu” (istotności statystycznej), że jest to prawdziwy predyktor.
Poprzednie (wspaniałe) odpowiedzi świetnie się wyjaśniają, dlaczego tak jest.
źródło
Załóżmy, że dwie osoby współpracowały i dokonały odkrycia naukowego. Łatwo jest powiedzieć ich unikalny wkład (kto co zrobił), kiedy dwie są całkowicie różnymi osobami (jedna jest facetem od teorii, a druga jest dobra w eksperymentach), podczas gdy trudno jest odróżnić ich unikalne wpływy (współczynniki regresji), kiedy są bliźniaki działające podobnie.
źródło
Jeśli dwa regresory są doskonale skorelowane, ich współczynników nie będzie można obliczyć; warto zastanowić się, dlaczego trudno byłoby je zinterpretować , gdybyśmy mogli je obliczyć . W rzeczywistości wyjaśnia to, dlaczego trudno jest interpretować zmienne, które nie są idealnie skorelowane, ale które nie są naprawdę niezależne.
Załóżmy, że naszą zmienną zależną jest dzienna podaż ryb w Nowym Jorku, a nasze zmienne niezależne obejmują jedną dla tego, czy pada w tym dniu i jedną dla ilości przynęty zakupionej w tym dniu. Kiedy nie zbieramy naszych danych, nie zdajemy sobie sprawy, że za każdym razem, gdy pada deszcz, rybacy nie kupują przynęty, a za każdym razem kupują stałą ilość przynęty. Więc Bait i Rain są doskonale skorelowane, a kiedy przeprowadzamy regresję, nie możemy obliczyć ich współczynników. W rzeczywistości Bait i Rain prawdopodobnie nie są idealnie skorelowane, ale nie chcielibyśmy uwzględniać ich obu jako regresorów bez oczyszczenia ich z ich endogeniczności.
źródło
Myślę, że zmienna pułapka manekina zapewnia kolejną użyteczną możliwość zilustrowania, dlaczego problemem jest wielokoliniowość. Przypomnijmy, że powstaje, gdy w modelu mamy stały i pełny zestaw manekinów. Następnie suma manekinów stanowi jeden, stały, a więc wielokoliniowy.
Np. Manekin dla mężczyzn i jeden dla kobiet:
Standardowa interpretacja jest oczekiwaną zmianą która wynika ze zmiany z 0 na 1. Podobnie, jest oczekiwaną zmianą która wynika ze zmiany z 0 na 1.β1 Y Mani β2 Y Womani
Ale co zatem ma reprezentować ...? Jest to , więc oczekiwany wynik dla osób, które nie są ani mężczyzną ani kobietą ... prawdopodobnie bezpiecznie jest powiedzieć, że dla praktycznie wszystkich zbiorów danych, które napotkasz, to nie jest przydatne pytanie :-). E ( y i | M a n i = 0 , W o m a n i = 0 )β0 E(yi|Mani=0,Womani=0)
źródło