Dlaczego w wielokrotnej regresji liniowej możliwe jest uzyskanie bardzo istotnej statystyki F (p <0,001), ale bardzo wysokich wartości p we wszystkich testach t regresora?
W moim modelu jest 10 regresorów. Jeden ma wartość p 0,1, a reszta jest powyżej 0,9
Aby poradzić sobie z tym problemem, patrz pytanie uzupełniające .
Odpowiedzi:
Jak wspomina Rob, dzieje się tak, gdy masz wysoce skorelowane zmienne. Standardowym przykładem, którego używam, jest przewidywanie masy na podstawie rozmiaru buta. Równie dobrze możesz przewidzieć masę przy użyciu prawego lub lewego rozmiaru buta. Ale razem to nie działa.
Krótki przykład symulacji
źródło
Powoduje to bardzo małą korelację między zmiennymi niezależnymi.
Aby zobaczyć dlaczego, spróbuj wykonać następujące czynności:
Narysuj 50 zestawów dziesięciu wektorów o współczynnikach iid standard normal.(x1,x2,…,x10)
Oblicz dla . To sprawia, że indywidualnie jest normalny, ale z pewnymi korelacjami między nimi.yi=(xi+xi+1)/2–√ i=1,2,…,9 yi
Oblicz . Zauważ, że .w=x1+x2+⋯+x10 w=2–√(y1+y3+y5+y7+y9)
Dodaj niezależny błąd normalnie dystrybuowany do . Przy odrobinie eksperymentów odkryłem, że z działa całkiem dobrze. Zatem jest sumą plus jakiś błąd. Jest to również suma niektóre z plus tego samego błędu.w z=w+ε ε∼N(0,6) z xi yi
Będziemy rozważyć być zmienne niezależne i zmiennej zależnej.yi z
Oto macierz wykresu rozrzutu jednego takiego zestawu danych, u góry i po lewej, a postępuje w kolejności.z yi
Oczekiwane korelacje między i wynoszą gdy a w przeciwnym razie . Zrealizowane korelacje wynoszą do 62%. Pojawiają się one jako ściślejsze wykresy rozrzutu obok przekątnej.yi yj 1/2 |i−j|=1 0
Spójrz na regresję względem :z yi
Statystyka F jest bardzo znacząca, ale żadna ze zmiennych niezależnych nie jest, nawet bez korekty dla wszystkich 9 z nich.
Aby zobaczyć, co się dzieje, rozważ regresję względem nieparzystej :z yi
Niektóre z tych zmiennych są bardzo znaczące, nawet po dostosowaniu Bonferroniego. (Patrząc na te wyniki, można powiedzieć o wiele więcej, ale odciągnęłoby nas to od głównego punktu).
Intuicja tego polega na tym, że zależy przede wszystkim od podzbioru zmiennych (ale niekoniecznie od unikalnego podzbioru). Uzupełnienie tego podzbioru ( ) zasadniczo nie dodaje informacji o ze względu na korelacje - choć nieznaczne - z samym podzbiorem.y 2 , y 4 , y 6 , y 8 zz y2,y4,y6,y8 z
Tego rodzaju sytuacja pojawi się w analizie szeregów czasowych . Możemy traktować indeksy dolne za czasy. Konstrukcja wywołała między nimi szeregową korelację krótkiego zasięgu, podobnie jak wiele szeregów czasowych. Z tego powodu tracimy niewiele informacji, podpróbkując serię w regularnych odstępach czasu.yi
Jednym z wniosków, jaki możemy z tego wyciągnąć, jest to, że gdy w modelu znajduje się zbyt wiele zmiennych, mogą one maskować te naprawdę znaczące. Pierwszą oznaką tego jest bardzo znacząca ogólna statystyka F, której towarzyszą nie tak znaczące testy t dla poszczególnych współczynników. (Nawet jeśli niektóre zmienne są indywidualnie znaczące, nie oznacza to automatycznie, że inne nie są. To jedna z podstawowych wad strategii regresji krokowej: padają ofiarą tego problemu maskowania.) Nawiasem mówiąc, czynniki inflacyjne wariancjiw pierwszym zakresie regresji od 2,55 do 6,09 ze średnią 4,79: tylko na granicy diagnozowania pewnej wielokoliniowości zgodnie z najbardziej konserwatywnymi regułami; znacznie poniżej progu zgodnie z innymi zasadami (gdzie 10 to górna granica).
źródło
Wielokoliniowość
Wiele prawie znaczących predyktorów
źródło
Dzieje się tak, gdy predyktory są wysoce skorelowane. Wyobraź sobie sytuację, w której istnieją tylko dwa predyktory o bardzo wysokiej korelacji. Indywidualnie oba one również ściśle korelują ze zmienną odpowiedzi. W związku z tym test F ma niską wartość p (mówi, że predyktory razem są bardzo istotne w wyjaśnianiu zmienności zmiennej odpowiedzi). Ale test t dla każdego predyktora ma wysoką wartość p, ponieważ po uwzględnieniu efektu drugiego predyktora nie ma wiele do wyjaśnienia.
źródło
Powiedziałeś, że rozumiesz problem korelacji zmiennych, a regresja jest nieznacznie lepsza; prawdopodobnie oznacza to, że zostałeś uwarunkowany przez częste wspominanie o wielokoliniowości, ale musiałbyś zwiększyć swoje zrozumienie geometrii najmniejszych kwadratów.
źródło
Szukanym słowem kluczowym byłoby „kolinearność” lub „wielokoliniowość”. Można to wykryć za pomocą diagnostyki, takiej jak zmienne czynniki inflacyjne (VIF) lub metod opisanych w podręczniku „Diagnostyka regresji: identyfikowanie wpływowych danych i źródeł kolinearności” autorstwa Belsleya, Kuha i Welscha. VIF są znacznie łatwiejsze do zrozumienia, ale nie radzą sobie z kolinearnością obejmującą przechwytywanie (tj. Predyktory, które są prawie same w sobie lub w kombinacji liniowej) - odwrotnie, diagnostyka BKW jest znacznie mniej intuicyjna, ale może poradzić sobie z kolinearnością obejmującą przechwycenie.
źródło
Odpowiedź, którą otrzymasz, zależy od zadanego pytania. Oprócz już podanych punktów, poszczególne parametry F i ogólne wartości F modelu odpowiadają na różne pytania, więc otrzymują różne odpowiedzi. Widziałem to, nawet gdy poszczególne wartości F nie są aż tak bliskie znaczeniu, szczególnie jeśli model ma więcej niż 2 lub 3 wartości IV. Nie znam żadnego sposobu połączenia poszczególnych wartości p i uzyskania czegoś sensownego, chociaż może istnieć sposób.
źródło
Inną rzeczą, o której należy pamiętać, jest to, że testy poszczególnych współczynników zakładają, że wszystkie inne predyktory znajdują się w modelu. Innymi słowy, każdy predyktor nie jest istotny, dopóki wszystkie inne predyktory są w modelu. Musi istnieć pewna interakcja lub współzależność między dwoma lub więcej predyktorami.
Jak ktoś wcześniej pytał - jak zdiagnozowałeś brak wielokoliniowości?
źródło
Jednym ze sposobów na zrozumienie tego jest geometria najmniejszych kwadratów, jak sugeruje @StasK.
Innym jest uświadomienie sobie, że oznacza to, że X jest powiązany z Y podczas kontrolowania innych zmiennych, ale nie sam. Mówisz, że X odnosi się do unikalnej wariancji w Y. To prawda. Jednak unikalna wariancja w Y różni się od całkowitej wariancji. Jaką wariancję usuwają pozostałe zmienne?
Pomógłbyś nam powiedzieć swoje zmienne.
źródło