Jak radzić sobie z wysoką korelacją między predyktorami w regresji wielokrotnej?

18

Znalazłem odniesienie w artykule, który brzmi:

Według Tabachnick i Fidell (1996) zmienne niezależne o korelacji dwuwymiarowej większej niż 0,70 nie powinny być uwzględniane w analizie regresji wielokrotnej.

Problem: Użyłem w układzie regresji wielokrotnej 3 zmiennych skorelowanych> .80, VIF na poziomie około .2 - .3, Tolerancja ~ 4- 5. Nie mogę wykluczyć żadnego z nich (ważne predyktory i wynik). Kiedy regresowałem wynik na 2 predyktorach, które korelowały przy 0,80, oba pozostały znaczące, każda przewidywała ważne wariancje, a te same dwie zmienne mają największą część i współczynniki korelacji między częściami spośród wszystkich 10 uwzględnionych zmiennych (5 kontroli).

Pytanie: Czy mój model jest prawidłowy pomimo wysokich korelacji? Wszelkie referencje są mile widziane!


Dziękuję za odpowiedzi!

Nie wykorzystałem Tabachnicka i Fidella jako wskazówki, znalazłem to odniesienie w artykule poświęconym wysokiej kolinearności między predyktorami.

Tak więc, w zasadzie, mam za mało przypadków dla liczby predyktorów w modelu (wiele kategorycznych, fałszywych zmiennych kontrolnych - wiek, kadencja, płeć itp.) - 13 zmiennych dla 72 przypadków. Wskaźnik stanu wynosi ~ 29 ze wszystkimi kontrolkami i ~ 23 bez nich (5 zmiennych).

Nie mogę porzucić żadnej zmiennej ani użyć analizy czynnikowej do ich połączenia, ponieważ teoretycznie mają one sens same z siebie. Jest za późno, aby uzyskać więcej danych. Ponieważ przeprowadzam analizę w SPSS, być może najlepiej byłoby znaleźć składnię regresji grzbietu (chociaż nie robiłem tego wcześniej, a interpretacja wyników byłaby dla mnie nowa).

Jeśli ma to znaczenie, kiedy przeprowadziłem regresję krokową, te same 2 wysoce skorelowane zmienne pozostały pojedynczymi znaczącymi predyktorami wyniku.

I nadal nie rozumiem, czy częściowe korelacje, które są wysokie dla każdej z tych zmiennych, mają znaczenie jako wyjaśnienie, dlaczego trzymałem je w modelu (w przypadku, gdy nie można wykonać regresji grzbietu).

Czy powiedziałbyś, że „Diagnostyka regresji: identyfikacja wpływowych danych i źródeł kolinearności / David A. Belsley, Edwin Kuh i Roy E. Welsch, 1980” byłby pomocny w zrozumieniu wielokoliniowości? A może inne odniesienia mogą być przydatne?

Ander
źródło
2
Aby zobaczyć wyraźny przykład tej sytuacji, zobacz analizę 10 IV na stronie stats.stackexchange.com/a/14528 . Tutaj wszystkie IV są silnie skorelowane (około 60%). Ale jeśli wykluczysz je wszystkie, nie miałbyś nic! Często zdarza się, że nie można upuścić żadnej z tych zmiennych. To sprawia, że ​​zalecenie T&F jest nie do utrzymania.
whuber
Rzeczywiście w Tabachnick i Fidell jest wiele wypowiedzi, które uważam za co najmniej wątpliwe ... tylko dlatego, że coś jest wydrukowane w książce, nie oznacza, że ​​zawsze ma to sens.
Glen_b

Odpowiedzi:

20

Kluczowym problemem nie jest korelacja, ale kolinearność (patrz na przykład prace Belsleya). Najlepiej sprawdza się to przy użyciu indeksów warunków (dostępnych w R, SASi prawdopodobnie także w innych programach. Korelacja nie jest warunkiem koniecznym ani wystarczającym do kolinearności. Indeksy warunków powyżej 10 (na Belsleya) wskazują na umiarkowaną kolinearność, ponad 30 ciężką, ale zależy również od na których zmiennych są zaangażowane w kolinearność.

Jeśli zauważysz wysoką kolinearność, oznacza to, że twoje oszacowania parametrów są niestabilne. Oznacza to, że niewielkie zmiany (czasami na czwartej znaczącej liczbie) w danych mogą powodować duże zmiany w oszacowaniach parametrów (czasami nawet odwrócenie ich znaku). To jest zła rzecz.

Środki zaradcze to 1) Uzyskanie większej ilości danych 2) Usunięcie jednej zmiennej 3) Łączenie zmiennych (np. Z częściowymi najmniejszymi kwadratami) i 4) Przeprowadzanie regresji grzbietu, co daje stronnicze wyniki, ale zmniejsza wariancję szacunków.

Peter Flom - Przywróć Monikę
źródło
Tabachnick i Fidell napisali fajną, wielowymiarową książkę dla nauk społecznych. Nie są statystykami, ale ich znajomość wielu odmian jest bardzo dobra. Ale myślę, że mogą stworzyć praktyczne zasady, aby uprościć i mogą pominąć subtelności statystyczne. Chciałbym więc polegać bardziej na tym, co mówi Piotr w swoich odpowiedziach niż w ich pracy.
Michael R. Chernick
Dzięki @MichaelChernick. W rzeczywistości napisałem rozprawę na temat diagnostyki kolinearności regresji wielokrotnej.
Peter Flom - Przywróć Monikę
Zakładam, że jesteś tak stary jak ja i dlatego twoja praca przyszła po pracy Belsleya, Kuha, Welscha i Cooka. Wiem, że prace Cooka dotyczyły głównie innych zagadnień diagnostycznych (dźwigni i nienormalności), ale czy zrobił coś na temat wielokoliniowości? Oczywiście koncepcja regresji grzbietu nawet sięga moich czasów
Michael R. Chernick
1
@Peter Flom: Dlaczego korelacja nie jest ani niezbędnym, ani wystarczającym warunkiem kolinearności? Czy masz na myśli korelację nieliniową?
Julian
5
Nie jest to konieczne, ponieważ w przypadku dużej liczby zmiennych wszystkie pary mogą być tylko nieznacznie skorelowane, ale ich suma jest idealnie współliniowa. Nie jest to wystarczające, ponieważ zdarzają się przypadki, w których dość wysoka korelacja nie powoduje kłopotliwej kolinearności według wskaźników warunków
Peter Flom - Przywróć Monikę