Znalazłem odniesienie w artykule, który brzmi:
Według Tabachnick i Fidell (1996) zmienne niezależne o korelacji dwuwymiarowej większej niż 0,70 nie powinny być uwzględniane w analizie regresji wielokrotnej.
Problem: Użyłem w układzie regresji wielokrotnej 3 zmiennych skorelowanych> .80, VIF na poziomie około .2 - .3, Tolerancja ~ 4- 5. Nie mogę wykluczyć żadnego z nich (ważne predyktory i wynik). Kiedy regresowałem wynik na 2 predyktorach, które korelowały przy 0,80, oba pozostały znaczące, każda przewidywała ważne wariancje, a te same dwie zmienne mają największą część i współczynniki korelacji między częściami spośród wszystkich 10 uwzględnionych zmiennych (5 kontroli).
Pytanie: Czy mój model jest prawidłowy pomimo wysokich korelacji? Wszelkie referencje są mile widziane!
Dziękuję za odpowiedzi!
Nie wykorzystałem Tabachnicka i Fidella jako wskazówki, znalazłem to odniesienie w artykule poświęconym wysokiej kolinearności między predyktorami.
Tak więc, w zasadzie, mam za mało przypadków dla liczby predyktorów w modelu (wiele kategorycznych, fałszywych zmiennych kontrolnych - wiek, kadencja, płeć itp.) - 13 zmiennych dla 72 przypadków. Wskaźnik stanu wynosi ~ 29 ze wszystkimi kontrolkami i ~ 23 bez nich (5 zmiennych).
Nie mogę porzucić żadnej zmiennej ani użyć analizy czynnikowej do ich połączenia, ponieważ teoretycznie mają one sens same z siebie. Jest za późno, aby uzyskać więcej danych. Ponieważ przeprowadzam analizę w SPSS, być może najlepiej byłoby znaleźć składnię regresji grzbietu (chociaż nie robiłem tego wcześniej, a interpretacja wyników byłaby dla mnie nowa).
Jeśli ma to znaczenie, kiedy przeprowadziłem regresję krokową, te same 2 wysoce skorelowane zmienne pozostały pojedynczymi znaczącymi predyktorami wyniku.
I nadal nie rozumiem, czy częściowe korelacje, które są wysokie dla każdej z tych zmiennych, mają znaczenie jako wyjaśnienie, dlaczego trzymałem je w modelu (w przypadku, gdy nie można wykonać regresji grzbietu).
Czy powiedziałbyś, że „Diagnostyka regresji: identyfikacja wpływowych danych i źródeł kolinearności / David A. Belsley, Edwin Kuh i Roy E. Welsch, 1980” byłby pomocny w zrozumieniu wielokoliniowości? A może inne odniesienia mogą być przydatne?
Odpowiedzi:
Kluczowym problemem nie jest korelacja, ale kolinearność (patrz na przykład prace Belsleya). Najlepiej sprawdza się to przy użyciu indeksów warunków (dostępnych w
R
,SAS
i prawdopodobnie także w innych programach. Korelacja nie jest warunkiem koniecznym ani wystarczającym do kolinearności. Indeksy warunków powyżej 10 (na Belsleya) wskazują na umiarkowaną kolinearność, ponad 30 ciężką, ale zależy również od na których zmiennych są zaangażowane w kolinearność.Jeśli zauważysz wysoką kolinearność, oznacza to, że twoje oszacowania parametrów są niestabilne. Oznacza to, że niewielkie zmiany (czasami na czwartej znaczącej liczbie) w danych mogą powodować duże zmiany w oszacowaniach parametrów (czasami nawet odwrócenie ich znaku). To jest zła rzecz.
Środki zaradcze to 1) Uzyskanie większej ilości danych 2) Usunięcie jednej zmiennej 3) Łączenie zmiennych (np. Z częściowymi najmniejszymi kwadratami) i 4) Przeprowadzanie regresji grzbietu, co daje stronnicze wyniki, ale zmniejsza wariancję szacunków.
źródło