W modelach liniowych musimy sprawdzić, czy istnieje relacja między zmiennymi objaśniającymi. Jeśli korelują one zbyt mocno, występuje kolinearność (tzn. Zmienne częściowo się wyjaśniają). Właśnie patrzę właśnie na korelację par pomiędzy każdą z zmiennych objaśniających.
Pytanie 1: Co klasyfikuje jako zbyt dużą korelację? Na przykład, czy korelacja Pearsona o 0,5 jest za duża?
Pytanie 2: Czy możemy w pełni ustalić, czy istnieje kolinearność między dwiema zmiennymi na podstawie współczynnika korelacji, czy zależy to od innych czynników?
Pytanie 3: Czy kontrola graficzna wykresu rozrzutu dwóch zmiennych dodaje coś do tego, co wskazuje współczynnik korelacji?
Odpowiedzi:
Zawsze mądrze jest patrzeć na dane, a nie tylko na podsumowania numeryczne / wyniki testów. Odniesieniem kanonicznym tutaj jest kwartet Anscomba .
źródło
Moje zdanie na temat trzech pytań brzmi:
Wielu autorów twierdzi, że (wielo-) kolinearność nie stanowi problemu. Zajrzyj tu i tutaj, aby uzyskać dość kwaśną opinię na ten temat. Najważniejsze jest to, że wielokoliniowość nie ma wpływu na testowanie hipotezy poza tym, że ma mniejszą (skuteczną) wielkość próby. Na przykład trudno będzie ci zinterpretować współczynniki regresji, jeśli wykonasz regresję, ale nie naruszysz żadnego podstawowego założenia, jeśli zdecydujesz się to zrobić.
Myślę, że istnieje kilka sposobów pomiaru korelacji między dwiema zmiennymi, od obliczania współczynnika korelacji Pearsona (jeśli przyjmujesz liniowość i najwyraźniej tak zrobiłeś), do rangi Spearmana , korelacji odległości , a nawet wykonywania PCA na zbiorze danych. Ale odpowiedź na to pytanie pozostawiłbym lepiej poinformowanym ludziom niż mnie.
IMO, odpowiedź brzmi nie.
źródło
Częstym sposobem oceny kolinearności są współczynniki inflacji wariancji (VIF). Można to osiągnąć w R za pomocą funkcji „vif” w pakiecie „car”. Ma to tę przewagę, że patrzy tylko na korelacje między dwiema zmiennymi, ponieważ jednocześnie ocenia korelację między jedną zmienną a resztą zmiennych w modelu. Następnie daje jeden wynik dla każdego predyktora w modelu.
Jak wspomniano powyżej, nie ma twardego i szybkiego odcięcia, ale wyniki VIF często są problematyczne, gdy wynoszą od 5 do 10. Używam do tego praktycznych reguł. Ponadto - nie ma nic niekonsekwentnego w stosowaniu skorelowanych predyktorów (o ile nie są one idealnie skorelowane). Potrzebujesz tylko więcej danych, aby rozdzielić efekty. Gdy nie ma wystarczającej ilości danych, będą występować duże niepewności w oszacowaniach parametrów skorelowanych predyktorów, a szacunki te będą wrażliwe na ponowne próbkowanie.
Aby odpowiedzieć konkretnie na twoje pytania:
Nie używaj współczynników korelacji. używaj VIF modelu ze wszystkimi predyktorami i bez interakcji. VIF o wartości 5–10 wskazują na zbyt dużą korelację, konkretna wartość graniczna zależy od tego, co należy zrobić z modelem.
Zależy to od innych predyktorów w modelu, dlatego korzystne jest stosowanie VIF.
Nie! Statystyki lepiej określą, na co patrzysz, za pomocą wykresu punktowego. Chyba że nastąpi super naruszenie założeń OLS podczas cofania predyktorów względem siebie.
źródło