Kiedy możemy mówić o kolinearności

16

W modelach liniowych musimy sprawdzić, czy istnieje relacja między zmiennymi objaśniającymi. Jeśli korelują one zbyt mocno, występuje kolinearność (tzn. Zmienne częściowo się wyjaśniają). Właśnie patrzę właśnie na korelację par pomiędzy każdą z zmiennych objaśniających.

Pytanie 1: Co klasyfikuje jako zbyt dużą korelację? Na przykład, czy korelacja Pearsona o 0,5 jest za duża?

Pytanie 2: Czy możemy w pełni ustalić, czy istnieje kolinearność między dwiema zmiennymi na podstawie współczynnika korelacji, czy zależy to od innych czynników?

Pytanie 3: Czy kontrola graficzna wykresu rozrzutu dwóch zmiennych dodaje coś do tego, co wskazuje współczynnik korelacji?

Stefan
źródło
2
Kolinearność (osobliwość) między zmiennymi 3+ nie ogranicza się tylko do wysokich korelacji par. Wyszukaj na stronie pytania oznaczone jako „wielokoliniowość”. Polecam również przeczytanie mojej odpowiedzi: stats.stackexchange.com/a/70910/3277 .
ttnphns

Odpowiedzi:

3

Moje zdanie na temat trzech pytań brzmi:

Pytanie 1 Co klasyfikuje jako zbyt dużą korelację? Na przykład: korelacja Pearsona 0,5 czy to za dużo?

Wielu autorów twierdzi, że (wielo-) kolinearność nie stanowi problemu. Zajrzyj tu i tutaj, aby uzyskać dość kwaśną opinię na ten temat. Najważniejsze jest to, że wielokoliniowość nie ma wpływu na testowanie hipotezy poza tym, że ma mniejszą (skuteczną) wielkość próby. Na przykład trudno będzie ci zinterpretować współczynniki regresji, jeśli wykonasz regresję, ale nie naruszysz żadnego podstawowego założenia, jeśli zdecydujesz się to zrobić.

Pytanie 2 Czy możemy w pełni ustalić, czy istnieje kolinearność między dwiema zmiennymi na podstawie współczynnika korelacji, czy zależy to od innych czynników?

Myślę, że istnieje kilka sposobów pomiaru korelacji między dwiema zmiennymi, od obliczania współczynnika korelacji Pearsona (jeśli przyjmujesz liniowość i najwyraźniej tak zrobiłeś), do rangi Spearmana , korelacji odległości , a nawet wykonywania PCA na zbiorze danych. Ale odpowiedź na to pytanie pozostawiłbym lepiej poinformowanym ludziom niż mnie.

Pytanie 3 Czy kontrola graficzna wykresu rozrzutu dwóch zmiennych dodaje coś do tego, co wskazuje współczynnik korelacji?

IMO, odpowiedź brzmi nie.

pedrofigueira
źródło
3
IMHO, odpowiedź na (3) jest przeciwnie bardzo silnym tak: podczas gdy współczynnik korelacji może dać tylko jedną liczbową ocenę liniowości związku, szybkie spojrzenie na wykres rozrzutu dostarczy wielu dodatkowych informacji na ten temat związek, w tym zachowania, których wcześniej nie oczekiwano. Jednak prawdziwe zainteresowanie tym zestawem pytań polega na tym, jak ocenić relacje między trzema lub więcej zmiennymi (pomimo tego, jak faktycznie sformułowano (3)), aw takim przypadku nawet macierz rozrzutu nie ujawnia wszystkiego, jak zauważa @ttnphns.
whuber
1
Jeśli chodzi o (1), czytam twoje odniesienie (do bloga Dave'a Gile'a) inaczej: twierdzi on, że formalne testowanie wielokoliniowości jest błędne. Nie widzę go, jak twierdzi, że wielokoliniowość nie stanowi problemu.
whuber
Rozumiem odpowiedź Dave'a Gile'a, że ​​jedyny sposób, w jaki wielokoliniowość wpływa na wyniki, będzie poprzez równoważny mniejszy rozmiar próbki. Tak więc, jak nie ma sensu testowanie małych próbek, nie ma sensu testowanie wpływu wielokoliniowości. Ale chętnie usłyszę twoją opinię na ten temat, być może źle to zrozumiałem.
pedrofigueira
Cóż, potrzeba większej próby może mieć ogromny wpływ na większość badań! Subtelniejszy efekt prawie kolinearności dotyczy budowy modelu i wyboru zmiennych, jak omówiono ( między innymi ) w wątkach takich jak stats.stackexchange.com/questions/50537 i stats.stackexchange.com/a/28476/919 . Ale upewnijmy się, że mówimy o tych samych rzeczach: Giles omawia formalne testy wielokoliniowości, tak jakby losowe zmienne próbkowane były losowo. Tutaj wydaje się, że obawa koncentruje się na zastosowaniu diagnostyki wielokoliniowości do zrozumienia możliwości i ograniczeń modelu.
whuber
1

Częstym sposobem oceny kolinearności są współczynniki inflacji wariancji (VIF). Można to osiągnąć w R za pomocą funkcji „vif” w pakiecie „car”. Ma to tę przewagę, że patrzy tylko na korelacje między dwiema zmiennymi, ponieważ jednocześnie ocenia korelację między jedną zmienną a resztą zmiennych w modelu. Następnie daje jeden wynik dla każdego predyktora w modelu.

Jak wspomniano powyżej, nie ma twardego i szybkiego odcięcia, ale wyniki VIF często są problematyczne, gdy wynoszą od 5 do 10. Używam do tego praktycznych reguł. Ponadto - nie ma nic niekonsekwentnego w stosowaniu skorelowanych predyktorów (o ile nie są one idealnie skorelowane). Potrzebujesz tylko więcej danych, aby rozdzielić efekty. Gdy nie ma wystarczającej ilości danych, będą występować duże niepewności w oszacowaniach parametrów skorelowanych predyktorów, a szacunki te będą wrażliwe na ponowne próbkowanie.

Aby odpowiedzieć konkretnie na twoje pytania:

  1. Nie używaj współczynników korelacji. używaj VIF modelu ze wszystkimi predyktorami i bez interakcji. VIF o wartości 5–10 wskazują na zbyt dużą korelację, konkretna wartość graniczna zależy od tego, co należy zrobić z modelem.

  2. Zależy to od innych predyktorów w modelu, dlatego korzystne jest stosowanie VIF.

  3. Nie! Statystyki lepiej określą, na co patrzysz, za pomocą wykresu punktowego. Chyba że nastąpi super naruszenie założeń OLS podczas cofania predyktorów względem siebie.

Colin
źródło