Jakie są zalety różnych podejść do wykrywania kolinearności?

11

Chcę wykryć, czy kolinearność jest problemem w mojej regresji OLS. Rozumiem, że czynniki inflacyjne wariancji i wskaźnik warunków są dwiema powszechnie stosowanymi miarami, ale trudno mi znaleźć coś konkretnego na podstawie zalet każdego podejścia lub tego, jakie powinny być wyniki.

Bardzo przydatne byłoby wybitne źródło, które wskazuje, jakie podejście należy zastosować i / lub jakie wyniki są odpowiednie.

Podobne pytanie zostało zadane w „Czy istnieje powód, aby preferować określoną miarę wielokoliniowości?” ale idealnie jestem po referencji, którą mogę zacytować.

multiple-regression references least-squares multicollinearity vif Kyrenia
źródło

4

Pamiętaj, że kolinearność jest w dużej mierze kwestią stopnia , więc nawet jeśli znajdziesz tekst, który podaje ładną, cytowalną liczbę, nie jest to coś, co powinieneś traktować jako twardą wartość graniczną dla „bez problemu” w porównaniu z ”, mamy problem „.

Silverfish,

4

@Silverfish daje dobrą radę. Belsley, Kuh i Welsch podkreślają również, że kolinearność, nawet jeśli jest obecna, niekoniecznie jest szkodliwa: musisz ustalić, czy faktycznie powoduje ona problemy w Twojej analizie.

whuber

11

Belsley, Krowa i Welsch jest tekst, aby przejść do tego rodzaju kwestii. Obejmują one obszerne omówienie starszej diagnostyki w części zatytułowanej „Perspektywa historyczna”. Piszą o VIF

$X$ $R$ $X^\prime X$

$R^{-1} = (X^\prime X)^{-1}$ $R^{-1}$ $r^{ii}$ $\text{VIF}_i$
${VIF}_{i} = \frac{1}{1 - R_{i}^{2}}$ $\text{VIF}_i = \frac{1}{1 - R_i^2}$ $R_i^2$ $X_i$ $R_i^2$ $R$

$R$ $R^{-1}$ $X$ $X$ $\hat\beta_i$ na składniki związane z pojedynczymi wartościami. Siła tego rozkładu polega na jego zdolności (w wielu przypadkach) do ujawnienia natury kolinearności, a nie tylko na wskazaniu jej obecności.

$X_{i_1}, \ldots, X_{i_k}$

Ostatecznie BKW zaleca zdiagnozowanie kolinearności za pomocą

... następujący podwójny warunek:

Wartość pojedyncza uznana za posiadającą wysoki wskaźnik stanu i z którą jest związana

Wysokie proporcje wariancji-rozkładu dla dwóch lub więcej oszacowanych wariancji współczynnika regresji.

$30$ $X$ $0.5$

Whuber
źródło

10

$R^2$ $1/(1-R^2)$

Jednak VIF jak zwykle implementowane nie mogą powiedzieć o kolinearności z przechwytywaniem, ponieważ przechwytywanie jest zwykle dyskretnie zawarte w tych regresjach „pomocniczych”. Ponadto, jeśli regresor ma wysokie VIF, nie od razu wiadomo, które inne regresory są odpowiedzialne za kolinearność. Trzeba spojrzeć na znormalizowane współczynniki w regresjach pomocnika.
Wskaźniki stanu i proporcje rozkładu kolinearności Belsleya, Kuha i Welscha (Belsley, DA; Kuh, E. i Welscha, RE Regression Diagnostics: Identyfikacja wpływowych danych i źródeł kolinearności. John Wiley & Sons, 1980) są znacznie trudniejsze do zrozumienia. Pracowałem z nimi kilka lat temu, ale nie będę próbował ich tutaj wyjaśniać bez odświeżenia ;-)

Te diagnostyka nie umożliwiają wykrywanie kolinearność z osią. I możesz zbadać proporcje rozkładu kolinearności, aby wywnioskować, które inne regresory są odpowiedzialne za kolinearność jednego regresora.

Stephan Kolassa
źródło

Dzięki - bardzo przydatny - czy przypadkiem zdajesz sobie sprawę z cytatu dla VIF większego niż 10 zasad kciuka ... Mogę znaleźć wiele notatek z wykładów, ale nie mogę znaleźć niczego opublikowanego, co by to mówiło ... ,

Kyrenia

@kyrenia „większy niż 10” jest daleki od jedynego progu, jaki widziałem! Zastanawiam się, czy istnieje różnica między polami, czy po prostu między autorami.

Silverfish,

3

2

$2$

100

$100$

@whuber Dzięki za to. To bardzo interesujące spostrzeżenie i bardzo istotne dla pytania postawionego przez PO: biorąc pod uwagę znaczenie komentarzy „drugiego rzędu” w systemie StackExchange, myślę, że powinieneś rozważyć włączenie tego do swojej doskonałej odpowiedzi.

Silverfish,

6

W przypadku szeroko dostępnych odniesień do cytowania książka Faraway na stronie 117 zawiera ogólną regułę powyżej 30 do wykrywania problemów na podstawie numerów warunków, a Wstęp do nauki statystycznej , strona 101, mówi, że wartości VIF powyżej 5 lub 10 wskazują na problem .

Prawdopodobnie ważniejsza niż metoda identyfikacji wielokoliniowości będzie sposób jej obsługi.

EdM
źródło

Jakie są zalety różnych podejść do wykrywania kolinearności?

Odpowiedzi: