Czy istnieje powód, aby preferować konkretną miarę wielokoliniowości?

22

Pracując z wieloma zmiennymi wejściowymi, często martwimy się wielokoliniowością . Istnieje wiele miar wielokoliniowości, które są wykorzystywane do wykrywania, myślenia i / lub komunikowania wielokoliniowości. Niektóre typowe zalecenia to:

  1. Wielokrotność dla danej zmiennej Rj2
  2. Tolerancja, dla określonej zmiennej 1Rj2
  3. Współczynnik inflacji wariancji, dla konkretnej zmiennej VIF=1tolerance
  4. Numer warunku macierzy projektowej jako całości:

    max(eigenvalue(X'X))min(eigenvalue(X'X))

(Istnieje kilka innych opcji omówionych w artykule w Wikipedii i tutaj w SO w kontekście R.)

Fakt, że pierwsze trzy są dla siebie idealną funkcją, sugeruje, że jedyną możliwą przewagą netto między nimi byłaby psychologia. Z drugiej strony, pierwsze trzy pozwalają badać zmienne indywidualnie, co może być zaletą, ale słyszałem, że metoda numeryczna jest uważana za najlepszą.

  • Czy to prawda? Najlepsze na co?
  • Czy numer warunku jest idealną funkcją ? (Myślę, że tak będzie.) Rj2
  • Czy ludzie uważają, że jeden z nich jest najłatwiejszy do wyjaśnienia? (Nigdy nie próbowałem wyjaśniać tych liczb poza klasą, po prostu podaję luźny, jakościowy opis wielokoliniowości).
gung - Przywróć Monikę
źródło
Wysłałem
kyrenia

Odpowiedzi:

15

W późnych latach 90. napisałem rozprawę o kolinearności.

Doszedłem do wniosku, że wskaźniki stanu były najlepsze.

Głównym powodem było to, że zamiast patrzeć na poszczególne zmienne, pozwala spojrzeć na zestawy zmiennych. Ponieważ kolinearność jest funkcją zbiorów zmiennych, jest to dobra rzecz.

Ponadto wyniki moich badań Monte Carlo wykazały lepszą wrażliwość na problematyczną kolinearność, ale dawno temu zapomniałem o szczegółach.

R2

Więcej informacji na ten temat można znaleźć w książkach Davida Belsleya. Lub, jeśli naprawdę chcesz, możesz dostać moją rozprawę Diagnostyka wielokoliniowości dla regresji wielokrotnej: badanie Monte Carlo

Peter Flom - Przywróć Monikę
źródło
1
Czy zatem istnieje tutaj pomysł, że patrząc na VIF, możesz błędnie dojść do wniosku, że wielokoliniowość nie stanowi problemu, ale gdybyś spojrzał na numer warunku, bardziej prawdopodobne byłoby wyciągnięcie właściwego wniosku? Być może coś w rodzaju testu z większą mocą statystyczną?
gung - Przywróć Monikę
4
+1. Na szczęście dla wyjaśnienia numeru warunku mamy już wyjątkowy wątek na tej stronie: jest to maksymalne zniekształcenie znalezione w opisie zmiennych projektowych drugiego rzędu jako chmury punktów. Im większe zniekształcenie, tym bardziej punkty znajdują się w podprzestrzeni. Ten wgląd geometryczny pokazuje również, dlaczego warunkowanie wyśrodkowanej macierzy projektowej jest lepsze niż w przypadku samej surowej macierzy projektowej.
whuber
1
Cóż, trudno jest dokładnie określić, jaki jest „właściwy” wniosek; ale powinno to mieć związek z niewielkimi zmianami w danych, powodującymi duże zmiany w danych wyjściowych. Jak pamiętam, wskaźniki stanu były bardziej bezpośrednio z tym związane. Ale najważniejsze było uzyskanie proporcji wariancji, które pozwalają zobaczyć zestawy zmiennych i stopień ich kolinearności. (Oczywiście wszystko to było 14 lat temu ... ale nie sądzę, żeby coś się zmieniło. Środki są takie same. Ale moja pamięć może nie być idealna).
Peter Flom - Przywróć Monikę
3
Gung, jednym kluczowym punktem tutaj jest to, że liczba warunków jest niezależna od współrzędnych: pozostaje niezmieniona w (ortogonalnej) liniowej rekombinacji danych. Dlatego nie może wyrażać niczego na temat poszczególnych zmiennych, ale musi przechwycić właściwość całej kolekcji. Używanie go w ten sposób częściowo izoluje cię przed wprowadzeniem w błąd wyrażania się zmiennych.
whuber
1
Byłem zbyt zalany, aby dokończyć twoją rozprawę, ale jak dotąd była bardzo pomocna. Dzięki jeszcze raz.
Gung - Przywróć Monikę