VIF, indeks stanu i wartości własne

15

Obecnie oceniam wielokoliniowość w moich zestawach danych.

Jakie wartości progowe VIF i wskaźnika stanu poniżej / powyżej sugerują problem?

VIF: Słyszałem, że VIF jest problemem.10

Po usunięciu dwóch zmiennych problemowych VIF wynosi dla każdej zmiennej. Czy zmienne wymagają dalszego leczenia, czy też ten VIF wydaje się w porządku?3,96

Indeks stanów : Słyszałem, że indeks stanów (CI) wynoszący 30 lub więcej stanowi problem. Moje najwyższe CI wynosi 16,66. Czy to problem?

Inne sprawy:

  • Czy są jakieś inne dos / donts, które należy wziąć pod uwagę?
  • Czy są jeszcze inne rzeczy, o których muszę pamiętać?
ayush biyani
źródło
1
Proszę wyjaśnić pytanie. W szczególności były to niektóre komentarze z przeszłości: autor @chl - „powinieneś rozważyć napisanie jasnych pytań (są one interesujące same w sobie), z jednym ostatecznym problemem i zarezerwować komentarze na dodatkowe informacje związane z pierwotnym pytaniem, a nie następujące- w górę". Autorstwa @shane - „Odnośnie tego obecnego pytania: można go również poprawić, ponieważ zadaje wiele różnych pytań bez wyraźnego wspólnego wątku. Czy ogólnie interesuje Cię wielokoliniowość? Czy interesuje Cię VIF? Lepiej byłoby je przełamać dla jasności."

Odpowiedzi:

5

Problem wielokoliniowości jest dobrze zbadany w większości podręczników ekonometrycznych. Ponadto w Wikipedii znajduje się dobry artykuł, który podsumowuje większość kluczowych zagadnień.

XT.X

  1. duże zmiany w oszacowaniach parametrów podczas wykonywania regresywnych regresji lub oszacowań na mniejszych podpróbkach danych
  2. tfa
  3. R2)
  4. Indeks warunków jest alternatywą dla VIF w twoim przypadku ani VIF, ani CI nie pokazują, że problem został pozostawiony, więc możesz być zadowolony statystycznie z tego wyniku, ale ...

prawdopodobnie nie teoretycznie, ponieważ może się zdarzyć (i zwykle tak jest), że wszystkie zmienne są obecne w modelu. Wykluczenie odpowiednich zmiennych (problem zmiennej pominiętej) spowoduje i tak tendencyjne i niespójne oszacowanie parametrów. Z drugiej strony możesz zostać zmuszony do włączenia wszystkich zmiennych fokusowych tylko dlatego, że twoja analiza jest na ich podstawie. W podejściu do eksploracji danych jesteś jednak bardziej techniczny w poszukiwaniu najlepszego dopasowania.

Pamiętaj więc o alternatywach (z których skorzystałbym sam):

  1. uzyskać więcej punktów danych (należy pamiętać, że wymagania VIF są mniejsze w przypadku większego zestawu danych, a zmienne objaśniające, jeśli powoli się zmieniają, mogą ulec zmianie w przypadku niektórych kluczowych punktów w czasie lub przekroju)
  2. szukaj czynników ukrytych za pomocą głównych składników (te ostatnie są kombinacjami ortogonalnymi, więc nie są wielokliniowe przez konstrukcję, a ponadto obejmują wszystkie zmienne objaśniające)
  3. regresja grzbietowa (wprowadza niewielkie odchylenie w oszacowaniach parametrów, ale czyni je wysoce stabilnymi)

Niektóre inne sztuczki znajdują się w wyżej wspomnianym artykule na wiki.

Dmitrij Celov
źródło
3

Uważam, że Belsely powiedział, że CI powyżej 10 wskazuje na możliwy umiarkowany problem, podczas gdy powyżej 30 jest poważniejszy.

Ponadto należy jednak przyjrzeć się wariancji dzielonej przez zestawy zmiennych we wskaźnikach wysokiego warunku. Toczy się debata (lub była, kiedy ostatnio czytałem tę literaturę) na temat tego, czy kolinearność, która dotyczyła jednej zmiennej i przechwytywania, była problematyczna, czy też nie, i czy wyśrodkowanie zmiennej przestępczej pozbyło się problemu, czy po prostu przeniosło go gdzie indziej.

Peter Flom - Przywróć Monikę
źródło