Zauważyłem, że podczas majstrowania przy modelu regresji wielowymiarowej zaobserwowano niewielki, ale zauważalny efekt wielokoliniowości, mierzony współczynnikami inflacji wariancji, w kategoriach zmiennej jakościowej (oczywiście po wykluczeniu kategorii odniesienia).
Załóżmy na przykład, że mamy zestaw danych ze zmienną ciągłą y i jedną nominalną zmienną kategorialną x, która ma k możliwych wzajemnie wykluczających się wartości. Kodujemy te możliwych wartości jako zmienne obojętne 0/1 . Następnie uruchamiamy model regresji . Wyniki VIF dla zmiennych obojętnych okazują się niezerowe. W rzeczywistości, wraz ze wzrostem liczby kategorii, zwiększają się VIF. Centrowanie zmiennych fikcyjnych nie wydaje się zmieniać VIF.x 1 , x 2 , … , x k y = b 0 + b 1 x 1 + b 2 x 2 + ⋯ + b k - 1 x k - 1 k - 1
Intuicyjnym wyjaśnieniem wydaje się być to, że wzajemnie wykluczające się warunki kategorii w obrębie zmiennej kategorialnej powodują tę niewielką wielokoliniowość. Czy jest to trywialne ustalenie, czy też jest to problem, który należy wziąć pod uwagę, budując modele regresji ze zmiennymi kategorialnymi?