Czy występuje problem z wielokoliniowością i regresją splajnów?

12

Podczas korzystania z naturalnych (tj. Ograniczonych) splajnów sześciennych, tworzone funkcje podstawowe są wysoce współliniowe, a po zastosowaniu w regresji wydają się generować bardzo wysokie statystyki VIF (współczynnik inflacji wariancji), sygnalizując wielokoliniowość. Czy rozważając przypadek modelu do celów prognozowania, jest to problem? Wydaje się, że zawsze tak będzie ze względu na charakter konstrukcji splajnu.

Oto przykład w R:

library(caret)
library(Hmisc)
library(car)
data(GermanCredit)

spl_mat<-rcspline.eval(GermanCredit$Amount,  nk=5, inclx=TRUE) #natural cubic splines with 5 knots

class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable
dat<-data.frame(cbind(spl_mat,class))

cor(spl_mat)

OUTPUT:
              x                              
    x 1.0000000 0.9386463 0.9270723 0.9109491
      0.9386463 1.0000000 0.9994380 0.9969515
      0.9270723 0.9994380 1.0000000 0.9989905
      0.9109491 0.9969515 0.9989905 1.0000000


mod<-glm(class~.,data=dat,family=binomial()) #model

vif(mod) #massively high

OUTPUT:
x         V2         V3         V4 
319.573 204655.833 415308.187  45042.675

AKTUALIZACJA:

Dotarłem do doktora Harrella, autora pakietu Hmisc w R (i innych), i odpowiedział, że dopóki algorytm jest zbieżny (np. Regresja logistyczna), a standardowe błędy nie wybuchły (jak Maarten powiedział poniżej) - i model pasuje dobrze, najlepiej pokazany na zestawie testowym, wtedy nie ma problemu z tą kolinearnością.

Ponadto stwierdził (i znajduje się to na stronie 65 jego doskonałej książki Strategie modelowania regresji ), że kolinearność między zmiennymi skonstruowanymi w sposób algebraiczny, jak ograniczone splajny sześcienne, nie jest problemem, ponieważ wielokoliniowość ma znaczenie tylko wtedy, gdy ta kolinearność zmienia się z próbki na próbkę.

B_Miner
źródło
1
Zawsze możesz ortogonalizować wygenerowane splajny (na przykład rcsgenpolecenie Stata używa ortogonalizatonu Gram-Schmidta)
boscovich 25.09.2013

Odpowiedzi:

7

Wielokoliniowość może prowadzić do problemów numerycznych przy szacowaniu takiej funkcji. Dlatego niektórzy używają splajnów B (lub odmian tego tematu) zamiast ograniczonych sześciennych splajnów. Tak więc, widzę ograniczone splajny sześcienne jako jedno potencjalnie przydatne narzędzie w większym zestawie narzędzi.

Maarten Buis
źródło
Cześć Maarten, kiedy mówisz, że problemy numeryczne odnoszą się do konwergencji czy coś takiego? Jeśli regresja zbiegła się i wydaje się, że dobrze sprawdza się na zestawie testowym - czy doszedłeś do wniosku, że sytuacja nie stanowi problemu?
B_Miner
Jeśli występują problemy numeryczne, brak konwergencji jest prawdopodobną (ale nie konieczną) konsekwencją. Nierealistyczne szacunki współczynników i / lub nierealistycznie wysokie błędy standardowe są innymi możliwymi konsekwencjami.
Maarten Buis,
1
Bardzo pomogły metody takie jak rozkład QR. Jednak nadal możesz złamać nowoczesne oprogramowanie, stało się to trudniejsze.
Maarten Buis,
1
To nie może być problem. Ale jeśli występuje problem numeryczny, scale=TRUEargument niektórych funkcji dopasowania w rmspakiecie R ujednolici wszystkie kolumny przed dopasowaniem i unormuje współczynniki po dopasowaniu w sposób, którego użytkownik nie musi uwzględniać.
Frank Harrell,
2
Nie patrz tak bardzo na indywidualne współczynniki i standardowe błędy. Spójrz na całą dopasowaną krzywą.
Frank Harrell,