Regresja w ustawieniu

15

Próbuję zobaczyć, czy wybrać regresję grzbietu , LASSO , regresję głównego składnika (PCR), czy częściowe najmniejsze kwadraty (PLS) w sytuacji, gdy istnieje duża liczba zmiennych / cech ( p ) i mniejsza liczba próbek ( n<p ), a moim celem jest przewidywanie.

To moje zrozumienie:

  1. Regresja grzbietowa zmniejsza współczynniki regresji, ale wykorzystuje wszystkie współczynniki bez powodowania ich .0

  2. LASSO również zmniejsza współczynniki, ale także czyni je , co oznacza, że ​​może również dokonywać wyboru zmiennych.0

  3. Regresja głównej składowej obcina składniki, tak że staje się mniejsze niż n ; odrzuci komponenty p - n .pnpn

  4. Częściowy najmniejszy kwadrat konstruuje również zestaw liniowych kombinacji danych wejściowych do regresji, ale w przeciwieństwie do PCR wykorzystuje (oprócz X ) do zmniejszenia wymiarów. Główną praktyczną różnicą między regresją PCR i PLS jest to, że PCR często potrzebuje więcej składników niż PLS, aby osiągnąć ten sam błąd prognozowania ( patrz tutaj ).yX

Rozważ następujące dane pozorne (dane, z którymi próbuję pracować, są podobne):

#random population of 200 subjects with 1000 variables 

M <- matrix(rep(0,200*100),200,1000)
for (i in 1:200) {
set.seed(i)
  M[i,] <- ifelse(runif(1000)<0.5,-1,1)
}
rownames(M) <- 1:200

#random yvars 
set.seed(1234)
u <- rnorm(1000)
g <- as.vector(crossprod(t(M),u))
h2 <- 0.5 
set.seed(234)
y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g)))

myd <- data.frame(y=y, M)

Wdrożenie czterech metod:

 require(glmnet)

 # LASSO 
 fit1=glmnet(M,y, family="gaussian", alpha=1)

 # Ridge   
 fit1=glmnet(M,y, family="gaussian", alpha=0)

 # PLS
 require(pls)
 fit3 <- plsr(y ~ ., ncomp = 198, data = myd, validation = "LOO")
 # taking 198 components and using leave-one-out cross validation 
 summary(fit3)
 plot(RMSEP(fit3), legendpos = "topright")

 # PCR 
 fit4 <- pcr(y ~ ., ncomp = 198, data = myd, validation = "LOO")

Najlepszy opis danych to:

  1. , najczęściej p > 10 n ;p>np>10n

  2. Zmienne ( i Y ) są skorelowane ze sobą w różnym stopniu.XY

Moje pytanie brzmi, która strategia może być najlepsza w tej sytuacji? Dlaczego?

Ram Sharma
źródło
6
Nie mam od razu odpowiedzi, ale rozdział 18 elementów statystycznego uczenia się jest poświęcony temu tematowi i obejmuje, jak sądzę, wszystkie techniki, o których wspomniałeś.
shadowtalker
@ssdecontrol Dziękujemy za opublikowaną książkę. Tak pomocna
Christina

Odpowiedzi:

30

Myślę, że nie ma jednej odpowiedzi na twoje pytanie - zależy to od wielu sytuacji, danych i tego, co próbujesz zrobić. Niektóre modyfikacje można lub należy modyfikować, aby osiągnąć cel. Poniższa ogólna dyskusja może jednak pomóc.

Zanim przejdziemy do bardziej zaawansowanych metod, najpierw omówmy podstawowy model: regresję najmniejszych kwadratów (LS) . Istnieją dwa powody, dla których oszacowanie parametrów metodą najmniejszych kwadratów w pełnym modelu jest niezadowalające:

  1. Jakość prognozy : Szacunki dotyczące najmniejszych kwadratów często mają niewielkie odchylenie, ale dużą zmienność. Jakość prognozy można czasem poprawić, zmniejszając współczynniki regresji lub ustawiając niektóre współczynniki równe zeru. W ten sposób zwiększa się odchylenie, ale wariancja prognozy znacznie się zmniejsza, co prowadzi do ogólnej poprawy prognozy. Ten kompromis między odchyleniem a wariancją można łatwo dostrzec, dekomponując średni błąd kwadratowy (MSE). Mniejszy MSE prowadzi do lepszego przewidywania nowych wartości.

  2. Interpretowalność : Jeśli dostępnych jest wiele zmiennych predykcyjnych, sensowne jest zidentyfikowanie tych, które mają największy wpływ, i ustawienie tych na zero, które nie są istotne dla prognozy. W ten sposób eliminujemy zmienne, które wyjaśnią tylko niektóre szczegóły, ale zachowujemy te, które pozwalają na główne wyjaśnienie zmiennej odpowiedzi.

kk{0,1,...,p}304040n>pp

βzk,k=1,2,...,qxj

Metody różnią się w konstruowaniu kombinacji liniowych. Regresja głównych składników (PCR) szuka transformacji oryginalnych danych w nowy zestaw nieskorelowanych zmiennych zwanych głównymi składnikami .

yXyXβγγqpXyy

λ0λ

ββ

Xpq

YiRóżnica między L1 i L2 polega na tym, że L2 jest sumą kwadratu odważników, podczas gdy L1 jest tylko sumą odważników. Norma L1 zwykle wytwarza rzadkie współczynniki i ma wbudowany wybór funkcji . Norma L1 nie ma rozwiązania analitycznego, ale norma L2 ma. Pozwala to na obliczeniowe rozwiązania norm L2. Norma L2 ma unikalne rozwiązania, a norma L1 nie.

s0s

pN

Analiza głównych składników jest skuteczną metodą znajdowania liniowych kombinacji cech, które wykazują duże zróżnicowanie w zbiorze danych. Ale tutaj szukamy kombinacji liniowych o dużej wariancji i znacznej korelacji z wynikiem. Dlatego chcemy zachęcić analizę głównych składowych do znalezienia liniowych kombinacji cech, które mają wysoką korelację z wynikami - nadzorowanych głównych składników (patrz strona 678, Algorytm 18.1, w książce Elementy uczenia statystycznego ).

Częściowe najmniejsze kwadraty obciążają głośne elementy, ale ich nie wyrzucają; w rezultacie duża liczba głośnych funkcji może zanieczyścić prognozy. Progowy PLS może być postrzegany jako hałaśliwa wersja nadzorowanych głównych komponentów, dlatego też nie możemy oczekiwać, że będzie on działał równie dobrze w praktyce. Nadzorowane główne elementy mogą dawać niższe błędy testowe niż Próg PLS . Jednak nie zawsze tworzy rzadki model obejmujący tylko niewielką liczbę funkcji.

p

rdorlearn
źródło
1
Bias2+Variance
2
Co masz na myśli, mówiąc „norma L2 ma unikalne rozwiązania, a norma L1 nie ma”? Cel lasso jest wypukły ...
Andrew M,