Regresja liniowa, gdy znasz tylko

13

Załóżmy, że .Xβ=Y

Nie wiemy dokładnie, tylko jego korelację z każdego czynnika prognostycznego, .YXtY

Zwykłym rozwiązaniem najmniejszych kwadratów (OLS) jest i nie ma problemu.β=(XtX)1XtY

Załóżmy jednak, że jest bliskie liczbie pojedynczej (wielokoliniowość) i musisz oszacować optymalny parametr grzbietu. Wszystkie metody wydaje się potrzeba dokładnych wartości .XtXY

Czy istnieje alternatywna metoda, gdy znany jest tylko ?XtY

Ząbkować
źródło
interesujące pytanie. Być może zadziałałby jakiś algorytm EM ...
probabilislogiczny
Nie rozumiem, czy nie można użyć weryfikacji krzyżowej do oszacowania optymalnego parametru grzbietu?
Pardis,
@Pardis: W pytaniu nie podano funkcji utraty, więc nie wiemy, co oznacza optymalne . Czy widzisz problemy, na które natrafimy, jeśli funkcją utraty jest MSE?
kardynał
1
@JohnSmith: Nawiązujesz do punktu, w którym jechałem. Nic nie wskazuje na to, jak zmierzyć „optymalność”. To, co skutecznie robisz, to wprowadzenie innej metryki (funkcji odległości) do pomiaru „jakości” prognozy lub dopasowania. Podejrzewam, że potrzebujemy więcej szczegółów z PO, aby dostać się bardzo daleko.
kardynał
1
@Pardis: Jak zauważyłeś, znalezienie szacunków nie stanowi problemu. :) Jeśli jednak zdecydujesz się na crossvalidację, jak zamierzasz oszacować MSE poza próbą, tj. Po lewej stronie dla każdej iteracji? :)
kardynał

Odpowiedzi:

8

To interesujące pytanie. Zaskakujące jest, że można zrobić coś pod pewnymi założeniami, ale istnieje potencjalna utrata informacji o rezydualnej wariancji. To zależy od ile utracono.X

Rozważmy następującą wartość rozkładu pojedynczą o o o matrycy z ortonormalnych kolumny macierzą diagonalną o dodatniej wartości osobliwe w przekątnej i a macierz ortogonalna. Następnie kolumny tworzą ortonormalną podstawę dla przestrzeni kolumn i jest wektorem współczynników dla rzutu na tę przestrzeń kolumny po rozwinięciu wX=UDVtU n × p D d 1d 2. . . d p > 0 V p × p U X Z = U t Y = D - 1 V t V D U t Y = D - 1 V t X t Y Y U Z XXUn×pDd1d2...dp>0Vp×pUX

Z=UtY=D1VtVDUtY=D1VtXtY
YUPodstawa kolumnyZe wzoru widzimy, że jest obliczeniowy ze znajomości i osiągalne.ZXXtY

Ponieważ predyktor regresji grzbietu dla danego można obliczyć jako widzimy, że współczynniki dla predyktora regresji grzbietu w podstawie kolumny wynoszą Teraz przyjmujemy założenie dystrybucyjne, że ma wymiarową średnią i macierz kowariancji . Zatem ma wymiarową średnią i macierz kowariancji . Jeśli wyobrażamy sobie niezależnośćT = X ( X t X + λ I ) - 1 X t Y = U D ( D 2 + λ I ) - 1 D U T Y = U D ( D 2 + λ I ) - 1 D Z U Z = D ( D 2 + λ I ) -λ

Y^=X(XtX+λI)1XtY=UD(D2+λI)1DUtY=UD(D2+λI)1DZ
U
Z^=D(D2+λI)1DZ.
Ynξσ2InZpUtξσ2IpYNew z takim samym rozkładem jak ( od tego momentu warunkowo na ) odpowiadający ma to samo dystrybucja jako i jest niezależna i Tutaj trzecia równość następuje po ortogonalności i i czwarty fakt, żeYXZNew=UtYNewZ
E||YNewY^||2=E||YNewUZNew+UZNewUZ^||2=E||YNewUZNew||2+E||UZNewUZ^||2=Err0+E||ZNewZ^||2.
YNewUZNewUZNewUZ^U ma kolumny ortonormalne. Ilość jest błędem, o którym nie możemy uzyskać żadnych informacji, ale nie zależy też od . Aby zminimalizować błąd przewidywania po lewej stronie, musimy zminimalizować drugi termin po prawej stronie.Err0λ

Według standardowego obliczenia Tutaj jest znany jako efektywny stopień swobody regresji grzbietu z parametrem . Bezstronny estymator to

E||ZNewZ^||2=E||ZZ^||2+2i=1pcov(Zi,Z^i)=E||ZZ^||2+2σ2i=1pdi2di2+λdf(λ).
df(λ)λE||ZZ^||2
err(λ)=||ZZ^||2=i=1p(1di2di2+λ)2Zi2.

Łączymy to z (bezstronnym) estymatorem z biorąc pod uwagę, że wiemy , które następnie musimy zminimalizować. Oczywiście można to zrobić tylko wtedy, gdy znamy lub mamy rozsądne domysły co do estymatora .

err(λ)+2σ2df(λ)
E||ZNewZ^||2σ2σ2σ2

Szacowanie może być bardziej problematyczne. Można pokazać, że Jeśli więc możliwe jest wybranie tak małej, że kwadratowe odchylenie może zostać zignorowane, możemy spróbować oszacować jako Jeśli ta praca będzie zależy wiele na .σ2

E||ZZ^||2=σ2(pi=1pdi2di2+λ(2di2di2+λ)d(λ))+bias(λ)2.
λσ2
σ^2=1pd(λ)||ZZ^||2.
X

Aby uzyskać szczegółowe informacje, zobacz sekcję 3.4.1 i rozdział 7 w języku ESL lub jeszcze lepiej rozdział 2 w GAM .

NRH
źródło
0

Zdefiniuj jak w pytaniu i dla różnych parametrów i ustawia przykładowych etykiet. Następnie można obliczyć, ponieważ nieznane spada po rozwinięciu obu normy.ββ(λ,K)=[(XTX)KK+λI]1(XTY)KλKe(λ,K):=Xβ(λ,K)Y2XβY2Y2

Prowadzi to do następującego algorytmu:

  • Obliczyć dla pewnych wyborów zbioru szkolenie .Ke(λ,K)K
  • Wykreśl wyniki jako funkcję .λ
  • Zaakceptuj wartość gdzie wykres jest najbardziej płaski.λ
  • Użyj jako ostatecznego oszacowania.β=[XTX+λI]1XTY
Arnold Neumaier
źródło
1
Zgaduję, że „gdzie fabuła jest najbardziej płaska” będzie w bardzo mała, jak z grubsza 0 :)λ
jbowman
@jbowman: Stanie się tak tylko wtedy, gdy problem będzie dobrze uwarunkowany i nie wymaga regularności, wtedy jest rzeczywiście wystarczające. W przypadku źle uwarunkowanym przewidywanie pozycji poza będzie słabe z powodu przeregulowania, a zatem będzie duże. K e ( λ , K )λ=0Ke(λ,K)
Arnold Neumaier
3
@ArnoldNeumaier: nie jest obliczalny. Znamy tylko korelację z każdym predyktorem. znajduje się w „domenie predyktora”, a nie w „domenie Y” (jeśli N jest rozmiarem próby, a p liczbą predyktorów, mamy tylko wartości p, po jednej dla każdego predyktora). ( X T Y )(XTY)K(XTY)
Jag
@Jag: Wówczas nie ma wystarczających informacji, aby wybrać . Ale musiało być jakoś zebrane. Jeśli podczas jej zbierania podzielisz próbkę na partii i złożysz osobno dla każdej partii, wówczas możesz zarezerwować jedną partię dla weryfikacji krzyżowej. X T Y k X T YλXTYkXTY
Arnold Neumaier,
@ArnoldNeumaier: są podawane zewnętrznie, nie zbierane. XTY
Jag