Załóżmy, że .
Nie wiemy dokładnie, tylko jego korelację z każdego czynnika prognostycznego, .
Zwykłym rozwiązaniem najmniejszych kwadratów (OLS) jest i nie ma problemu.
Załóżmy jednak, że jest bliskie liczbie pojedynczej (wielokoliniowość) i musisz oszacować optymalny parametr grzbietu. Wszystkie metody wydaje się potrzeba dokładnych wartości .
Czy istnieje alternatywna metoda, gdy znany jest tylko ?
regression
multicollinearity
Ząbkować
źródło
źródło
Odpowiedzi:
To interesujące pytanie. Zaskakujące jest, że można zrobić coś pod pewnymi założeniami, ale istnieje potencjalna utrata informacji o rezydualnej wariancji. To zależy od ile utracono.X
Rozważmy następującą wartość rozkładu pojedynczą o o o matrycy z ortonormalnych kolumny macierzą diagonalną o dodatniej wartości osobliwe w przekątnej i a macierz ortogonalna. Następnie kolumny tworzą ortonormalną podstawę dla przestrzeni kolumn i jest wektorem współczynników dla rzutu na tę przestrzeń kolumny po rozwinięciu wX=UDVt U n × p D d 1 ≥ d 2 ≥ . . . ≥ d p > 0 V p × p U X Z = U t Y = D - 1 V t V D U t Y = D - 1 V t X t Y Y U Z XX U n×p D d1≥d2≥...≥dp>0 V p×p U X
Ponieważ predyktor regresji grzbietu dla danego można obliczyć jako widzimy, że współczynniki dla predyktora regresji grzbietu w podstawie kolumny wynoszą Teraz przyjmujemy założenie dystrybucyjne, że ma wymiarową średnią i macierz kowariancji . Zatem ma wymiarową średnią i macierz kowariancji . Jeśli wyobrażamy sobie niezależnośćT = X ( X t X + λ I ) - 1 X t Y = U D ( D 2 + λ I ) - 1 D U T Y = U D ( D 2 + λ I ) - 1 D Z U Z = D ( D 2 + λ I ) -λ
Według standardowego obliczenia Tutaj jest znany jako efektywny stopień swobody regresji grzbietu z parametrem . Bezstronny estymator to
Łączymy to z (bezstronnym) estymatorem z biorąc pod uwagę, że wiemy , które następnie musimy zminimalizować. Oczywiście można to zrobić tylko wtedy, gdy znamy lub mamy rozsądne domysły co do estymatora .
Szacowanie może być bardziej problematyczne. Można pokazać, że Jeśli więc możliwe jest wybranie tak małej, że kwadratowe odchylenie może zostać zignorowane, możemy spróbować oszacować jako Jeśli ta praca będzie zależy wiele na .σ2
Aby uzyskać szczegółowe informacje, zobacz sekcję 3.4.1 i rozdział 7 w języku ESL lub jeszcze lepiej rozdział 2 w GAM .
źródło
Zdefiniuj jak w pytaniu i dla różnych parametrów i ustawia przykładowych etykiet. Następnie można obliczyć, ponieważ nieznane spada po rozwinięciu obu normy.β β(λ,K)=[(XTX)KK+λI]−1(XTY)K λ K e(λ,K):=∥Xβ(λ,K)−Y∥2−∥Xβ−Y∥2 ∥Y∥2
Prowadzi to do następującego algorytmu:
źródło