Czytałem Elementy uczenia statystycznego i nie mogłem zrozumieć, o co chodzi w rozdziale 3.7 „Skurcz i wybór wielu wyników”. Mówi o RRR (regresja o zmniejszonej rangi) i mogę jedynie zrozumieć, że założenie dotyczy uogólnionego wielowymiarowego modelu liniowego, w którym współczynniki są nieznane (i należy je oszacować), ale wiadomo, że nie ma pełnej rangi. To jedyna rzecz, którą rozumiem.
Reszta matematyki jest poza mną. Nie pomaga nawet to, że autorzy mówią „można pokazać” i pozostawiają rzeczy jako ćwiczenie.
Czy ktoś może pomóc wyjaśnić, co się tutaj dzieje, intuicyjnie? Czy ten rozdział rzekomo omawia nowe metody? albo co?
regression
multivariate-analysis
dimensionality-reduction
regularization
reduced-rank-regression
cgo
źródło
źródło
Odpowiedzi:
1. Co to jest regresja o zmniejszonej wartości (RRR)?
Rozważmy wielowymiarową wielokrotną regresję liniową, tj. Regresję z zmiennymi niezależnymi i q zmiennymi zależnymi. Niech X i Y będą zestawami danych predykcyjnych ( n × p ) i odpowiedzi ( n × q ). Następnie zwykłą zwykłą regresję metodą najmniejszych kwadratów (OLS) można sformułować jako minimalizującą następującą funkcję kosztów:p q X Y n×p n×q
gdzie jest macierzą wag regresji p × q . Jego rozwiązanie jest przez B O L S = ( X ⊤ X ) - 1 X ⊤ Y , i jest on łatwo zauważyć, że jest to równoważne z q oddzielne OLS regresji, po jednym dla każdej zmiennej zależnej.B p×q
Zmniejszonej pozycja regresji wprowadza ograniczenie na stopień , a mianowicie L powinny być zminimalizowane rangi ( B ) ≤ R , gdzie R jest maksymalna dopuszczalna rangę B .B L rank(B)≤r r B
2. Jak uzyskać rozwiązanie RRR?
Okazuje się, że RRR może być obsadzony jako problem wektora własnego. Rzeczywiście, wykorzystując fakt, że OLS jest zasadniczo prostopadły występ na powierzchni kolumny , można przepisać L tak L = ‖ Y - X B O L S ‖ 2 + ‖ X B O L S - X B ‖ 2 . Pierwszy termin nie zależy od B , a drugi składnik może być minimalizowana przez SVD / PCA z dopasowanymi wartościami Y = X BX L
W szczególności, jeżeli są przede r główne osie Y , a następnie B R R R = B O L S U r U ⊤ R .Ur r Y^
3. Do czego służy RRR?
Mogą istnieć dwa powody, aby używać RRR.
Po drugie, można go użyć jako metody redukcji wymiarów / eksploracji danych. Jeśli mamy wiele zmiennych predykcyjnych i kilka zmiennych zależnych, wówczas RRR konstruuje „czynniki ukryte” w przestrzeni predyktorów, które najlepiej wykonują wyjaśnienie wariancji DV. Następnie można spróbować zinterpretować te ukryte czynniki, wykreślić je itp. O ile mi wiadomo, robi się to rutynowo w ekologii, gdzie RRR jest znane jako analiza redundancji i jest przykładem tego, co nazywają metodami święceń ( patrz odpowiedź @ GavinSimpson tutaj ).
4. Związek z innymi metodami redukcji wymiarów
RRR jest ściśle powiązany z innymi metodami redukcji wymiarów, takimi jak CCA i PLS. Omówiłem to trochę w mojej odpowiedzi na pytanie: Jaki jest związek między częściowymi najmniejszymi kwadratami, regresją o zmniejszonej rangi i regresją składowych głównych?
Zobacz tam więcej szczegółów.
Zobacz Torre, 2009, A Least-Squares Framework for Component Analysis, aby uzyskać szczegółowe informacje na temat tego, jak większość powszechnych liniowych metod wielowymiarowych (np. PCA, CCA, LDA, - ale nie PLS!) Można postrzegać jako RRR.
5. Dlaczego ta sekcja w Hastie i in. takie mylące?
Nic z tego nie zostało właściwie wyjaśnione w tym rozdziale, stąd zamieszanie.
Zobacz moją odpowiedź na przyjazny samouczek lub wprowadzenie do regresji o zmniejszonej wartości do dalszego czytania.
źródło
Regresja o zmniejszonej randze to model, w którym nie ma jednego wyniku Y, ale wielu wyników Y. Oczywiście dla każdej odpowiedzi można po prostu dopasować osobną regresję liniową wielowymiarową, ale wydaje się to nieefektywne, gdy funkcjonalny związek między predyktorami i każdą odpowiedzią jest wyraźnie podobny. Zobacz to ćwiczenie kaggle w sytuacji, w której, jak sądzę, oczywiście.
https://www.kaggle.com/c/bike-sharing-demand/data
Istnieje kilka powiązanych technik podejścia do tego problemu, które budują „czynniki” lub „składniki” ze zmiennych X, które są następnie używane do przewidywania Ys. Ta strona dokumentacji SAS pomogła mi wyjaśnić różnice. Wydaje się, że zmniejszona regresja rangi polega na wyodrębnianiu składników, które maksymalnie uwzględniają zmienność między odpowiedziami, w przeciwieństwie do częściowych najmniejszych kwadratów, które wyodrębniają składniki, które maksymalnie uwzględniają różnice między odpowiedziami i predyktorami.
https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm
źródło