Czy regresja zredukowana rangi i regresja głównych składników to tylko szczególne przypadki częściowych najmniejszych kwadratów?
Ten samouczek (strona 6, „Porównanie celów”) stwierdza, że kiedy wykonujemy częściowe najmniejsze kwadraty bez rzutowania X lub Y (tj. „Nie częściowy”), staje się odpowiednio regresją zmniejszoną rangą lub regresją składowych głównych.
Podobne oświadczenie znajduje się na tej stronie dokumentacji SAS , w sekcjach „Regresja zmniejszonej rangi” i „Relacje między metodami”.
Bardziej fundamentalnym pytaniem jest, czy mają one podobne podstawowe modele probabilistyczne.
Odpowiedzi:
Są to trzy różne metody i żadnej z nich nie można uznać za szczególny przypadek innej.
Formalnie, jeśli i Y są wyśrodkowanymi zestawami danych predyktora ( n × p ) i odpowiedzi ( n × q ) i jeśli szukamy pierwszej pary osi, w ∈ R p dla X i v ∈ R q dla Y , wówczas te metody zmaksymalizuj następujące ilości:X Y n×p n×q w∈Rp X v∈Rq Y
(Dodałem kanoniczną analizę korelacji (CCA) do tej listy).
Podejrzewam, że zamieszanie może wynikać z tego, że w SAS wszystkie trzy metody wydają się być realizowane za pomocą tej samej funkcji
PROC PLS
z różnymi parametrami. Może się więc wydawać, że wszystkie trzy metody są szczególnymi przypadkami PLS, ponieważ tak nazywa się funkcja SAS. Jest to jednak po prostu niefortunne nazywanie. W rzeczywistości PLS, RRR i PCR to trzy różne metody, które akurat zostały zaimplementowane w SAS w jednej funkcji, która z jakiegoś powodu jest wywoływanaPLS
.Oba samouczki, z którymi się łączysz, są bardzo jasne. Strona 6 samouczka prezentacji określa cele wszystkich trzech metod i tak jest nie mówi, że PLS „staje się” RRR lub PCR, w przeciwieństwie do tego, co twierdziłeś w swoim pytaniu. Podobnie dokumentacja SAS wyjaśnia, że trzy metody są różne, dając formuły i intuicję:
W dokumentacji SAS jest nawet rysunek przedstawiający ładny przykład zabawki, w którym trzy metody dają różne rozwiązania. W tym przykładzie zabawki są dwa predyktory i x 2 oraz jedna zmienna odpowiedzi y . Kierunek, w X , który jest najbardziej skorelowana z y stanie się prostopadła do kierunku maksymalnej wariancji X . Dlatego PC1 jest prostopadły do pierwszej osi RRR, a oś PLS jest gdzieś pośrodku.x1 x2 y X y X
Można dodać karę grzbietową do utraconej funkcji RRR, uzyskując regresję obniżonej rangi lub RRRR. Spowoduje to pociągnięcie osi regresji w kierunku PC1, nieco podobnie do tego, co robi PLS. Jednak funkcja kosztu dla RRRR nie może być zapisana w postaci PLS, więc pozostają różne.
źródło