Jaki jest związek między częściową najmniejszą liczbą kwadratów, regresją zredukowaną i regresją składowych głównych?

16

Czy regresja zredukowana rangi i regresja głównych składników to tylko szczególne przypadki częściowych najmniejszych kwadratów?

Ten samouczek (strona 6, „Porównanie celów”) stwierdza, że ​​kiedy wykonujemy częściowe najmniejsze kwadraty bez rzutowania X lub Y (tj. „Nie częściowy”), staje się odpowiednio regresją zmniejszoną rangą lub regresją składowych głównych.

Podobne oświadczenie znajduje się na tej stronie dokumentacji SAS , w sekcjach „Regresja zmniejszonej rangi” i „Relacje między metodami”.

Bardziej fundamentalnym pytaniem jest, czy mają one podobne podstawowe modele probabilistyczne.

Minkov
źródło
To naprawdę ważny problem.
Steve
@Steve. Dzięki. Zobacz moje komentarze powyżej, aby uzyskać bardziej szczegółowe wprowadzenie.
Minkov

Odpowiedzi:

15

Są to trzy różne metody i żadnej z nich nie można uznać za szczególny przypadek innej.

Formalnie, jeśli i Y są wyśrodkowanymi zestawami danych predyktora ( n × p ) i odpowiedzi ( n × q ) i jeśli szukamy pierwszej pary osi, wR p dla X i vR q dla Y , wówczas te metody zmaksymalizuj następujące ilości:XYn×pn×qwRpXvRqY

PCA:Var(Xw)RRR:Var(Xw)Corr2(Xw,Yv)Var(Yv)PLS:Var(Xw)Corr2(Xw,Yv)Var(Yv)=Cov2(Xw,Yv)CCA:Var(Xw)Corr2(Xw,Yv)

(Dodałem kanoniczną analizę korelacji (CCA) do tej listy).


Podejrzewam, że zamieszanie może wynikać z tego, że w SAS wszystkie trzy metody wydają się być realizowane za pomocą tej samej funkcji PROC PLSz różnymi parametrami. Może się więc wydawać, że wszystkie trzy metody są szczególnymi przypadkami PLS, ponieważ tak nazywa się funkcja SAS. Jest to jednak po prostu niefortunne nazywanie. W rzeczywistości PLS, RRR i PCR to trzy różne metody, które akurat zostały zaimplementowane w SAS w jednej funkcji, która z jakiegoś powodu jest wywoływana PLS.

Oba samouczki, z którymi się łączysz, są bardzo jasne. Strona 6 samouczka prezentacji określa cele wszystkich trzech metod i tak jest nie mówi, że PLS „staje się” RRR lub PCR, w przeciwieństwie do tego, co twierdziłeś w swoim pytaniu. Podobnie dokumentacja SAS wyjaśnia, że ​​trzy metody są różne, dając formuły i intuicję:

Regresja składników podstawowych [P] wybiera czynniki, które wyjaśniają jak najwięcej zmian predyktorów, redukcja regresji rang wybiera czynniki, które wyjaśniają jak najwięcej wariantów odpowiedzi, a częściowa metoda najmniejszych kwadratów równoważy oba cele, szukając czynników, które wyjaśniają zarówno odpowiedź, jak i zmienność predyktora .

W dokumentacji SAS jest nawet rysunek przedstawiający ładny przykład zabawki, w którym trzy metody dają różne rozwiązania. W tym przykładzie zabawki są dwa predyktory i x 2 oraz jedna zmienna odpowiedzi y . Kierunek, w X , który jest najbardziej skorelowana z y stanie się prostopadła do kierunku maksymalnej wariancji X . Dlatego PC1 jest prostopadły do ​​pierwszej osi RRR, a oś PLS jest gdzieś pośrodku.x1x2yXyX

PCR, PLS, RRR

Można dodać karę grzbietową do utraconej funkcji RRR, uzyskując regresję obniżonej rangi lub RRRR. Spowoduje to pociągnięcie osi regresji w kierunku PC1, nieco podobnie do tego, co robi PLS. Jednak funkcja kosztu dla RRRR nie może być zapisana w postaci PLS, więc pozostają różne.

y

ameba mówi Przywróć Monikę
źródło
4
Stół na końcu jest bardzo pomocny. Na podstawie tej tabeli można uznać PCA, RRR i CCA za „specjalne przypadki” PLS, jeśli uważasz również, że rowery i monocykle to specjalne przypadki roweru trzykołowego. Nie myślę w ten sposób.
EdM
2
@EdM, myślę, że można powiedzieć, że wszystkie te metody są specjalnymi przypadkami jakiejś metody ujednolicającej, która tak naprawdę nie ma nazwy (ale można ją wymyślić!). Ale nazwa „PLS” ma już ustalone znaczenie i znaczenie to nie obejmuje żadnej z tych innych technik.
Ameba mówi Przywróć Monikę
1
I dzięki! Postanowiłem teraz przenieść stół na początek odpowiedzi :)
amoeba mówi Przywróć Monikę
2
XYVar(Xw)αCorr(Xw,Yv)βVar(Yv)γ
ameba mówi Przywróć Monikę
1
@ Moskowitz: Ogólnie rzecz biorąc, kiedy ludzie mówią, że metoda A jest „szczególnym przypadkiem” metody B, mają na myśli, że B jest bardziej ogólna, a A jest równoważne B z pewnymi określonymi parametrami. Oni nie znaczy, że A daje takie same wyniki jak B w pewnych szczególnych warunkach na zestawie danych. Stąd moja odpowiedź na twoje pytanie.
ameba mówi Przywróć Monikę