Teoria stojąca za częściową regresją najmniejszych kwadratów

Sekcja 3.5.2 w Elementy uczenia statystycznego jest przydatna, ponieważ umieszcza regresję PLS we właściwym kontekście (innych metod regularyzacji), ale w rzeczywistości jest bardzo krótka i pozostawia niektóre ważne stwierdzenia jako ćwiczenia. Ponadto uwzględnia jedynie przypadek zmiennej zależnej jednowymiarowej . $\mathbf y$

Literatura na temat PLS jest obszerna, ale może być dość myląca, ponieważ istnieje wiele różnych „smaków” PLS: wersje jednoczynnikowe z pojedynczym DV (PLS1) i wersje wielowymiarowe z kilkoma DVs (PLS2), wersje symetryczne leczące i równe i asymetryczne wersje („regresja PLS”) traktujące jako zmienne niezależne, a jako zmienne zależne, wersje umożliwiające globalne rozwiązanie za pośrednictwem SVD oraz wersje wymagające iteracyjnej deflacji w celu wygenerowania każdej następnej pary kierunków PLS itp. itp. $\mathbf y$ $\mathbf Y$ $\mathbf X$ $\mathbf Y$ $\mathbf X$ $\mathbf Y$

Wszystko to zostało opracowane w dziedzinie chemometrii i pozostaje w pewnym stopniu odłączone od „głównego nurtu” literatury statystycznej lub uczenia maszynowego.

Artykuł przeglądowy, który uważam za najbardziej użyteczny (i który zawiera wiele innych odniesień) to:

Rosipal i Krämer, 2006, Przegląd i najnowsze postępy w częściowych najmniejszych kwadratach

W celu bardziej teoretycznej dyskusji mogę dodatkowo polecić:

Frank & Friedman, 1993, Statystyczny pogląd na niektóre narzędzia regresji chemometrii

Krótki starter na regresji PLS z jednoczynnikowym $y$ (aka PLS1, aka SIMPLS)

Celem regresji jest oszacowanie w modelu liniowym . Rozwiązanie OLS ma wiele właściwości optymalnych, ale może cierpieć z powodu przeregulowania. Rzeczywiście, OLS szuka że wydajność najwyższy możliwy korelacji z . Jeśli istnieje wiele predyktorów, zawsze można znaleźć kombinację liniową, która okazuje się mieć wysoką korelację . To będzie fałszywa korelacja i tak dalej $\beta$ $y=X\beta + \epsilon$ $\beta=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y$ $\beta$ $\mathbf X \beta$ $\mathbf y$ $\mathbf y$ zazwyczaj skierowany w kierunku wyjaśniając bardzo małą zmienność w . Wskazówki wyjaśniające bardzo małą wariancję są często bardzo „hałaśliwymi” kierunkami. Jeśli tak, to nawet jeśli na danych szkoleniowych rozwiązanie OLS działa świetnie, na testowaniu danych będzie działać znacznie gorzej. $\beta$ $\mathbf X$

Aby zapobiec nadmiernemu dopasowaniu, stosuje się metody regularyzacji, które zasadniczo zmuszają do wskazywania kierunków wysokiej wariancji w (jest to również nazywane „kurczeniem” ; patrz Dlaczego działa skurcz? ). Jedną z takich metod jest regresja głównych składników (PCR), która po prostu odrzuca wszystkie kierunki niskiej wariancji. Kolejną (lepszą) metodą jest regresja kalenicowa, która płynnie karkuje kierunki o niskiej wariancji. Jeszcze inną metodą jest PLS1. $\beta$ $\mathbf X$ $\beta$

PLS1 zastępuje celu ole znalezienie , który maksymalizuje korelacji z alternatywnym celu znalezienia o długości maksymalizacji kowariancji $\beta$ $\operatorname{corr}(\mathbf X \beta, \mathbf y)$ $\beta$ $\|\beta\|=1$ który ponownie skutecznie karze kierunki niskiej wariancji.

cov (X β, y) \sim corr (X β, y) \cdot \sqrt{var (X β)},

$\operatorname{cov}(\mathbf X \beta, \mathbf y)\sim\operatorname{corr}(\mathbf X \beta, \mathbf y)\cdot\sqrt{\operatorname{var}(\mathbf X \beta)},$

Znalezienie takiego (nazwijmy to ) daje pierwszy składnik PLS . Można ponadto wygląd na sekundę, a następnie (trzeciej itd PLS), składnika, który ma najwyższą kowariancji z pod przymusem są nieskorelowane, przy wszystkich poprzednich elementów. Należy to rozwiązać iteracyjnie, ponieważ nie ma rozwiązania w formie zamkniętej dla wszystkich składników (kierunek pierwszego składnika jest po prostu podany przez $\beta$ $\beta_1$ $\mathbf z_1 = \mathbf X \beta_1$ $\mathbf y$ $\beta_1$ $\mathbf X^\top \mathbf y$ znormalizowana do długości jednostkowej). Po wyodrębnieniu pożądanej liczby składników regresja PLS odrzuca oryginalne predyktory i wykorzystuje komponenty PLS jako nowe predyktory; Daje to pewne liniowe ich kombinacji , które mogą być łączone ze wszystkimi do utworzenia ostatecznego . $\beta_z$ $\beta_i$ $\beta_\mathrm{PLS}$

Uwaga:

Jeśli wszystkie komponenty PLS1 są używane, PLS będzie równoważne OLS. Zatem liczba składników służy jako parametr regularyzacji: im niższa liczba, tym silniejsza regularyzacja.
Jeśli predyktory są nieskorelowane i wszystkie mają tę samą wariancję (tj. został wybielony ), wówczas istnieje tylko jeden składnik PLS1 i jest on równoważny OLS. $\mathbf X$ $\mathbf X$
Wektory Masa i o nie będą prostopadłe, ale wydajność nieskorelowane komponenty i . $\beta_i$ $\beta_j$ $i\ne j$ $\mathbf z_i=\mathbf X \beta_i$ $\mathbf z_j=\mathbf X \beta_j$

Biorąc to wszystko pod uwagę, nie jestem świadomy żadnych praktycznych zalet regresji PLS1 w porównaniu z regresją kalenicową (podczas gdy ta ostatnia ma wiele zalet: jest ciągła i nie dyskretna, ma rozwiązanie analityczne, jest znacznie bardziej standardowa, pozwala na rozszerzenia jądra i analityczne wzory na pomijalne błędy weryfikacji krzyżowej itp.).

Cytowanie od Franka i Friedmana:

RR, PCR i PLS przedstawiono w części 3, aby działać w podobny sposób. Ich głównym celem jest zmniejszenie wektora współczynnika rozwiązania od rozwiązania OLS w kierunku kierunków w przestrzeni zmiennej predyktorowej dla większego rozproszenia próbki. Widać, że PCR i PLS kurczą się mocniej od kierunków małego rozprzestrzeniania się niż RR, co zapewnia optymalny skurcz (wśród estymatorów liniowych) dla wcześniejszego kierunku w przeciwnych kierunkach. Zatem PCR i PLS przyjmują założenie, że prawda może mieć szczególne preferencyjne dopasowania z kierunkami dużego rozproszenia rozkładu zmiennej predyktorowej (próbki). Nieco zaskakującym wynikiem jest, PLS (dodatkowo) silniejszej masy prawdopodobieństwa na prawdziwej współczynnik wektora wyrównywania z p kierunku głównym składnikiem, gdzie $K$ $K$ jest liczbą zastosowanych komponentów PLS, w rzeczywistości rozszerzając rozwiązanie OLS w tym kierunku.

Przeprowadzają również szeroko zakrojone badania symulacyjne i wnioskują (podkreślenie moje):

W sytuacjach objętych tym badaniem symulacyjnym można stwierdzić, że wszystkie tendencyjne metody (RR, PCR, PLS i VSS) zapewniają znaczną poprawę w stosunku do OLS. [...] We wszystkich sytuacjach RR dominował nad wszystkimi innymi badanymi metodami. PLS zwykle radził sobie prawie tak dobrze jak RR i zwykle przewyższał PCR, ale nie bardzo.

Aktualizacja: W komentarzach @cbeleites (który pracuje w chemometrii) sugeruje dwie możliwe zalety PLS nad RR:

$\lambda$
$\beta_\mathrm{RR}$ $\beta_i$ $y$ $y$ $\beta_1, \beta_2,$ $\beta_\mathrm{PLS}$

ameba mówi Przywróć Monikę
źródło

Ten papier wygląda na użyteczny. Nie sądzę, żeby odnosiło się to do tego, ile nadmiernego dopasowania może być spowodowane przez PLS.

Frank Harrell,

Zgadza się, @Frank, ale szczerze mówiąc, jeśli chodzi o wydajność predykcyjną, nie widzę większego sensu w robieniu niczego poza regresją grzbietu (a może elastycznej siatki, jeśli pożądana jest również rzadkość). Moje własne zainteresowanie PLS dotyczy aspektu redukcji wymiarów, gdy oba

X

$X$ i

Y

$Y$ są wielowymiarowe; więc nie jestem bardzo zainteresowany tym, jak PLS działa jako technika regularyzacji (w porównaniu z innymi metodami regularyzacji). Kiedy mam model liniowy, który muszę uregulować, wolę używać kalenicy. Zastanawiam się, jakie jest twoje doświadczenie tutaj?

ameba mówi Przywróć Monikę

Z mojego doświadczenia wynika, że grzbiet (kwadratowe oszacowanie maksymalnego prawdopodobieństwa karane) daje lepsze przewidywania. Myślę, że niektórzy analitycy uważają, że PLS jest techniką redukcji wymiarów w sensie unikania nadmiernego dopasowania, ale rozumiem, że tak nie jest.

Frank Harrell,

b) jeśli szukasz, powiedzmy, spektroskopowej interpretacji tego, co robi model, łatwiej mi jest spojrzeć na ładunki PLS, jakie rodzaje substancji są mierzone. Można tam znaleźć jedną lub dwie substancje / klasy substancji, przy czym współczynniki, które obejmują wszystkie zmienne ukryte, są trudniejsze do interpretacji, ponieważ łączony jest udział widmowy większej liczby substancji. Jest to bardziej widoczne, ponieważ nie mają zastosowania wszystkie zwykłe reguły interpretacji spektralnej: model PLS może wybierać niektóre pasma substancji, ignorując inne. Interpretacja widm „normalna” wykorzystuje wiele tego pasma ...

cbeleites obsługuje Monikę

... pochodzą z tej czy innej substancji. Jeśli jest to ta substancja, musi istnieć ten drugi zespół. Ponieważ ta ostatnia możliwość weryfikacji substancji nie jest możliwa w przypadku zmiennych utajonych / obciążeń / współczynników, interpretacja rzeczy, które różnią się razem, a zatem uzyskanie tej samej zmiennej utajonej, jest znacznie łatwiejsza niż interpretacja współczynników, które już podsumowują wszystkie rodzaje możliwych „wskazówek” ”, które są znane z modelu.

cbeleites obsługuje Monikę

Teoria stojąca za częściową regresją najmniejszych kwadratów

Odpowiedzi:

Krótki starter na regresji PLS z jednoczynnikowym yyy (aka PLS1, aka SIMPLS)

Krótki starter na regresji PLS z jednoczynnikowym $y$ (aka PLS1, aka SIMPLS)