Teoria stojąca za częściową regresją najmniejszych kwadratów

33

Czy ktoś może polecić dobre przedstawienie teorii stojącej za częściową regresją najmniejszych kwadratów (dostępną online) dla kogoś, kto rozumie SVD i PCA? Przejrzałem wiele źródeł online i nie znalazłem niczego, co miałoby właściwe połączenie rygorystyczności i dostępności.

Przyjrzałem się elementom uczenia statystycznego , które zostały zasugerowane w komentarzu do pytania zadanego na temat Cross Validated : Co to jest regresja częściowych najmniejszych kwadratów (PLS) i czym różni się od OLS? , ale nie sądzę, że to odniesienie oddaje sprawiedliwość tematu (jest to zbyt krótkie, aby to zrobić i nie zawiera zbyt wiele teorii na ten temat). Z tego, co przeczytałem, PLS wykorzystuje liniowe kombinacje zmiennych predykcyjnych, zi=Xφi które maksymalizują kowariancję zyTzi zastrzeżeniem ograniczeń φi=1 i jeśli i j , gdzie φ i są wybierane iteracyjnie, w kolejności, w której maksymalizują kowariancję. Ale nawet po tym, co przeczytałem, wciąż nie jestem pewien, czy to prawda, a jeśli tak, to w jaki sposób metoda jest wykonywana.ziTzj=0ijφi

clarpaul
źródło

Odpowiedzi:

38

Sekcja 3.5.2 w Elementy uczenia statystycznego jest przydatna, ponieważ umieszcza regresję PLS we właściwym kontekście (innych metod regularyzacji), ale w rzeczywistości jest bardzo krótka i pozostawia niektóre ważne stwierdzenia jako ćwiczenia. Ponadto uwzględnia jedynie przypadek zmiennej zależnej jednowymiarowej .y

Literatura na temat PLS jest obszerna, ale może być dość myląca, ponieważ istnieje wiele różnych „smaków” PLS: wersje jednoczynnikowe z pojedynczym DV (PLS1) i wersje wielowymiarowe z kilkoma DVs Y (PLS2), wersje symetryczne leczące X i Y równe i asymetryczne wersje („regresja PLS”) traktujące X jako zmienne niezależne, a Y jako zmienne zależne, wersje umożliwiające globalne rozwiązanie za pośrednictwem SVD oraz wersje wymagające iteracyjnej deflacji w celu wygenerowania każdej następnej pary kierunków PLS itp. itp.yYXYXY

Wszystko to zostało opracowane w dziedzinie chemometrii i pozostaje w pewnym stopniu odłączone od „głównego nurtu” literatury statystycznej lub uczenia maszynowego.

Artykuł przeglądowy, który uważam za najbardziej użyteczny (i który zawiera wiele innych odniesień) to:

W celu bardziej teoretycznej dyskusji mogę dodatkowo polecić:


Krótki starter na regresji PLS z jednoczynnikowym y (aka PLS1, aka SIMPLS)

Celem regresji jest oszacowanie w modelu liniowym y = X β + ϵ . Rozwiązanie OLS β = ( XX ) - 1 X enjoy y ma wiele właściwości optymalnych, ale może cierpieć z powodu przeregulowania. Rzeczywiście, OLS szuka p że wydajność najwyższy możliwy korelacji X P z y . Jeśli istnieje wiele predyktorów, zawsze można znaleźć kombinację liniową, która okazuje się mieć wysoką korelację zy . To będzie fałszywa korelacja i tak dalejβy=Xβ+ϵβ=(XX)1XyβXβyy zazwyczaj skierowany w kierunku wyjaśniając bardzo małą zmienność w X . Wskazówki wyjaśniające bardzo małą wariancję są często bardzo „hałaśliwymi” kierunkami. Jeśli tak, to nawet jeśli na danych szkoleniowych rozwiązanie OLS działa świetnie, na testowaniu danych będzie działać znacznie gorzej.βX

Aby zapobiec nadmiernemu dopasowaniu, stosuje się metody regularyzacji, które zasadniczo zmuszają do wskazywania kierunków wysokiej wariancji w X (jest to również nazywane „kurczeniem” β ; patrz Dlaczego działa skurcz? ). Jedną z takich metod jest regresja głównych składników (PCR), która po prostu odrzuca wszystkie kierunki niskiej wariancji. Kolejną (lepszą) metodą jest regresja kalenicowa, która płynnie karkuje kierunki o niskiej wariancji. Jeszcze inną metodą jest PLS1.βXβ

PLS1 zastępuje celu ole znalezienie , który maksymalizuje korelacji corr ( X, p , y ), z alternatywnym celu znalezienia p o długości β = 1 maksymalizacji kowariancji cov ( X β , y ) ~ Corr ( X β , y ) βcorr(Xβ,y)ββ=1który ponownie skutecznie karze kierunki niskiej wariancji.

cov(Xβ,y)corr(Xβ,y)var(Xβ),

Znalezienie takiego (nazwijmy to β 1 ) daje pierwszy składnik PLS z 1 = X β 1 . Można ponadto wygląd na sekundę, a następnie (trzeciej itd PLS), składnika, który ma najwyższą kowariancji z y pod przymusem są nieskorelowane, przy wszystkich poprzednich elementów. Należy to rozwiązać iteracyjnie, ponieważ nie ma rozwiązania w formie zamkniętej dla wszystkich składników (kierunek pierwszego składnika β 1 jest po prostu podany przez Xyββ1z1=Xβ1yβ1Xyznormalizowana do długości jednostkowej). Po wyodrębnieniu pożądanej liczby składników regresja PLS odrzuca oryginalne predyktory i wykorzystuje komponenty PLS jako nowe predyktory; Daje to pewne liniowe ich kombinacji , które mogą być łączone ze wszystkimi β i do utworzenia ostatecznego p P L S .βzβiβPLS

Uwaga:

  1. Jeśli wszystkie komponenty PLS1 są używane, PLS będzie równoważne OLS. Zatem liczba składników służy jako parametr regularyzacji: im niższa liczba, tym silniejsza regularyzacja.
  2. Jeśli predyktory są nieskorelowane i wszystkie mają tę samą wariancję (tj. X został wybielony ), wówczas istnieje tylko jeden składnik PLS1 i jest on równoważny OLS.XX
  3. Wektory Masa i β j o ı j nie będą prostopadłe, ale wydajność nieskorelowane komponenty Z i = X β I i z j = X β j .βiβjijzi=Xβizj=Xβj

Biorąc to wszystko pod uwagę, nie jestem świadomy żadnych praktycznych zalet regresji PLS1 w porównaniu z regresją kalenicową (podczas gdy ta ostatnia ma wiele zalet: jest ciągła i nie dyskretna, ma rozwiązanie analityczne, jest znacznie bardziej standardowa, pozwala na rozszerzenia jądra i analityczne wzory na pomijalne błędy weryfikacji krzyżowej itp.).


Cytowanie od Franka i Friedmana:

RR, PCR i PLS przedstawiono w części 3, aby działać w podobny sposób. Ich głównym celem jest zmniejszenie wektora współczynnika rozwiązania od rozwiązania OLS w kierunku kierunków w przestrzeni zmiennej predyktorowej dla większego rozproszenia próbki. Widać, że PCR i PLS kurczą się mocniej od kierunków małego rozprzestrzeniania się niż RR, co zapewnia optymalny skurcz (wśród estymatorów liniowych) dla wcześniejszego kierunku w przeciwnych kierunkach. Zatem PCR i PLS przyjmują założenie, że prawda może mieć szczególne preferencyjne dopasowania z kierunkami dużego rozproszenia rozkładu zmiennej predyktorowej (próbki). Nieco zaskakującym wynikiem jest, PLS (dodatkowo) silniejszej masy prawdopodobieństwa na prawdziwej współczynnik wektora wyrównywania z p kierunku głównym składnikiem, gdzie KKK jest liczbą zastosowanych komponentów PLS, w rzeczywistości rozszerzając rozwiązanie OLS w tym kierunku.

Przeprowadzają również szeroko zakrojone badania symulacyjne i wnioskują (podkreślenie moje):

W sytuacjach objętych tym badaniem symulacyjnym można stwierdzić, że wszystkie tendencyjne metody (RR, PCR, PLS i VSS) zapewniają znaczną poprawę w stosunku do OLS. [...] We wszystkich sytuacjach RR dominował nad wszystkimi innymi badanymi metodami. PLS zwykle radził sobie prawie tak dobrze jak RR i zwykle przewyższał PCR, ale nie bardzo.


Aktualizacja: W komentarzach @cbeleites (który pracuje w chemometrii) sugeruje dwie możliwe zalety PLS nad RR:

  1. λ

  2. βRRβiyyβ1,β2,βPLS

ameba mówi Przywróć Monikę
źródło
1
Ten papier wygląda na użyteczny. Nie sądzę, żeby odnosiło się to do tego, ile nadmiernego dopasowania może być spowodowane przez PLS.
Frank Harrell,
3
Zgadza się, @Frank, ale szczerze mówiąc, jeśli chodzi o wydajność predykcyjną, nie widzę większego sensu w robieniu niczego poza regresją grzbietu (a może elastycznej siatki, jeśli pożądana jest również rzadkość). Moje własne zainteresowanie PLS dotyczy aspektu redukcji wymiarów, gdy obaX i Ysą wielowymiarowe; więc nie jestem bardzo zainteresowany tym, jak PLS działa jako technika regularyzacji (w porównaniu z innymi metodami regularyzacji). Kiedy mam model liniowy, który muszę uregulować, wolę używać kalenicy. Zastanawiam się, jakie jest twoje doświadczenie tutaj?
ameba mówi Przywróć Monikę
3
Z mojego doświadczenia wynika, że ​​grzbiet (kwadratowe oszacowanie maksymalnego prawdopodobieństwa karane) daje lepsze przewidywania. Myślę, że niektórzy analitycy uważają, że PLS jest techniką redukcji wymiarów w sensie unikania nadmiernego dopasowania, ale rozumiem, że tak nie jest.
Frank Harrell,
2
b) jeśli szukasz, powiedzmy, spektroskopowej interpretacji tego, co robi model, łatwiej mi jest spojrzeć na ładunki PLS, jakie rodzaje substancji są mierzone. Można tam znaleźć jedną lub dwie substancje / klasy substancji, przy czym współczynniki, które obejmują wszystkie zmienne ukryte, są trudniejsze do interpretacji, ponieważ łączony jest udział widmowy większej liczby substancji. Jest to bardziej widoczne, ponieważ nie mają zastosowania wszystkie zwykłe reguły interpretacji spektralnej: model PLS może wybierać niektóre pasma substancji, ignorując inne. Interpretacja widm „normalna” wykorzystuje wiele tego pasma ...
cbeleites obsługuje Monikę
2
... pochodzą z tej czy innej substancji. Jeśli jest to ta substancja, musi istnieć ten drugi zespół. Ponieważ ta ostatnia możliwość weryfikacji substancji nie jest możliwa w przypadku zmiennych utajonych / obciążeń / współczynników, interpretacja rzeczy, które różnią się razem, a zatem uzyskanie tej samej zmiennej utajonej, jest znacznie łatwiejsza niż interpretacja współczynników, które już podsumowują wszystkie rodzaje możliwych „wskazówek” ”, które są znane z modelu.
cbeleites obsługuje Monikę
4

Tak. Książka Hermana Wolda Teoretyczny empiryzm: Ogólne uzasadnienie budowy modelu naukowego jest najlepszą ekspozycją PLS, o której wiem, szczególnie biorąc pod uwagę, że Wold jest pomysłodawcą tego podejścia. Nie wspominając już o tym, że jest to po prostu interesująca książka do przeczytania i poznania. Ponadto, na podstawie wyszukiwania w Amazon, liczba odniesień do książek na PLS napisanych w języku niemieckim jest zadziwiająca, ale być może podtytuły książki Wolda są tego przyczyną.

Mike Hunter
źródło
1
Ten amazon.com/Towards-Unified-Scientific-Models-Methods/dp/… jest powiązany, ale obejmuje znacznie więcej niż PLS
kjetil b halvorsen
To prawda, ale głównym celem książki jest rozwój teorii i zastosowania PLS przez Wolda.
Mike Hunter,