Dlaczego wszystkie składniki PLS razem wyjaśniają tylko część wariancji oryginalnych danych?

10

Mam zestaw danych składający się z 10 zmiennych. Uruchomiłem częściowe najmniejsze kwadraty (PLS), aby przewidzieć pojedynczą zmienną odpowiedzi na podstawie tych 10 zmiennych, wyodrębniłem 10 składników PLS, a następnie obliczyłem wariancję każdego składnika. Na podstawie oryginalnych danych wziąłem sumę wariancji wszystkich zmiennych, która wynosi 702.

Następnie podzieliłem wariancję każdego ze składników PLS przez tę sumę, aby uzyskać procent wariancji wyjaśniony przez PLS, i nieoczekiwanie wszystkie składniki razem wyjaśniają tylko 44% pierwotnej wariancji.

Jakie jest tego wytłumaczenie? Czy nie powinno to być 100%?

Ress
źródło
Jak wiem po stronie odpowiedzi (y), jaka jest liczba elementów PLS, to minimalna liczba obserwacji. mam 20 obserwacji. Ale z drugiej strony mam tylko 10 zmiennych niezależnych, co ogranicza mnie do 10 PLS. Moje pytanie brzmi: jaki jest ogólny wzór do obliczania wyjaśnionej wariancji dla każdego składnika (PLS lub PCA).
Ress
mathworks.com/help/stats/plsregress.html ten przykład ma tylko jedną zmienną po stronie Y i oblicza 10 składników.
Ress

Odpowiedzi:

12

Suma wariancji wszystkich składników PLS jest zwykle mniejsza niż 100%.

Istnieje wiele wariantów częściowych najmniejszych kwadratów (PLS). Zastosowano tutaj regresję PLS zmiennej odpowiedzi jednowymiarowej na kilka zmiennych X ; algorytm ten jest tradycyjnie znany jako PLS1 (w przeciwieństwie do innych wariantów, zobacz zwięzłe omówienie , patrz Rosipal i Kramer, 2006, Przegląd i Najnowsze postępy w częściowych najmniejszych kwadratach ). Później wykazano, że PLS1 odpowiada bardziej eleganckiemu sformułowaniu o nazwie SIMPLS (patrz odniesienie do płatnego Jong 1988 w Rosipal i Kramer). Widok zapewniony przez SIMPLS pomaga zrozumieć, co się dzieje w PLS1.yX

Okazuje się, że to, co robi PLS1, polega na znalezieniu sekwencji rzutów liniowych , tak aby:tja=Xwja

  1. Kowariancji między i t i jest maksymalna;ytja
  2. Wszystkie wektory wagowe mają długość jednostkową, ;wja=1
  3. Każde dwa elementy PLS (czyli słabo wektory) i t j są nieskorelowane.tjatjot

Zauważ, że wektory wagi nie muszą być (i nie są) ortogonalne.

Xk=1010X

Nie znam żadnego podręcznika ani artykułu, który wyraźnie omawiałby ten problem, ale wcześniej wyjaśniłem go w kontekście liniowej analizy dyskryminacyjnej (LDA), która daje również szereg nieskorelowanych rzutów na nieortogonalne wektory masy jednostkowej, patrz tutaj : Odsetek wyjaśnionej wariancji w PCA i LDA .

ameba
źródło
Dziękuję i tak, to ma sens. Nie wiedziałem, że wektory obciążające (ciężarowe) nie są ortogonalne. Zatem nie przechwytuje maksymalnej wariancji X. Podążając za przykładem Matlaba, czy możesz mi pomóc, w jaki sposób mogę matematycznie uzyskać wartości „PCTVAR” ?.
Ress
Nie jestem pewien, ale mogę o tym pomyśleć. Czy pierwsza kolumna w PCTVAR(procent wariancji wyjaśniona w X) nie zgadza się z twoimi obliczeniami? A może pytasz o drugą kolumnę (procent wariancji wyjaśniony w y)? Ogólnie rzecz biorąc, jeśli chcesz zająć się matematyką PLS, sugeruję, abyś zaczął czytać artykuł Rosipala i Kramera i podążał za linkami.
ameba