Jak dokładnie rzadkie PCA jest lepsze od PCA?

24

Dowiedziałem się o PCA kilka wykładów temu na zajęciach i kopiąc więcej o tej fascynującej koncepcji, poznałem rzadkie PCA.

Chciałem zapytać, jeśli się nie mylę, to jest to rzadkie PCA: w PCA, jeśli masz punktów danych ze zmiennymi , możesz zastosować każdy punkt danych w przestrzeni wymiarowej przed zastosowaniem PCA. Po zastosowaniu PCA możesz ponownie przedstawić go w tej samej przestrzeni wymiarowej, ale tym razem pierwszy główny komponent będzie zawierał najwięcej wariancji, drugi będzie zawierał kierunek drugiej wariancji i tak dalej. Możesz więc wyeliminować kilka ostatnich głównych składników, ponieważ nie spowodują one dużej utraty danych i możesz je skompresować. Dobrze?npp

Rzadkie PCA wybiera główne składniki, tak aby te składniki zawierały mniej niezerowych wartości w swoich współczynnikach wektorowych.

Jak ma to pomóc w lepszej interpretacji danych? Czy ktoś może podać przykład?

GrowinMan
źródło
Cześć @GrowinMan! Czy widziałeś moją odpowiedź na to pytanie? Myślisz, że to odpowiada? Jeśli nie, możesz poprosić o wyjaśnienia lub rozważyć edycję pytania, aby było bardziej precyzyjne. Jeśli tak, rozważ wzięcie udziału w głosowaniu i „zaakceptowanie”, klikając zielony znaczek w pobliżu. Zauważyłem, że masz zero głosów i zero zaakceptowanych wątków tutaj na CrossValidated.
ameba mówi Przywróć Monikę
@amoeba Dzięki za zwrócenie na to uwagi. Nie zalogowałem się przez jakiś czas, a także trochę nie mam kontaktu z uczeniem maszynowym. Przeczytam twoją odpowiedź ponownie i
zaznaczę
Nie ma problemu. Przypadkowo natknąłem się na tę starą nić i pomyślałem o upuszczeniu linii.
ameba mówi Przywróć Monikę
Cześć @GrowinMan! :-) Znów przeszedłem przez ten stary wątek. Jeśli nadal uważasz, że to pytanie jest nierozwiązane, możesz poprosić o wyjaśnienia. W przeciwnym razie rozważ wzięcie udziału w głosowaniu i „zaakceptowanie” jednej z odpowiedzi, klikając zielony znaczek w pobliżu. Zauważyłem, że masz zero głosów i zero zaakceptowanych wątków tutaj na CrossValidated.
ameba mówi Przywróć Monikę

Odpowiedzi:

29

To, czy rzadkie PCA jest łatwiejsze do interpretacji niż standardowe PCA, czy nie, zależy od badanego zestawu danych. Oto, jak o tym myślę: czasami bardziej interesują mnie projekcje PCA (nisko wymiarowa reprezentacja danych), a czasem - główne osie; tylko w tym drugim przypadku rzadkie PCA może przynieść jakiekolwiek korzyści interpretacyjne. Podam kilka przykładów.

Pracuję np. Z danymi neuronowymi (jednoczesne rejestrowanie wielu neuronów) i stosuję PCA i / lub pokrewne techniki redukcji wymiarowości, aby uzyskać nisko wymiarową reprezentację aktywności populacji neuronowej. Mogę mieć 1000 neuronów (tj. Moje dane żyją w 1000-wymiarowej przestrzeni) i chcę rzutować je na trzy wiodące główne osie. To, czym są te osie, jest dla mnie zupełnie nieistotne i nie mam zamiaru „interpretować” tych osi w żaden sposób. Interesuje mnie projekcja 3D (ponieważ aktywność zależy od czasu, mam trajektorię w tej przestrzeni 3D). Mam się dobrze, jeśli każda oś ma wszystkie 1000 niezerowych współczynników.

Z drugiej strony, ktoś może pracować z bardziej „namacalnymi” danymi, w których poszczególne wymiary mają oczywiste znaczenie (w przeciwieństwie do pojedynczych neuronów powyżej). Np. Zbiór danych różnych samochodów, w których wymiary są dowolne, od wagi po cenę. W tym przypadku można faktycznie interesować się samymi wiodącymi osiami głównymi, ponieważ można by coś powiedzieć: spójrz, pierwsza oś główna odpowiada „fancinessowi” samochodu (teraz to całkowicie wymyślam). Jeśli rzutowanie jest rzadkie, takie interpretacje byłyby na ogół łatwiejsze do podania, ponieważ wiele zmiennych będzie miało współczynników, a zatem są oczywiście nieistotne dla tej konkretnej osi. W przypadku standardowego PCA zwykle otrzymuje się niezerowe współczynniki dla wszystkich zmiennych.0

Więcej przykładów i omówienie tego drugiego przypadku można znaleźć w artykule Sparse PCA z 2006 r. Autorstwa Zou i in. Różnicy między pierwszym a drugim przypadkiem nie widziałem jednak nigdzie wyraźnie dyskutowanym (choć prawdopodobnie tak było).

ameba mówi Przywróć Monikę
źródło
3
To było świetne wytłumaczenie. Innym przykładem twoich „namacalnych” danych może być ankieta z wieloma pytaniami, a chcesz wiedzieć, które pytania w ankiecie są najważniejsze i być może niektóre z nich naprawdę pytają o jeden temat.
bdeonovic,
1

Możesz więc wyeliminować kilka ostatnich głównych składników, ponieważ nie spowodują one dużej utraty danych i możesz je skompresować. Dobrze?

NV1,V2,,VNNPC1,PC2,,PCNViPCi

PCiVj,Vl,

(PCi,PCj)N

Leon-Alph
źródło
W jaki sposób!? Nie rozumiem, jak łatwo byłoby to zinterpretować w tym przypadku, w przeciwieństwie do sytuacji, gdy Główne Składniki nie są rzadkie.
GrowinMan,
2
Myślę o tym, że często robimy grupowanie zmiennych przed komputerem, aby wyniki były bardziej interpretowalne. Sparse PC łączy zmienne klastrowanie i PC w jednym kroku, co wymaga mniej decyzji ze strony analityka.
Frank Harrell,
1

Aby zrozumieć zalety rzadkości w PCA, musisz upewnić się, że znasz różnicę między „ładowaniami” a „zmiennymi” (dla mnie te nazwy są nieco dowolne, ale to nie jest ważne).

Załóżmy, że masz macierz danych NXP X , gdzie n to liczba próbek. SVD z X = USV ' , daje trzy macierze. Połączenie dwóch pierwszych Z = US daje macierz głównych składników. Powiedzmy, że twoja obniżona ranga to k , a następnie Z to nxk . Z jest zasadniczo macierzą danych po zmniejszeniu wymiaru. Historycznie

Wpisy głównych składników (aka Z = US ) są nazywane zmiennymi.

Z drugiej strony V (które jest pxk ) zawiera główne wektory ładowania, a jego wpisy nazywane są ładunkami głównymi. Biorąc pod uwagę właściwości PCA, łatwo jest wykazać, że Z = XV . To znaczy że:

Główne składniki pochodzą przy użyciu głównych obciążeń jak współczynników kombinacji liniowej swojej macierzy danych X .

Teraz, gdy te definicje są już na uboczu, przyjrzymy się rzadkości. Większość papierów (lub przynajmniej większość, które spotkałem) wymusza rzadkie ładunki główne (inaczej V ). Zaletą rzadkości jest to

rzadkie V powie nam, które zmienne (z oryginalnej p- wymiarowej przestrzeni cech) są warte zachowania. Nazywa się to interpretowalnością.

Istnieją również interpretacje wymuszania rzadkości na pozycjach Z , które widziałem, jak ludzie nazywają „rzadką zmienną PCA”, ale jest to o wiele mniej popularne i szczerze mówiąc, nie myślałem o tym zbyt wiele.

idnavid
źródło