Dowiedziałem się o PCA kilka wykładów temu na zajęciach i kopiąc więcej o tej fascynującej koncepcji, poznałem rzadkie PCA.
Chciałem zapytać, jeśli się nie mylę, to jest to rzadkie PCA: w PCA, jeśli masz punktów danych ze zmiennymi , możesz zastosować każdy punkt danych w przestrzeni wymiarowej przed zastosowaniem PCA. Po zastosowaniu PCA możesz ponownie przedstawić go w tej samej przestrzeni wymiarowej, ale tym razem pierwszy główny komponent będzie zawierał najwięcej wariancji, drugi będzie zawierał kierunek drugiej wariancji i tak dalej. Możesz więc wyeliminować kilka ostatnich głównych składników, ponieważ nie spowodują one dużej utraty danych i możesz je skompresować. Dobrze?
Rzadkie PCA wybiera główne składniki, tak aby te składniki zawierały mniej niezerowych wartości w swoich współczynnikach wektorowych.
Jak ma to pomóc w lepszej interpretacji danych? Czy ktoś może podać przykład?
źródło
Odpowiedzi:
To, czy rzadkie PCA jest łatwiejsze do interpretacji niż standardowe PCA, czy nie, zależy od badanego zestawu danych. Oto, jak o tym myślę: czasami bardziej interesują mnie projekcje PCA (nisko wymiarowa reprezentacja danych), a czasem - główne osie; tylko w tym drugim przypadku rzadkie PCA może przynieść jakiekolwiek korzyści interpretacyjne. Podam kilka przykładów.
Pracuję np. Z danymi neuronowymi (jednoczesne rejestrowanie wielu neuronów) i stosuję PCA i / lub pokrewne techniki redukcji wymiarowości, aby uzyskać nisko wymiarową reprezentację aktywności populacji neuronowej. Mogę mieć 1000 neuronów (tj. Moje dane żyją w 1000-wymiarowej przestrzeni) i chcę rzutować je na trzy wiodące główne osie. To, czym są te osie, jest dla mnie zupełnie nieistotne i nie mam zamiaru „interpretować” tych osi w żaden sposób. Interesuje mnie projekcja 3D (ponieważ aktywność zależy od czasu, mam trajektorię w tej przestrzeni 3D). Mam się dobrze, jeśli każda oś ma wszystkie 1000 niezerowych współczynników.
Z drugiej strony, ktoś może pracować z bardziej „namacalnymi” danymi, w których poszczególne wymiary mają oczywiste znaczenie (w przeciwieństwie do pojedynczych neuronów powyżej). Np. Zbiór danych różnych samochodów, w których wymiary są dowolne, od wagi po cenę. W tym przypadku można faktycznie interesować się samymi wiodącymi osiami głównymi, ponieważ można by coś powiedzieć: spójrz, pierwsza oś główna odpowiada „fancinessowi” samochodu (teraz to całkowicie wymyślam). Jeśli rzutowanie jest rzadkie, takie interpretacje byłyby na ogół łatwiejsze do podania, ponieważ wiele zmiennych będzie miało współczynników, a zatem są oczywiście nieistotne dla tej konkretnej osi. W przypadku standardowego PCA zwykle otrzymuje się niezerowe współczynniki dla wszystkich zmiennych.0
Więcej przykładów i omówienie tego drugiego przypadku można znaleźć w artykule Sparse PCA z 2006 r. Autorstwa Zou i in. Różnicy między pierwszym a drugim przypadkiem nie widziałem jednak nigdzie wyraźnie dyskutowanym (choć prawdopodobnie tak było).
źródło
źródło
Aby zrozumieć zalety rzadkości w PCA, musisz upewnić się, że znasz różnicę między „ładowaniami” a „zmiennymi” (dla mnie te nazwy są nieco dowolne, ale to nie jest ważne).
Załóżmy, że masz macierz danych NXP X , gdzie n to liczba próbek. SVD z X = USV ' , daje trzy macierze. Połączenie dwóch pierwszych Z = US daje macierz głównych składników. Powiedzmy, że twoja obniżona ranga to k , a następnie Z to nxk . Z jest zasadniczo macierzą danych po zmniejszeniu wymiaru. Historycznie
Z drugiej strony V (które jest pxk ) zawiera główne wektory ładowania, a jego wpisy nazywane są ładunkami głównymi. Biorąc pod uwagę właściwości PCA, łatwo jest wykazać, że Z = XV . To znaczy że:
Teraz, gdy te definicje są już na uboczu, przyjrzymy się rzadkości. Większość papierów (lub przynajmniej większość, które spotkałem) wymusza rzadkie ładunki główne (inaczej V ). Zaletą rzadkości jest to
Istnieją również interpretacje wymuszania rzadkości na pozycjach Z , które widziałem, jak ludzie nazywają „rzadką zmienną PCA”, ale jest to o wiele mniej popularne i szczerze mówiąc, nie myślałem o tym zbyt wiele.
źródło