Chcę użyć Akaike Information Criterion (AIC), aby wybrać odpowiednią liczbę czynników do wyodrębnienia w PCA. Jedynym problemem jest to, że nie jestem pewien, jak określić liczbę parametrów.
Rozważmy macierz X , gdzie N reprezentuje liczbę zmiennych, a T liczbę obserwacji, na przykład X \ sim \ mathcal N \ left (0, \ Sigma \ right) . Ponieważ macierz kowariancji jest symetryczna, wówczas oszacowanie maksymalnego prawdopodobieństwa \ Sigma może ustawić liczbę parametrów w AIC równą \ frac {N \ left (N + 1 \ right)} {2} .
Alternatywnie, w PCA, można wyodrębnić pierwsze wektorów własnych i wartości własnych , połączenia ich i , a następnie obliczyć gdzie to średnia wariancja rezydualna. Według moich obliczeń, jeśli masz czynniki , to parametrów w , parametrów w i parametr w .
Czy to podejście jest prawidłowe? Wydaje się, że doprowadzi to do większej liczby parametrów niż podejścia maksymalnego prawdopodobieństwa jako liczba czynników wzrasta do .
źródło
Odpowiedzi:
Prace Minki ( Automatyczny wybór wymiarów dla PCA , 2000) oraz Tipping & Bishop ( Probabilistic Principal Component Analysis ) dotyczące probabilistycznego spojrzenia na PCA mogą dostarczyć ci ramy, którymi jesteś zainteresowany. Praca Minki zapewnia przybliżenie log- likelihood gdzie jest utajoną wymiarowością zestawu danych przy użyciu aproksymacji Laplace'a; jak stwierdzono wyraźnie: „ Uproszczenie metody Laplace'a jest przybliżeniem BIC ”.k Dlogp(D|k) k D
Wyraźnie przyjmuje to bayesowski punkt widzenia twojego problemu, który nie jest oparty na kryteriach teorii informacji (dywergencja KL) stosowanych przez AIC.
Co do pierwotnego pytania dotyczącego „określenia liczby parametrów”, myślę również, że komentarz @ Whubera zawiera właściwą intuicję.
źródło
Wybieranie „odpowiedniej” liczby komponentów w PCA można wykonać elegancko za pomocą analizy równoległej Horn (PA). Dokumenty pokazują, że kryterium to konsekwentnie przewyższa zasady praktyczne, takie jak kryterium łokcia lub reguła Kaisera. Pakiet R „paran” ma implementację PA, która wymaga tylko kilku kliknięć myszką.
Oczywiście, ile składników zachowujesz, zależy od celów redukcji danych. Jeśli chcesz zachować tylko wariancję, która jest „znacząca”, PA zapewni optymalną redukcję. Jeśli chcesz zminimalizować utratę informacji w oryginalnych danych, powinieneś jednak zachować wystarczającą liczbę składników, aby pokryć 95% wyjaśnionej wariancji. Pozwoli to oczywiście zachować znacznie więcej komponentów niż PA, chociaż w przypadku zestawów danych o dużych wymiarach zmniejszenie wymiarów będzie nadal znaczne.
Ostatnia uwaga na temat PCA jako problemu „wyboru modelu”. Nie do końca zgadzam się z odpowiedzią Piotra. Istnieje wiele prac, które przeformułowały PCA jako problem typu regresji, takie jak rzadki PCA, rzadki probabilistyczny PCA lub ScotLASS. W tych „opartych na modelu” rozwiązaniach PCA obciążenia są parametrami, które można ustawić na 0 za pomocą odpowiednich warunków karnych. Przypuszczalnie w tym kontekście byłoby również możliwe obliczenie statystyk typu AIC lub BIC dla rozważanego modelu.
Podejście to teoretycznie może obejmować model, w którym na przykład dwa komputery PC są nieograniczone (wszystkie ładunki niezerowe), w porównaniu z modelem, w którym PC1 jest nieograniczony, a PC2 ma wszystkie ładunki ustawione na 0. Byłoby to równoważne z wnioskiem, czy PC2 jest redundantny ogólnie rzecz biorąc.
Referencje (PA) :
źródło
AIC jest przeznaczony do wyboru modelu. To nie jest tak naprawdę problem z wyborem modelu i być może lepiej byłoby zastosować inne podejście. Alternatywą może być określenie określonego całkowitego wyjaśnionego procentu wariancji (np. 75%) i zatrzymanie się, gdy procent osiągnie 75%, jeśli w ogóle to nastąpi.
źródło
AIC nie jest tu właściwe. Nie wybierasz spośród modeli o zmiennej liczbie parametrów - główny składnik nie jest parametrem.
Istnieje wiele metod decydowania o liczbie czynników lub składników na podstawie analizy czynnikowej lub analizy głównych składników - test Scree, wartość własna> 1 itd. Ale prawdziwy test jest istotny: Jaka liczba czynników ma sens ? Spójrz na czynniki, rozważ wagi, dowiedz się, który najlepiej pasuje do twoich danych.
Podobnie jak inne rzeczy w statystykach, nie jest to coś, co można łatwo zautomatyzować.
źródło