Jakie są dobre wskaźniki do oceny jakości dopasowania PCA, aby wybrać liczbę komponentów?

10

Co jest dobrym miernikiem do oceny jakości analizy głównych składników (PCA)?

Wykonałem ten algorytm na zbiorze danych. Moim celem było ograniczenie liczby funkcji (informacje były bardzo zbędne). Wiem, że odsetek zachowanych odchyleń jest dobrym wskaźnikiem tego, ile informacji przechowujemy. Czy istnieją inne wskaźniki informacyjne, których mogę użyć, aby upewnić się, że usunąłem zbędne informacje i nie „straciłem” takich informacji?

wielkie drzewo
źródło
3
Ściśle mówiąc, nie ma „zbędnych” informacji, chyba że początkowe dane były idealnie współliniowe. Zazwyczaj widzi się zachowany procent wariancji („zastosowaliśmy pierwsze pięć głównych składników, które stanowiły 90% wariancji”). Chcę zobaczyć alternatywy.
Stephan Kolassa
Ponieważ jednym z twoich tagów jest teoria informacji: pośrednim sposobem oceny działania PCA jest sprawdzenie założeń, na podstawie których teoria informacji mówi nam, że ma małą utratę informacji dla danego zmniejszenia wymiaru. Wiki twierdzi, że dzieje się tak, gdy dane są sumą sygnału gaussowskiego i szumu gaussowskiego. en.wikipedia.org/wiki/…
CloseToC

Odpowiedzi:

17

Zakładam, że część tego pytania dotyczy tego, czy istnieją inne metryki oprócz skumulowanej wariancji procentowej (CPV) i podobnego podejścia do wykresu piargowego. Odpowiedź na to pytanie brzmi: tak .

Świetny artykuł na temat niektórych opcji to Valle 1999:

Dotyczy to CPV, ale także analizy równoległej, walidacji krzyżowej, wariancji błędu rekonstrukcji (VRE), metod opartych na kryteriach informacyjnych i innych. Być może postępujesz zgodnie z zaleceniami zawartymi w artykule po porównaniu i użyciu VRE, ale walidacja krzyżowa oparta na PRESS również działa dobrze z mojego doświadczenia i przynoszą one również dobre wyniki. Z mojego doświadczenia wynika, że ​​CPV jest wygodny i łatwy, i wykonuje przyzwoitą pracę, ale te dwie metody są zwykle lepsze.

Istnieją inne sposoby oceny, jak dobry jest twój model PCA, jeśli wiesz więcej na temat danych. Jednym ze sposobów jest porównanie oszacowanych ładunków PCA z prawdziwymi, jeśli je znasz (co zrobiłbyś w symulacjach). Można tego dokonać, obliczając obciążenie szacunkowych obciążeń do wartości rzeczywistych. Im większy twój błąd, tym gorszy model. Aby dowiedzieć się, jak to zrobić, możesz sprawdzić ten artykuł, w którym używają tego podejścia do porównywania metod. Nie jest to jednak użyteczne w rzeczywistych przypadkach danych, w których nie znasz prawdziwych ładunków PCA. To mniej mówi o tym, ile komponentów usunąłeś, niż o odchyleniu twojego modelu ze względu na wpływ obserwacji zewnętrznych, ale nadal służy jako wskaźnik jakości modelu.

Deathkill14
źródło
4
Link do papieru Valle, Li i Qin
Zhubarb
3

Istnieją również środki oparte na kryteriach teoretycznych, takich jak

Rissanen's MDL (i odmiany)

Nikos M.
źródło
@ użytkownik: 45382 Tak, to jest kolejny. Zostało to również poruszone w artykule, do którego prowadzi Zhubarb.
Deathkill14
@ Deathkill14 poprawne, czytam gazetę, wspomniane są środki teoretyczne (w rzeczywistości są to dobre alternatywy)
Nikos M.
Doskonały artykuł teoretyczny na temat MDL, MML i bayesianizmu: Vitany & Li, Ideal MDL i jego związek z bayesianizmem citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580 . Również inne metody wyboru modelu, takie jak AIC i BIC, są skutecznie implementacjami MDL.
ggll