Co jest dobrym miernikiem do oceny jakości analizy głównych składników (PCA)?
Wykonałem ten algorytm na zbiorze danych. Moim celem było ograniczenie liczby funkcji (informacje były bardzo zbędne). Wiem, że odsetek zachowanych odchyleń jest dobrym wskaźnikiem tego, ile informacji przechowujemy. Czy istnieją inne wskaźniki informacyjne, których mogę użyć, aby upewnić się, że usunąłem zbędne informacje i nie „straciłem” takich informacji?
machine-learning
pca
data-mining
information-theory
wielkie drzewo
źródło
źródło
Odpowiedzi:
Zakładam, że część tego pytania dotyczy tego, czy istnieją inne metryki oprócz skumulowanej wariancji procentowej (CPV) i podobnego podejścia do wykresu piargowego. Odpowiedź na to pytanie brzmi: tak .
Świetny artykuł na temat niektórych opcji to Valle 1999:
Wybór liczby głównych elementów: wariancja kryterium błędu rekonstrukcji w porównaniu z innymi metodami
Sergio Valle, Weihua Li i S. Joe Qin, Industrial & Engineering Chemistry Research 1999 38 (11), 4389-4401
Dotyczy to CPV, ale także analizy równoległej, walidacji krzyżowej, wariancji błędu rekonstrukcji (VRE), metod opartych na kryteriach informacyjnych i innych. Być może postępujesz zgodnie z zaleceniami zawartymi w artykule po porównaniu i użyciu VRE, ale walidacja krzyżowa oparta na PRESS również działa dobrze z mojego doświadczenia i przynoszą one również dobre wyniki. Z mojego doświadczenia wynika, że CPV jest wygodny i łatwy, i wykonuje przyzwoitą pracę, ale te dwie metody są zwykle lepsze.
Istnieją inne sposoby oceny, jak dobry jest twój model PCA, jeśli wiesz więcej na temat danych. Jednym ze sposobów jest porównanie oszacowanych ładunków PCA z prawdziwymi, jeśli je znasz (co zrobiłbyś w symulacjach). Można tego dokonać, obliczając obciążenie szacunkowych obciążeń do wartości rzeczywistych. Im większy twój błąd, tym gorszy model. Aby dowiedzieć się, jak to zrobić, możesz sprawdzić ten artykuł, w którym używają tego podejścia do porównywania metod. Nie jest to jednak użyteczne w rzeczywistych przypadkach danych, w których nie znasz prawdziwych ładunków PCA. To mniej mówi o tym, ile komponentów usunąłeś, niż o odchyleniu twojego modelu ze względu na wpływ obserwacji zewnętrznych, ale nadal służy jako wskaźnik jakości modelu.
źródło
Istnieją również środki oparte na kryteriach teoretycznych, takich jak
Rissanen's MDL (i odmiany)
źródło