Czy możliwe jest zwizualizowanie wyników analizy głównych składników w sposób zapewniający lepszy wgląd niż tylko tabele podsumowań? Czy można to zrobić, gdy liczba obserwacji jest duża, powiedzmy ~ 1e4? I czy można to zrobić w R [mile widziane inne środowiska]?
r
data-visualization
pca
biplot
niezadowolony
źródło
źródło
Odpowiedzi:
Biplot jest użytecznym narzędziem do wizualizacji wyników PCA. Pozwala na wizualizację głównych ocen składowych i kierunków jednocześnie. Przy 10 000 obserwacji prawdopodobnie napotkasz problem z nadmiernym kreśleniem. Mieszanie alfa może w tym pomóc.
Oto dwuplot danych PC z repozytorium UCI ML :
Punkty odpowiadają punktom PC1 i PC2 każdej obserwacji. Strzałki przedstawiają korelację zmiennych z PC1 i PC2. Białe kółko wskazuje teoretyczny maksymalny zasięg strzałek. Elipsy to 68% elips danych dla każdej z 3 odmian wina w danych.
Zrobiłem kod do generowania to działka dostępny tutaj .
źródło
Wykres Wachtera może pomóc ci w wizualizacji wartości własnych twojego PCA. Zasadniczo jest to wykres QQ wartości własnych w porównaniu z rozkładem Marchenko-Pastura. Mam tutaj przykład: istnieje jedna dominująca wartość własna, która nie mieści się w rozkładzie Marchenko-Pastura. Przydatność tego rodzaju fabuły zależy od zastosowania.
źródło
Możesz także skorzystać z pakietu psych.
Zawiera metodę plot.factor, która wykreśli różne komponenty względem siebie w stylu macierzy wykresów rozrzutu.
źródło