Wizualizacja miliona edycji PCA

31

Czy możliwe jest zwizualizowanie wyników analizy głównych składników w sposób zapewniający lepszy wgląd niż tylko tabele podsumowań? Czy można to zrobić, gdy liczba obserwacji jest duża, powiedzmy ~ 1e4? I czy można to zrobić w R [mile widziane inne środowiska]?

niezadowolony
źródło
2
Kilka pytań: ile masz komponentów? Czy oprócz wielkości próbki jest coś, co sprawia, że ​​wyświetlanie tego wyniku PCA musi być inne niż wyświetlanie innych ciągłych zmiennych, z którymi można mieć do czynienia? Czy próbujesz zestawić wyniki różnych grup, a jeśli tak, to ile? Co ogólnie masz nadzieję osiągnąć dzięki wyświetlaczom?
rolando2

Odpowiedzi:

53

Biplot jest użytecznym narzędziem do wizualizacji wyników PCA. Pozwala na wizualizację głównych ocen składowych i kierunków jednocześnie. Przy 10 000 obserwacji prawdopodobnie napotkasz problem z nadmiernym kreśleniem. Mieszanie alfa może w tym pomóc.

Oto dwuplot danych PC z repozytorium UCI ML :

PC Biplot of Wine Data from UCI ML Repository

Punkty odpowiadają punktom PC1 i PC2 każdej obserwacji. Strzałki przedstawiają korelację zmiennych z PC1 i PC2. Białe kółko wskazuje teoretyczny maksymalny zasięg strzałek. Elipsy to 68% elips danych dla każdej z 3 odmian wina w danych.

Zrobiłem kod do generowania to działka dostępny tutaj .

vqv
źródło
5
Naprawdę dynamitowy dodatek.
rolando2,
1
p×2)V.V.V.T. które są macierzą rzutowania. Okrąg stanowi względną skalę dla strzał, ponieważ strzałki i wyniki PC (punkty w bipolarnym) nie są w tej samej skali.
vqv
Dziękuję, ale tyle rozumiem. Moje pytanie dotyczy tego, jak wybrać względną skalę strzałek i wyniki na PC. Okrąg ma promień około 3,7, co jest oczywiście współczynnikiem skalowania (jako maksymalna możliwa długość rzędu)V.
4

Wykres Wachtera może pomóc ci w wizualizacji wartości własnych twojego PCA. Zasadniczo jest to wykres QQ wartości własnych w porównaniu z rozkładem Marchenko-Pastura. Mam tutaj przykład: Wykres Wachtera przedstawiający pojedynczą dominującą wartość własnąistnieje jedna dominująca wartość własna, która nie mieści się w rozkładzie Marchenko-Pastura. Przydatność tego rodzaju fabuły zależy od zastosowania.

shabbychef
źródło
7
Przydałoby się więcej informacji tutaj (być może dodatkowe wyjaśnienia i / lub przydatne linki). Co to jest dystrybucja Marchenko-Pastur? Jak to się ma do PCA? Co to oznacza dla twoich wyników, jeśli się utrzymuje, czy nie? (itp.)
Gung - Przywróć Monikę
0

Możesz także skorzystać z pakietu psych.

Zawiera metodę plot.factor, która wykreśli różne komponenty względem siebie w stylu macierzy wykresów rozrzutu.

richiemorrisroe
źródło