Kontekst: Zapytałem setki uczestników ankiety, jak bardzo są zainteresowani wybranymi obszarami (według pięciopunktowej skali Likerta, gdzie 1 wskazuje „nie zainteresowany”, a 5 wskazuje „zainteresowany”).
Potem spróbowałem PCA. Poniższy obraz przedstawia dwa pierwsze główne elementy. Kolory są używane dla płci, a strzałki PCA są oryginalnymi zmiennymi (tj. Zainteresowaniami).
Zauważyłem to:
- Kropki (respondenci) są dość dobrze oddzielone przez drugi składnik.
- Brak punktów strzałek.
- Niektóre strzały są znacznie krótsze niż inne.
- Zmienne zwykle tworzą klastry, ale nie obserwacje.
- Wydaje się, że strzałki skierowane w dół (do mężczyzn) są głównie zainteresowaniami mężczyzn, a strzałki skierowane w górę są głównie interesami kobiet.
- Niektóre strzałki nie wskazują ani w dół, ani w górę.
Pytania: Jak poprawnie interpretować relacje między kropkami (respondenci), kolorami (płcie) i strzałkami (zmienne)? Jakie inne wnioski na temat respondentów i ich zainteresowań można wydobyć z tego wątku?
Dane można znaleźć tutaj .
Odpowiedzi:
Kropki to respondenci, a kolory to płeć. To wiesz. Główne osie twojego wykresu przedstawiają pierwszy i drugi wynik PC, a poszczególne osoby są wykreślane na tej podstawie. Ktoś w lewym dolnym kwadrancie uzyskał niskie wyniki w obu przypadkach. PC2 wydaje się oznaczać interesy „męskie” i „kobiece”. Nie wiem, co oznacza PC1, ale prawdopodobnie reprezentuje ogólny wynik odsetkowy - osoby o wielu zainteresowaniach osiągają wysokie wyniki. A może reprezentuje ludzi o pasjonujących zainteresowaniach (ocena 5).
Wektory są rzutowanym układem współrzędnych dla oryginalnych zmiennych. Więc jeśli rzutujesz punkt prostopadle na powiedzmy na wektor czytania - powinieneś uzyskać wynik czytania tej osoby. Ważna jest tutaj pozycja względna.
Weź „męski” wektor podobny do „sportów adrenalinowych”. Teraz wyobraź sobie, że rzutujesz na niego różowy punkt z wysokiej w prawym górnym kwadrancie. Koordynacja tej osoby w zakresie „sportów adrenalinowych” będzie ujemna.
Dlaczego więc wszystkie strzałki znajdują się w prawej połowie wykresu? Biorąc pod uwagę geometrię, im głębiej osoba znajduje się po lewej stronie wykresu, tym mniej jej rzutów będzie dodatnich. Sugeruje to, że PC1 jest miarą ogólnego poziomu zainteresowania.
Nie jestem pewien, czego jeszcze możesz się tutaj nauczyć. Możesz spojrzeć na PC3 i PC4, jeśli PC1 i PC2 mówią tylko, że niektóre osoby mają więcej zainteresowań niż inne i że mężczyźni różnią się od kobiet.
Twoja fabuła wydaje się prawie symetryczna wokół osi PC1 i symetryczna względem płci. Jak wielu mężczyzn ma interesy kobiet, tak jak kobiety interesy mężczyzn ... czy to prawda? Patrzę tylko na kropki. Interesujące może być spojrzenie na obszary, w których mapa nie jest symetryczna: duży PC1, umiarkowanie negatywny PC2 --- ten sektor ma dużo akcji. Dlaczego?
źródło