Jakie są główne oceny składowych?

Odpowiedzi:

66

Najpierw zdefiniujmy wynik.

John, Mike i Kate otrzymują następujące odsetki egzaminów z matematyki, nauk ścisłych, języka angielskiego i muzyki w następujący sposób:

      Maths    Science    English    Music    
John  80        85          60       55  
Mike  90        85          70       45
Kate  95        80          40       50

W tym przypadku jest w sumie 12 wyników. Każdy wynik reprezentuje wyniki egzaminu dla każdej osoby z określonego przedmiotu. Zatem wynik w tym przypadku jest po prostu reprezentacją miejsca przecięcia się wiersza i kolumny.

Teraz nieformalnie zdefiniujmy główny składnik.

Czy w powyższej tabeli możesz łatwo wykreślić dane na wykresie 2D? Nie, ponieważ istnieją cztery przedmioty (co oznacza cztery zmienne: matematyka, nauki ścisłe, angielski i muzyka), tj .:

  • Można wykreślić dwóch przedmiotów w dokładnie taki sam sposób, jak z i współrzędnych w 2D wykresie.yxy
  • Można nawet wykreślić trzech przedmiotów w taki sam sposób, działki , i w 3D wykresu (choć na ogół jest to zła praktyka, ponieważ niektóre zniekształcenia są nieuniknione w 2D reprezentacji danych 3D).y zxyz

Ale jak planowałbyś 4 tematy?

W tej chwili mamy cztery zmienne, z których każda reprezentuje tylko jeden podmiot. Metodą tego może być w jakiś sposób połączenie badanych w być może tylko dwie nowe zmienne, które możemy następnie wykreślić. Jest to znane jako skalowanie wielowymiarowe .

Analiza głównego elementu jest formą wielowymiarowego skalowania. Jest to liniowa transformacja zmiennych w przestrzeń o niższych wymiarach, która zachowuje maksymalną ilość informacji o zmiennych. Na przykład oznaczałoby to, że moglibyśmy spojrzeć na rodzaje przedmiotów, do których każdy uczeń może być bardziej odpowiedni.

Główny składnik jest zatem kombinacją pierwotnych zmiennych po transformacji liniowej. W R jest to:

DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)

Który da ci coś takiego (pierwsze dwa główne składniki tylko dla uproszczenia):

                PC1         PC2
Maths    0.27795606  0.76772853 
Science -0.17428077 -0.08162874 
English -0.94200929  0.19632732 
Music    0.07060547 -0.60447104 

Pierwsza kolumna pokazuje współczynniki kombinacji liniowej, która definiuje główny składnik # 1, a druga kolumna pokazuje współczynniki dla głównego składnika # 2.

Co to jest główny wynik komponentu?

Jest to wynik z tabeli na końcu tego postu (patrz poniżej).

Powyższy wynik z R oznacza, że ​​możemy teraz wykreślić punktację każdej osoby na wszystkich obiektach na wykresie 2D w następujący sposób. Najpierw musimy wyśrodkować oryginalne zmienne, co oznacza, że ​​kolumna odejmowania oznacza:

      Maths    Science    English    Music    
John  -8.33       1.66       3.33       5  
Mike   1.66       1.66      13.33      -5
Kate   6.66       -3.33    -16.66       0

A następnie do postaci liniowej kombinacji, aby uzyskać PC1 i PC2 wyniki :

      x                                                    y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33  + 0.07*5   -0.77*8.33 + -0.08*1.66 + 0.19*3.33   + -0.60*5 
Mike 0.28*1.66  + -0.17*1.66 + -0.94*13.33 + -0.07*5   0.77*1.66 + -0.08*1.66 + 0.19*13.33  + -0.60*5
Kate 0.28*6.66  + 0.17*3.33  + 0.94*16.66  + 0.07*0    0.77*6.66 +  0.08*3.33 + -0.19*16.66 + -0.60*0

Co upraszcza:

        x       y
John   -5.39   -8.90
Mike  -12.74    6.78
Kate   18.13    2.12

W powyższej tabeli znajduje się sześć głównych ocen składowych . Możesz teraz wykreślić wyniki na wykresie 2D, aby poznać rodzaj przedmiotów, do których każdy uczeń może być bardziej odpowiedni.

Ten sam wynik można uzyskać w R, wpisując prcomp(DF, scale = FALSE)$x.

EDYCJA 1: Hmm, prawdopodobnie mógłbym wymyślić lepszy przykład, i jest w tym coś więcej niż to, co tu umieściłem, ale mam nadzieję, że masz pomysł.

EDYCJA 2: pełne podziękowania dla @drpaulbrewer za komentarz w ulepszeniu tej odpowiedzi.

Tony Breyal
źródło
10
Wysiłek jest godny pochwały - ALE - ani PC1, ani PC2 nie powie Ci, kto był najlepszy we wszystkich przedmiotach. Aby to zrobić, wszyscy badani na PC musieliby być pozytywni. PC1 ma dodatnie wagi dla matematyki i muzyki, ale ujemne dla nauki i języka angielskiego. PC2 ma dodatnie wagi dla matematyki i języka angielskiego, ale ujemne dla nauki i muzyki. Komputery mówią ci, gdzie leży największa wariancja w zestawie danych. Tak więc, ważąc przedmioty współczynnikami w PC1 i wykorzystując to do oceniania uczniów, otrzymujesz największą wariancję lub rozprzestrzenianie się zachowań uczniów. Może klasyfikować typy, ale nie wydajność.
Paul
+1 dobry komentarz, na zdrowie. Masz oczywiście rację, powinienem był to napisać lepiej, a teraz zredagowałem linię obrażającą, aby wyjaśnić, mam nadzieję.
Tony Breyal
Możesz ujednolicić zmienne, a zatem obliczyć sumę, aby zobaczyć, kto jest najlepszy, lub jeśli wolisz, w R:apply(dtf, 1, function(x) sum(scale(x)))
aL3xa
2
@JohnPrior Cztery zmienne (kolumny) to matematyka, nauka, angielski i muzyka, a wiersze reprezentują poszczególne osoby. Termin „temat” staje się niejednoznaczny, ponieważ pięć lat temu wybrałem okropny przykład na odpowiedź.
Tony Breyal,
1
@ Tony, poszedłem do przodu i zredagowałem twoją odpowiedź, aby wyśrodkować zmienne przed obliczeniem wyników. Teraz obliczone wyniki pasują do prcompwyników. Wcześniej nie.
ameba
23

Analiza głównego składnika (PCA) to jedno z popularnych metod analizy wariancji w przypadku danych wielowymiarowych. Masz losowe zmienne X1, X2, ... Xn, które wszystkie są skorelowane (dodatnio lub ujemnie) w różnym stopniu i chcesz lepiej zrozumieć, co się dzieje. PCA może pomóc.

PCA daje ci zmianę zmiennej na Y1, Y2, ..., Yn (tj. Ta sama liczba zmiennych), które są liniowymi kombinacjami Xs. Na przykład możesz mieć Y1 = 2,1 X1 - 1,76 X2 + 0,2 X3 ...

Ys to miła właściwość, że każdy z nich ma zerową korelację ze sobą. Co więcej, otrzymujesz je w malejącej kolejności wariancji. Tak więc Y1 „wyjaśnia” dużą część wariancji pierwotnych zmiennych, Y2 nieco mniej i tak dalej. Zwykle po kilku pierwszych Y zmienne stają się nieco bez znaczenia. Wynik PCA dla każdego z Xi jest po prostu jego współczynnikiem w każdym z Y. W moim wcześniejszym przykładzie wynik dla X2 w pierwszym głównym składniku (Y1) wynosi 1,76.

PCA robi tę magię, obliczając wektory własne macierzy kowariancji.

Aby dać konkretny przykład, wyobraź sobie, że X1, ... X10 to zmiany w rentownościach obligacji skarbowych na 1 rok, 2 lata, ..., 10 lat w pewnym okresie czasu. Podczas obliczania PCA zazwyczaj okazuje się, że pierwszy składnik ma wyniki dla każdego wiązania tego samego znaku i mniej więcej tego samego znaku. To mówi ci, że większość wariancji rentowności obligacji pochodzi ze wszystkiego poruszającego się w ten sam sposób: „równoległe przesunięcia” w górę lub w dół. Drugi komponent zazwyczaj wykazuje „wygięcie” i „spłaszczenie” krzywej i ma przeciwne znaki dla X1 i X10.

seancarmody
źródło
W jaki sposób wyższa wartość Y „tłumaczy” większą część wariancji? Czy tak oblicza się PCA? Jeśli tak, to myślę, że mam jeszcze jedno pytanie;)
vrish88
1
Zgadza się - jeśli wariancja PC wynosi, powiedzmy 3.5, wtedy ten komputer „wyjaśnia” zmienność zmiennych 3.5 z zestawu początkowego. Ponieważ PC są addytywne, PC1 > PC2 > ... > PCna suma ich wariancji jest równa sumie wariancji początkowego zestawu zmiennych, ponieważ PCA oblicza się na macierzy kowariancji, tzn. Zmienne są standaryzowane (SD = 1, VAR = 1).
aL3xa
6

Załóżmy, że masz chmurę N punktów, powiedzmy, w 3D (które mogą być wymienione w tablicy 100 x 3). Następnie analiza głównych składników (PCA) dopasowuje do danych dowolnie zorientowaną elipsoidę. Główną punktacją składową jest długość średnic elipsoidy.

W kierunku, w którym średnica jest duża, dane bardzo się różnią, natomiast w kierunku, w którym średnica jest mała, dane różnią się nieco. Jeśli chcesz rzutować dane Nd na dwuwymiarowy wykres rozproszenia, rysuj je wzdłuż dwóch największych głównych składników, ponieważ dzięki takiemu podejściu wyświetlasz większość wariancji danych.

Jonas
źródło
Czy byłaby jakaś korzyść, czy mógłbyś nakreślić je na trójwymiarowym wykresie punktowym?
vrish88,
6

Lubię myśleć o punktacji składowych głównych jako „zasadniczo bez znaczenia”, dopóki nie nadasz im jakiegoś znaczenia. Interpretowanie wyników komputerowych w kategoriach „rzeczywistości” to trudna sprawa - i naprawdę nie ma wyjątkowego sposobu, aby to zrobić. To zależy od tego, co wiesz o poszczególnych zmiennych wchodzących w skład PCA i od tego, jak odnoszą się one do siebie pod względem interpretacji.

Jeśli chodzi o matematykę, lubię interpretować wyniki PC jako współrzędne każdego punktu w odniesieniu do głównych osi składowych. Więc w surowych zmiennych maszxi =(x1i,x2i,,xpi)x1x1izi =(z1i,z2i,,zpi)=A(xix¯)Ap×px¯

Możesz więc pomyśleć o wektorach własnych jako o opisie „linii prostych” opisujących komputery. Następnie oceny głównych składowych opisują, gdzie każdy punkt danych leży na każdej linii prostej, w stosunku do „centrum” danych. Możesz również pomyśleć o wynikach PC w połączeniu z wagami / wektorami własnymi jako serią prognoz rangi 1 dla każdego z oryginalnych punktów danych, które mają postać:

x^ji(k)=x¯j+zkiAkj

x^ji(k)ijk

prawdopodobieństwo prawdopodobieństwa
źródło
4

Głównymi składnikami macierzy danych są pary wektor własny-wartość własna jej macierzy wariancji-kowariancji. Zasadniczo są to elementy wariancji związane z dekoracją. Każda z nich jest liniową kombinacją zmiennych do obserwacji - załóżmy, że mierzysz w, x, y, z na każdym z wielu badanych. Twój pierwszy komputer może być czymś podobnym

0,5 w + 4x + 5 lat - 1,5z

Ładunki (wektory własne) są tutaj (0,5, 4, 5, -1,5). Wynik (wartość własna) dla każdej obserwacji jest wartością wynikową po zastąpieniu obserwowanego (w, x, y, z) i obliczeniu sumy.

Jest to przydatne, gdy rzutujesz rzeczy na ich główne elementy (na przykład wykrywanie wartości odstających), ponieważ po prostu wykreślasz wyniki dla każdego z nich, tak jak w przypadku innych danych. To może ujawnić wiele na temat twoich danych, jeśli duża wariancja jest skorelowana (== na kilku pierwszych komputerach).

Tim
źródło
Dla jasności, kiedy mówisz „przypuśćmy, że mierzysz w, x, y, z na każdym z wielu tematów”, nie masz na myśli „tematów” z odpowiedzi @TonyBreyal powyżej, prawda? Używasz słowa „tematy”, aby być synonimem „obserwacji” / „zapisów” / „wierszy danych”?
Ryan Chase
4

i=1,,Nj=1,,M

Zi,1=ci,1Yi,1+ci,2Yi,2+...+ci,MYi,M

cY

Z1=(Z1,1,...,ZN,1

Wyjście z R na PCA (fałszywy przykład) wygląda następująco. PC1, PC2 ... są głównymi składnikami 1, 2 ... Poniższy przykład pokazuje tylko pierwszych 8 głównych składników (spośród 17). Możesz także wyodrębnić inne elementy z PCA, takie jak ładunki i wyniki.

Importance of components:
                          PC1    PC2    PC3    PC4    PC5    PC6    PC7    PC8
Standard deviation     1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion  0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129
Roman Luštrik
źródło
1
Przepraszamy, ale jakie są ładunki (cw formule) i jak je określasz?
vrish88,
@ vrish88 Uważam, że c to „ładunki” wektorów własnych. Rozumiem, że są to tylko wagi przypisywane każdej ze zmiennych. Tim wyjaśnia to dobrze w swojej odpowiedzi.
Ryan Chase
3

Główne wyniki składowe to grupa wyników, które są uzyskiwane zgodnie z zasadą analizy składowych (PCA). W PCA relacje między grupą wyników są analizowane w taki sposób, że tworzona jest równa liczba nowych „urojonych” zmiennych (aka składowych zasad). Pierwsza z tych nowych zmiennych urojonych jest maksymalnie skorelowana ze wszystkimi oryginalnymi grupami zmiennych. Następny jest nieco mniej skorelowany i tak dalej, do tego stopnia, że ​​jeśli użyjesz wszystkich głównych składowych wyników do przewidzenia dowolnej zmiennej z początkowej grupy, będziesz w stanie wyjaśnić całą jej wariancję. Sposób, w jaki postępuje PCA, jest złożony i ma pewne ograniczenia. Wśród nich jest ograniczenie, że korelacja między dowolnymi dwoma głównymi składnikami (tj. Zmiennymi urojonymi) wynosi zero; więc nie robi

russellpierce
źródło