Analiza PCA i korespondencji w odniesieniu do Biplot

SVD

Rozkład pojedynczej wartości leży u podstaw trzech pokrewnych technik. Niech $\bf X$ będzie $r \times c$ tabelą wartości rzeczywistych. SVD wynosi $\bf X = U_{r\times r}S_{r\times c}V_{c\times c}'$ . Możemy użyć tylko $m$ $[m \le\min(r,c)]$ Pierwszy utajone wektory i korzenie, aby uzyskać $\bf X_{(m)}$ jako najlepszy $m$ -rank zbliżanie $\bf X$ : $\bf X_{(m)} = U_{r\times m}S_{m\times m}V_{c\times m}'$ . Ponadto zanotujemy $\bf U=U_{r\times m}$ , $\bf V=V_{c\times m}$ , $\bf S=S_{m\times m}$ .

Wartości osobliwe $\bf S$ i ich kwadraty, wartości własne, reprezentują skalę danych , zwaną także bezwładnością . Lewe wektory własne $\bf U$ są współrzędnymi wierszy danych na $m$ głównych osiach; podczas gdy prawe wektory własne $\bf V$ są współrzędnymi kolumn danych na tych samych utajonych osiach. Cała skala (bezwładność) jest przechowywana w $\bf S$ więc współrzędne $\bf U$ i $\bf V$ są znormalizowane jednostkowo (kolumna SS = 1).

Analiza głównych składników metodą SVD

W PCA, to jest uzgodnione rozważyć wiersze z $\bf X$ jako przypadkowych obserwacji (które może przyjść lub odejść), ale do rozważenia kolumny z $\bf X$ jako stałej liczbie wymiarów lub zmiennych. Dlatego właściwe i wygodne jest usunięcie wpływu liczby wierszy (i tylko wierszy) na wyniki, szczególnie na wartości własne, poprzez rozkład svd $\mathbf Z=\mathbf X/\sqrt{r}$ zamiast $\bf X$ . Należy zauważyć, że odpowiada to rozkładowi własnemu $\mathbf {X'X}/r$ , przyczym $r$ jest wielkością próbkin. (Często, głównie z kowariancjami - aby uczynić je bezstronnymi - wolimy podzielić przez $r-1$ , ale jest to niuans).

Mnożenie $\bf X$ przez stałą wpływa tylko na $\bf S$ ; $\bf U$ i $\bf V$ pozostają znormalizowanymi jednostkowo współrzędnymi wierszy i kolumn.

Stąd i wszędzie poniżej redefiniujemy $\bf S$ , $\bf U$ i $\bf V$ podane przez svd z $\bf Z$ , a nie z $\bf X$ ; $\bf Z$ jest znormalizowaną wersją $\bf X$ , a normalizacja różni się w zależności od rodzaju analizy.

Przez pomnożenie $\mathbf U\sqrt{r}=\bf U_*$ doprowadzamyśrednikwadrat w kolumnach $\bf U$ do 1. Biorąc pod uwagę, że wiersze są dla nas przypadkowymi przypadkami, jest to logiczne. W ten sposób uzyskaliśmy to, co nazywa sięstandardemPCAlubznormalizowanymi wynikami głównych składowychobserwacji, $\bf U_*$ . Nie robimy tego samego z $\bf V$ ponieważ zmienne są stałymi bytami.

Następnie można nadać wiersze z wszystkich bezwładności, w celu uzyskania unstandardized współrzędne rzędu, zwane również w PCA surowców głównych składowych wynikami obserwacji: $\bf U_*S$ . Ta formuła nazwiemy „bezpośrednią drogą”. Ten sam wynik jest zwracany przez $\bf XV$ ; nazwiemy to „drogą pośrednią”.

Analogicznie możemy nadać kolumnom całą bezwładność, aby uzyskać niestandardowe współrzędne kolumny, zwane także w PCA ładunkami zmiennych składowych : $\bf VS'$ [może zignorować transpozycję, jeśli $\bf S$ jest kwadratem], - „droga bezpośrednia”. Ten sam wynik jest zwracany przez $\bf Z'U$ , - „pośrednią drogę”. (Unormowany Główne wyniki składników mogą być obliczane z obciążeń jako $\bf X(AS^{-1/2})$ , gdzie . SĄ obciążenia) $\bf A$

Biplot

Rozważ biplot w sensie analizy redukcji wymiarów jako takiej, a nie tylko jako „podwójnego wykresu rozrzutu”. Ta analiza jest bardzo podobna do PCA. W przeciwieństwie do PCA, zarówno wiersze, jak i kolumny są traktowane symetrycznie jako losowe obserwacje, co oznacza, że $\bf X$ jest postrzegany jako losowa dwustronna tabela o różnej wielkości. Następnie, naturalnie, znormalizuj go zarówno $r$ i $c$ przed svd: $\mathbf Z=\mathbf X/\sqrt{rc}$ .

Po svd oblicz standardowe współrzędne wiersza, tak jak to zrobiliśmy w PCA: $\mathbf U_*=\mathbf U\sqrt{r}$ . Zrób to samo (w przeciwieństwie do PCA) z wektorami kolumn, aby uzyskaćstandardowe współrzędne kolumny: $\mathbf V_*=\mathbf V\sqrt{c}$ . Standardowe współrzędne, zarówno rzędów, jak i kolumn, mająśrednikwadrat 1.

Możemy nadawać współrzędne wierszy i / lub kolumn z bezwładnością wartości własnych, tak jak robimy to w PCA. Niestandardowe współrzędne wiersza: $\bf U_*S$ (droga bezpośrednia). Niestandardowe współrzędne kolumny: $\bf V_*S'$ (droga bezpośrednia). Co z drogą pośrednią? Można łatwo wywnioskować, substytucjami, że wzór pośrednie do unstandardized współrzędnych rzędzie jest $\mathbf {XV_*}/c$ i przez unstandardized współrzędnych kolumna jest $\mathbf {X'U_*}/r$ .

PCA jako szczególny przypadek Biplota . Z powyższych opisów prawdopodobnie dowiedziałeś się, że PCA i biplot różnią się tylko tym, jak normalizują $\bf X$ do $\bf Z$ który następnie ulega rozkładowi. Biplot normalizuje się zarówno na podstawie liczby wierszy, jak i liczby kolumn; PCA normalizuje się tylko na podstawie liczby wierszy. W związku z tym istnieje niewielka różnica między nimi w obliczeniach post-svd. Jeśli robiąc biplot ustawisz $c=1$ w jego formułach, otrzymasz dokładnie wyniki PCA. Zatem dwupłat może być postrzegany jako metoda ogólna, a PCA jako szczególny przypadek dwupłatu.

[ Centrowanie kolumny . Niektórzy użytkownicy mogą powiedzieć: Stop, ale czy PCA nie wymaga również, a przede wszystkim centrowania kolumn danych (zmiennych) w celu wyjaśnienia wariancji ? Podczas gdy biplot może nie centrować? Moja odpowiedź: tylko PCA w wąskim sensie centruje i wyjaśnia wariancję; Omawiam liniowy PCA w ogólnym sensie PCA, który wyjaśnia pewną sumę kwadratowych odchyleń od wybranego źródła; możesz to wybrać jako dane, natywne 0 lub cokolwiek chcesz. Zatem operacja „centrowania” nie jest tym, co odróżnia PCA od biplota.]

Pasywne wiersze i kolumny

W biplocie lub PCA możesz ustawić niektóre wiersze i / lub kolumny na pasywne lub uzupełniające. Pasywny rząd lub kolumna nie wpływa na SVD, a zatem nie wpływa na bezwładność lub współrzędne innych rzędów / kolumn, ale otrzymuje współrzędne w przestrzeni głównych osi wytwarzanych przez aktywne (nie pasywne) rzędy / kolumny.

Aby ustawić pasywność niektórych punktów (wierszy / kolumn), (1) zdefiniuj $r$ i $c$ tylko liczbą aktywnych wierszy i kolumn. (2) Ustaw na zero pasywnych wierszy i kolumn w $\bf Z$ przed svd. (3) Użyj „pośrednich” sposobów, aby obliczyć współrzędne pasywnych wierszy / kolumn, ponieważ ich wartości własne będą wynosić zero.

W PCA, gdy obliczasz wyniki składowe dla nowych przychodzących przypadków za pomocą obciążeń uzyskanych na starych obserwacjach ( przy użyciu macierzy współczynników wyników ), w rzeczywistości robisz to samo, co biorąc te nowe przypadki w PCA i zachowując je pasywnie. Podobnie, obliczenie korelacji / kowariancji niektórych zmiennych zewnętrznych z ocenami składowymi wytwarzanymi przez PCA jest równoważne z przyjmowaniem tych zmiennych w tym PCA i utrzymywaniem ich pasywnymi.

Arbitralne rozprzestrzenianie się bezwładności

Średnie kwadraty kolumny (MS) standardowych współrzędnych wynoszą 1. Średnie kwadraty kolumny (MS) niestandardowych współrzędnych są równe bezwładności odpowiednich głównych osi: cała bezwładność wartości własnych została przekazana wektorom własnym w celu wytworzenia niestandardowych współrzędnych.

W biplot : Rząd standardowych współrzędne $\bf U_*$ o SM = 1 dla każdej osi głównej. Row unstandardized współrzędnych, zwany również rząd główne współrzędne $\mathbf {U_*S} = \mathbf {XV_*}/c$ mają MS = odpowiadającej wartości własnej $\bf Z$ . To samo dotyczy standardowych kolumn i niestandardowych (głównych) współrzędnych.

Zasadniczo nie jest wymagane, aby współrzędne były bezwładne w całości lub w ogóle. Arbitralne rozprzestrzenianie jest dozwolone, jeśli jest konieczne z jakiegoś powodu. Niech $p_1$ będzie proporcją bezwładności do rzędów. Zatem ogólna formuła współrzędnych wiersza jest następująca: $\bf U_*S^{p1}$ (droga bezpośrednia) = $\mathbf {XV_*S^{p1-1}}/c$ (droga pośrednia). Jeśli $p_1=0$ otrzymujemy standardowe współrzędne rzędu, natomiast przy $p_1=1$ otrzymujemy główne współrzędne rzędu.

Podobnie $p_2$ oznacza proporcję bezwładności, która ma przejść do kolumn. Zatem ogólny wzór współrzędnych kolumny jest następujący: $\bf V_*S^{p2}$ (droga bezpośrednia) = $\mathbf {X'U_*S^{p2-1}}/r$ (droga pośrednia). Jeśli $p_2=0$ otrzymujemy standardowe współrzędne kolumny, natomiast przy $p_2=1$ otrzymujemy główne współrzędne kolumny.

Ogólne wzory pośrednie są uniwersalne, ponieważ pozwalają obliczyć współrzędne (standardowe, główne lub pośrednie) również dla punktów pasywnych, jeśli takie istnieją.

Jeśli $p_1+p_2=1$ , mówią, że bezwładność jest rozkładana między punkty wiersza i kolumny. $p_1=1,p_2=0$ , to znaczy rząd-kolumna główny standard, biplots są czasami nazywane "biplots formy" lub "Ochrona wiersz dane" biplots. $p_1=0,p_2=1$ , to wiersz standardowej kolumny główny, biplots nazywane są często w literaturze „PCA ciągu biplots kowariancji” lub „zachowanie kolumny dane” biplots; wyświetlają zmienne ładunki ( które są zestawione z kowariancjami) oraz znormalizowane wyniki składowe, gdy są stosowane w PCA.

W analizie korespondencyjnego , $p_1=p_2=1/2$ jest często stosowany i jest nazywany „symetryczne” lub „kanoniczne” Normalizacja bezwładności - umożliwia (chociaż w niektórych expence euklidesowej surowości geometryczne) porównuje odległość między wierszy i kolumn punktów jak możemy to zrobić na wielowymiarowej mapie rozkładania.

Analiza korespondencji (model euklidesowy)

Dwukierunkowa (= prosta) analiza korespondencji (CA) jest dwupisem używanym do analizy dwukierunkowej tabeli kontyngencji, to znaczy tabeli nieujemnej, której wpisy mają znaczenie pewnego rodzaju powinowactwa między wierszem a kolumną. Gdy w tabeli podano częstotliwości, stosuje się analizę korespondencji modelu chi-kwadrat. Gdy wpisy są, powiedzmy, średnimi lub innymi punktami, stosuje się prostszy model CA euklidesa.

Model euklidesowy CA to tylko biplot opisany powyżej, tyle że tabela $\bf X$ jest dodatkowo wstępnie przetwarzana przed wejściem w operacje biplotu. W szczególności, wartości są znormalizowane nie tylko $r$ i $c$ , ale także od całkowitej sumy $N$ .

Wstępne przetwarzanie polega na centrowaniu, a następnie normalizowaniu przez średnią masę. Centrowanie może być różne, najczęściej: (1) centrowanie kolumn; (2) centrowanie rzędów; (3) dwukierunkowe centrowanie, które jest tą samą operacją, co obliczanie reszt częstotliwości; (4) centrowanie kolumn po wyrównaniu sum kolumn; (5) centrowanie wierszy po wyrównaniu sum wierszy. Normalizacja przez średnią masę dzieli się przez średnią wartość komórki początkowej tabeli. Na etapie wstępnego przetwarzania pasywne wiersze / kolumny, jeśli istnieją, są standaryzowane pasywnie: są wyśrodkowane / znormalizowane przez wartości obliczone z aktywnych wierszy / kolumn.

Następnie wykonywany jest zwykle biplot na wstępnie przetworzonym $\bf X$ , zaczynając od $\mathbf Z=\mathbf X/\sqrt{rc}$ .

Ważony dwupłat

Wyobraź sobie, że aktywność lub ważność wiersza lub kolumny może być dowolną liczbą od 0 do 1, a nie tylko 0 (pasywna) lub 1 (aktywna), jak w klasycznym biplocie omówionym do tej pory. Możemy zważyć dane wejściowe według tych wag wierszy i kolumn i wykonać ważony biplot. W przypadku ważonego biplota, im większa jest waga, tym większy wpływ ma ten rząd lub kolumna pod względem wszystkich wyników - bezwładności i współrzędnych wszystkich punktów na głównych osiach.

$\mathbf{Z_{ij} = X_{ij}}\sqrt{w_i w_j}$ $w_i$ $w_j$

$1/r$ $1/c$ $r$ $c$

$\bf Z$ $w_i$ $1/r$ $w_j$ $1/c$ $\mathbf {U_{*i}=U_i}/\sqrt{w_i}$ $\mathbf {V_{*j}=V_j}/\sqrt{w_j}$

Give inertia to coordinates in the proportion you want (with $p_1=1$ and $p_2=1$ the coordinates will be fully unstandardized, or principal; with $p_1=0$ and $p_2=0$ they will stay standard). Rows: $\bf U_*S^{p1}$ (direct way) = $\bf X[Wj]V_*S^{p1-1}$ (indirect way). Columns: $\bf V_*S^{p2}$ (direct way) = $\bf ([Wi]X)'U_*S^{p2-1}$ (indirect way). Matrices in brackets here are the diagonal matrices of the column and the row weights, respectively. For passive points (that is, with zero weights) only the indirect way of computation is suited. For active (positive weights) points you may go either way.

PCA as a particular case of Biplot revisited. When considering unweighted biplot earlier I mentioned that PCA and biplot are equivalent, the only difference being that biplot sees columns (variables) of the data as random cases symmetrically to observations (rows). Having extended now biplot to more general weighted biplot we may once again claim it, observing that the only difference is that (weighted) biplot normalizes the sum of column weights of input data to 1, and (weighted) PCA - to the number of (active) columns. So here is the weighted PCA introduced. Its results are proportionally identical to those of weighted biplot. Specifically, if $c$ is the number of active columns, then the following relationships are true, for weighted as well as classic versions of the two analyses:

eigenvalues of PCA = eigenvalues of biplot $\cdot c$ ;
loadings = column coordinates under "principal normalization" of columns;
standardized component scores = row coordinates under "standard normalization" of rows;
eigenvectors of PCA = column coordinates under "standard normalization" of columns $/ \sqrt c$ ;
raw component scores = row coordinates under "principal normalization" of rows $\cdot \sqrt c$ .

Correspondence Analysis (Chi-square model)

This is technically a weighted biplot where weights are being computed from a table itself rather then supplied by the user. It is used mostly to analyze frequency cross-tables. This biplot will approximate, by euclidean distances on the plot, chi-square distances in the table. Chi-square distance is mathematically the euclidean distance inversely weighted by the marginal totals. I will not go further in details of Chi-square model CA geometry.

The preprocessing of frequency table $\bf X$ is as follows: divide each frequency by the expected frequency, then subtract 1. It is the same as to first obtain the frequency residual and then to divide by the expected frequency. Set row weights to $w_i=R_i/N$ and column weights to $w_j=C_j/N$ , where $R_i$ is the marginal sum of row i (active columns only), $C_j$ is the marginal sum of column j (active rows only), $N$ is the table total active sum (the three numbers come from the initial table).

Then do weighted biplot: (1) Normalize $\bf X$ into $\bf Z$ . (2) The weights are never zero (zero $R_i$ and $C_j$ are not allowed in CA); however you can force rows/columns to become passive by zeroing them in $\bf Z$ , so their weights are ineffective at svd. (3) Do svd. (4) Compute standard and inertia-vested coordinates as in weighted biplot.

In Chi-square model CA as well as in Euclidean model CA using two-way centering one last eigenvalue is always 0, so the maximal possible number of principal dimensions is $\min(r-1,c-1)$ .

See also a nice overview of chi-square model CA in this answer.

Illustrations

Here is some data table.

 row     A     B     C     D     E     F
   1     6     8     6     2     9     9
   2     0     3     8     5     1     3
   3     2     3     9     2     4     7
   4     2     4     2     2     7     7
   5     6     9     9     3     9     6
   6     6     4     7     5     5     8
   7     7     9     6     6     4     8
   8     4     4     8     5     3     7
   9     4     6     7     3     3     7
  10     1     5     4     5     3     6
  11     1     5     6     4     8     3
  12     0     6     7     5     3     1
  13     6     9     6     3     5     4
  14     1     6     4     7     8     4
  15     1     1     5     2     4     3
  16     8     9     7     5     5     9
  17     2     7     1     3     4     4
  28     5     3     3     9     6     4
  19     6     7     6     2     9     6
  20    10     7     4     4     8     7

Several dual scatterplots (in 2 first principal dimensions) built on analyses of these values follow. Column points are connected with the origin by spikes for visual emphasis. There were no passive rows or columns in these analyses.

The first biplot is SVD results of the data table analyzed "as is"; the coordinates are the row and the column eigenvectors.

enter image description here

Below is one of possible biplots coming from PCA. PCA was done on the data "as is", without centering the columns; however, as it is adopted in PCA, normalization by the number of rows (the number of cases) was done initially. This specific biplot displays principal row coordinates (i.e. raw component scores) and principal column coordinates (i.e. variable loadings).

enter image description here

Dalej jest biplot sensu stricto : Tabela została początkowo znormalizowana zarówno pod względem liczby wierszy, jak i liczby kolumn. Podstawową normalizację (rozkład bezwładności) zastosowano zarówno dla współrzędnych wiersza, jak i kolumny - jak w przypadku PCA powyżej. Zwróć uwagę na podobieństwo z dwupłatem PCA: jedyna różnica wynika z różnicy w początkowej normalizacji.

enter image description here

Biplot analizy korespondencji modelu chi-kwadrat . Tabela danych została wstępnie przetworzona w specjalny sposób, obejmowała dwukierunkowe centrowanie i normalizację z wykorzystaniem wartości krańcowych. Jest to ważony dwupłat. Bezwładność została rozłożona na rząd, a współrzędne kolumny symetrycznie - oba są w połowie odległości między współrzędnymi „głównymi” i „standardowymi”.

enter image description here

Współrzędne wyświetlane na wszystkich tych wykresach rozrzutu:

point      dim1_1   dim2_1   dim1_2   dim2_2   dim1_3   dim2_3   dim1_4   dim2_4
1            .290     .247   16.871    3.048    6.887    1.244    -.479    -.101
2            .141    -.509    8.222   -6.284    3.356   -2.565    1.460    -.413
3            .198    -.282   11.504   -3.486    4.696   -1.423     .414    -.820
4            .175     .178   10.156    2.202    4.146     .899    -.421     .339
5            .303     .045   17.610     .550    7.189     .224    -.171    -.090
6            .245    -.054   14.226    -.665    5.808    -.272    -.061    -.319
7            .280     .051   16.306     .631    6.657     .258    -.180    -.112
8            .218    -.248   12.688   -3.065    5.180   -1.251     .322    -.480
9            .216    -.105   12.557   -1.300    5.126    -.531     .036    -.533
10           .171    -.157    9.921   -1.934    4.050    -.789     .433     .187
11           .194    -.137   11.282   -1.689    4.606    -.690     .384     .535
12           .157    -.384    9.117   -4.746    3.722   -1.938    1.121     .304
13           .235     .099   13.676    1.219    5.583     .498    -.295    -.072
14           .210    -.105   12.228   -1.295    4.992    -.529     .399     .962
15           .115    -.163    6.677   -2.013    2.726    -.822     .517    -.227
16           .304     .103   17.656    1.269    7.208     .518    -.289    -.257
17           .151     .147    8.771    1.814    3.581     .741    -.316     .670
18           .198    -.026   11.509    -.324    4.699    -.132     .137     .776
19           .259     .213   15.058    2.631    6.147    1.074    -.459     .005
20           .278     .414   16.159    5.112    6.597    2.087    -.753     .040
A            .337     .534    4.387    1.475    4.387    1.475    -.865    -.289
B            .461     .156    5.998     .430    5.998     .430    -.127     .186
C            .441    -.666    5.741   -1.840    5.741   -1.840     .635    -.563
D            .306    -.394    3.976   -1.087    3.976   -1.087     .656     .571
E            .427     .289    5.556     .797    5.556     .797    -.230     .518
F            .451     .087    5.860     .240    5.860     .240    -.176    -.325

ttnphns
źródło

Ciekawe pytanie (+1) oraz doskonała i wyczerpująca odpowiedź (+1). Jednak odpowiedź IMHO rozpaczliwie potrzebuje pomocy wizualnej, aby lepiej zrozumieć całą tę wielką matematykę.

Aleksandr Blekh

Dodałem kilka przykładowych zdjęć.

ttnphns,

Wspaniale! Dziękuję! (Nie oznacza to, że wszystko rozumiem, ale przynajmniej teraz mam większą motywację do spróbowania :-).

Aleksandr Blekh

Analiza PCA i korespondencji w odniesieniu do Biplot

Odpowiedzi:

SVD

Analiza głównych składników metodą SVD

Biplot

Pasywne wiersze i kolumny

Arbitralne rozprzestrzenianie się bezwładności

Analiza korespondencji (model euklidesowy)

Ważony dwupłat

Correspondence Analysis (Chi-square model)

Illustrations