Jaka jest różnica między analizą głównych składników a skalowaniem wielowymiarowym?

133

Czym różnią się PCA i klasyczny MDS? Co powiesz na MDS a niemetryczny MDS? Czy jest czas, kiedy wolisz jeden od drugiego? Czym różnią się interpretacje?

pca multidimensional-scaling pcoa Stephen Turner
źródło

95

Metryka MDS klasycznego Torgersona jest faktycznie wykonywana przez przekształcenie odległości w podobieństwa i wykonanie na nich PCA (rozkład własny lub rozkład wartości osobliwych). [Inną nazwą tej procedury ( distances between objects -> similarities between them -> PCAprzy czym obciążenia są poszukiwanymi współrzędnymi) jest główna analiza współrzędnych lub PCoA .] Zatem PCA można nazwać algorytmem najprostszego MDS.

Niemetryczny MDS opiera się na iteracyjnym algorytmie ALSCAL lub PROXSCAL (lub podobnym algorytmie), który jest bardziej uniwersalną techniką mapowania niż PCA i może być również stosowany do metrycznego MDS. Podczas gdy PCA zachowuje dla ciebie m ważne wymiary, ALSCAL / PROXSCAL dopasowuje konfigurację do m wymiarów (wstępnie definiujesz m ) i odtwarza różnice na mapie bardziej bezpośrednio i dokładniej niż zwykle PCA (patrz sekcja ilustracji poniżej).

Tak więc MDS i PCA prawdopodobnie nie są na tym samym poziomie, aby być w linii lub naprzeciw siebie. PCA to tylko metoda, podczas gdy MDS to klasa analizy. Jako mapowanie PCA jest szczególnym przypadkiem MDS. Z drugiej strony PCA jest szczególnym przypadkiem analizy czynnikowej, która będąc redukcją danych, jest czymś więcej niż tylko mapowaniem, podczas gdy MDS jest tylko mapowaniem.

Jeśli chodzi o twoje pytanie dotyczące metrycznego MDS vs. niemetrycznego MDS, niewiele jest komentarzy, ponieważ odpowiedź jest prosta. Jeśli uważam, że moje podobieństwa wejściowe są tak bliskie odległościom euklidesowym, że wystarczy transformacja liniowa do odwzorowania ich w przestrzeni m-wymiarowej, wolę metryczny MDS. Jeśli nie wierzę, konieczna jest transformacja monotoniczna, co oznacza użycie niemetrycznego MDS.

Uwaga na temat terminologii dla czytelnika. Termin Classic (al) MDS (CMDS) może mieć dwa różne znaczenia w szerokiej literaturze na temat MDS, więc jest niejednoznaczny i należy go unikać. Jedną z definicji jest to, że CMDS jest synonimem miernika MDS Torgersona. Inną definicją jest to, że CMDS to dowolny MDS (według dowolnego algorytmu; analiza metryczna lub niemetryczna) z wejściem z pojedynczą matrycą (ponieważ istnieją modele analizujące wiele macierzy jednocześnie - Indywidualny model „INDSCAL” i model replikowany).

Ilustracja do odpowiedzi . Pewna chmura punktów (elipsa) jest odwzorowywana na jednowymiarowej mapie mds. Para punktów pokazana jest w czerwonych kropkach.

Iteracyjny lub „prawdziwy” MDS ma na celu odtworzenie par odległości między obiektami. Jest to bowiem zadaniem każdego MDS . Różne kryteria naprężeń lub Misfit może być minimalizowane pomiędzy O riginal odległości i odległości, na m ap: , , . Algorytm może (niemetryczny MDS) lub nie (metryczny MDS) zawierać w ten sposób transformację monotoniczną. $\|D_o-D_m\|_2^2$ $\|D_o^2-D_m^2\|_1$ $\|D_o-D_m\|_1$

MDS oparty na PCA (Torgerson's lub PCoA) nie jest prosty. Minimalizuje kwadratowe odległości między obiektami w pierwotnej przestrzeni i ich obrazami na mapie. To nie jest całkiem prawdziwe zadanie MDS; odnosi sukces, jako MDS, tylko w takim stopniu, w jakim odrzucone mniejsze główne osie są słabe. Jeśli wyjaśnia wiele więcej niż wariancji były może sam właściwie odzwierciedlają parami odległości w chmurze, zwłaszcza za punkty leżące daleko od siebie wzdłuż elipsy. Iteracyjny MDS zawsze wygrywa, zwłaszcza gdy mapa jest bardzo mało wymiarowa. Iteracyjny MDS również odniesie większy sukces, gdy elipsa chmurowa jest cienka, ale lepiej wypełni zadanie mds niż PCoA. Według właściwości macierzy podwójnego centrowania (opisanej tutaj $P_1$ $P_2$ ) wydaje się, że PCoA minimalizuje , co różni się od któregokolwiek z powyższych minimalizacji. $\|D_o\|_2^2-\|D_m\|_2^2$

Po raz kolejny PCA rzutuje punkty chmurowe na najbardziej korzystną podprzestrzeń oszczędzania dla wszystkich osób. Nie wyświetla par odległości , względnych lokalizacji punktów w podprzestrzeni, które są najbardziej oszczędne pod tym względem, tak jak robi to iteracyjny MDS. Niemniej jednak historycznie PCoA / PCA jest uważane za jedną z metod metrycznego MDS.

ttnphns
źródło

3

(+1) Podobały mi się obie odpowiedzi, ta prawdopodobnie trochę bardziej.

Dmitrij Celov,

Link do pliku PDF związany z PCoA. Można go znaleźć w Archiwum sieci: web.archive.org/web/20160315120635/http://forrest.psych.unc.edu/…

Pierre

49

Uhm ... całkiem inaczej. W PCA otrzymujesz ciągłe dane wielowymiarowe (wektor wielowymiarowy dla każdego przedmiotu) i próbujesz dowiedzieć się, czy nie potrzebujesz tylu wymiarów, aby je konceptualizować. W (metrycznym) MDS podano macierz odległości między obiektami i próbujesz dowiedzieć się, jakie są położenia tych obiektów w przestrzeni (i czy potrzebujesz przestrzeni 1D, 2D, 3D itd.). W niemetrycznym MDS wiesz tylko, że obiekty 1 i 2 są bardziej odległe niż obiekty 2 i 3, więc próbujesz to oszacować, oprócz znalezienia wymiarów i lokalizacji.

Dzięki znacznej wyobraźni można powiedzieć, że wspólnym celem PCA i MDS jest wizualizacja obiektów w 2D lub 3D. Ale biorąc pod uwagę, jak różne są dane wejściowe, metody te nie będą omawiane jako nawet odległe w żadnym podręczniku na wielu odmianach. Sądzę, że możesz przekonwertować dane użyteczne dla PCA na dane użyteczne dla MDS (powiedzmy, obliczając odległości Mahalanobisa między obiektami, używając przykładowej macierzy kowariancji), ale natychmiast spowodowałoby to utratę informacji: MDS jest tylko zdefiniowany do lokalizacji i rotacji, a dwa ostatnie można zrobić bardziej informacyjnie za pomocą PCA.

Gdybym miał krótko pokazać komuś wyniki niemetrycznego MDS i chciałbym dać mu przybliżone wyobrażenie o tym, co robi bez wchodzenia w szczegóły, mógłbym powiedzieć:

Biorąc pod uwagę posiadane przez nas miary podobieństwa lub odmienności, staramy się mapować nasze obiekty / podmioty w taki sposób, aby „miasta”, które tworzą, miały między nimi odległości, które są tak bliskie tym miarom podobieństwa, jak to możliwe. Możemy jednak idealnie odwzorować je tylko w przestrzeni wymiarowej, więc reprezentuję tutaj dwa najbardziej pouczające wymiary - coś w rodzaju tego, co zrobiłbyś w PCA, gdybyś pokazał zdjęcie z dwoma głównymi składowymi. $n$

StasK
źródło

18

Czy PCA nie jest stosowane na macierzy korelacji równoważnej MDS z odległościami euklidesowymi obliczonymi na standardowych zmiennych?

chl

Więc jeśli miałbym krótko pokazać komuś wyniki niemetrycznego MDS i chciałbym dać mu przybliżone wyobrażenie o tym, co robi bez wchodzenia w szczegóły, czy mógłbym powiedzieć „to robi coś podobnego do PCA”, nie wprowadzając w błąd?

Freya Harrison

6

Powiedziałbym: „Biorąc pod uwagę stosowane przez nas miary podobieństwa lub odmienności, staramy się mapować nasze obiekty / podmioty w taki sposób, aby„ miasta ”, które tworzą, miały między nimi odległości, które są tak bliskie tym miarom podobieństwa, jak możemy je wykonać. Mogliśmy je idealnie odwzorować tylko w przestrzeni

wymiarowej, więc reprezentuję tutaj najbardziej pouczające wymiary - coś w rodzaju tego, co zrobiłbyś w PCA, gdybyś pokazał zdjęcie z dwoma głównymi składowymi ".

n

$n$

StasK,

+1 Fajnie - dla mnie ten komentarz ładnie wiąże twoją odpowiedź. Dzięki.

Freya Harrison,

47

Dwa rodzaje metrycznych MDS

Zadanie metrycznego skalowania wielowymiarowego (MDS) można abstrakcyjnie sformułować w następujący sposób: biorąc pod uwagę macierz par odległości między punktami, znajdź nisko wymiarowe osadzenie punktów danych w tak aby odległości euklidesowe między nimi były zbliżone do podane odległości: $n\times n$ $\mathbf D$ $n$ $\mathbb R^k$

‖ x_{i} - x_{j} ‖ \approx D_{i j} .

$\|\mathbf x_i - \mathbf x_j\|\approx D_{ij}.$

Jeśli „przybliżony” jest tutaj rozumiany w zwykłym sensie błędu rekonstrukcji, tj. Jeśli celem jest zminimalizowanie funkcji kosztu zwanej „naprężeniem”: wówczas rozwiązaniem jest nie odpowiada PCA. Rozwiązanie nie zawiera żadnej zamkniętej formuły i musi zostać obliczone przez dedykowany algorytm iteracyjny.

Stress \sim ‖ D - ‖ x_{i} - x_{j} ‖ ‖^{2},

$\text{Stress} \sim \Big\|\mathbf D - \|\mathbf x_i - \mathbf x_j\|\Big\|^2,$

„Klasyczny MDS”, znany również jako „Torgerson MDS” zastępuje tę funkcję kosztów przez powiązanego ale nie równoważne , zwany „szczep”: który dąży do zminimalizowania błąd rekonstrukcji wyśrodkowanych produktów skalarnych zamiast odległości. Okazuje się, że mogą być obliczane od (jeśli są odległości euklidesowych) i minimalizacji błędu rekonstrukcji jest dokładnie to, co robi PCA, jak pokazano w następnym rozdziale.

Strain \sim ‖ K_{c} - ⟨ x_{i}, x_{j} ⟩ ‖^{2},

$\text{Strain} \sim \Big\|\mathbf K_c - \langle\mathbf x_i, \mathbf x_j\rangle\Big\|^2,$

K_{c}

$\mathbf K_c$

D

$\mathbf D$

D

$\mathbf D$

K_{c}

$\mathbf K_c$

Klasyczny (Torgerson) MDS na odległościach euklidesowych jest równoważny PCA

$\mathbf X$ $n \times k$ $\mathbf X_c$

$\mathbf X_c = \mathbf {USV^\top}$ $\mathbf{US}$ $\frac{1}{n}\mathbf X_c^\top \mathbf X^\vphantom{\top}_c$ $\mathbf K_c = \mathbf X^\vphantom{\top}_c \mathbf X^\top_c=\mathbf U \mathbf S^2 \mathbf U^\top$

$\mathbf X_c = (\mathbf I - \frac{1}{n}\mathbf 1_n)\mathbf X$ $\mathbf 1_n$ $n \times n$

K_{c} = (I - \frac{1_{n}}{n}) K (I - \frac{1_{n}}{n}) = K - \frac{1_{n}}{n} K - K \frac{1_{n}}{n} + \frac{1_{n}}{n} K \frac{1_{n}}{n},

$\mathbf K_c = \left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\mathbf K\left(\mathbf I - \frac{\mathbf 1_n}{n}\right) = \mathbf K - \frac{\mathbf 1_n}{n} \mathbf K - \mathbf K \frac{\mathbf 1_n}{n} + \frac{\mathbf 1_n}{n} \mathbf K \frac{\mathbf 1_n}{n},$

K = X X^{⊤}

$\mathbf K = \mathbf X \mathbf X^\top$

X

$\mathbf X$

K

$\mathbf K$

K_{c}

$\mathbf K_c$

$n \times n$ $\mathbf D$ $D_{ij} = \|\mathbf x_i - \mathbf x_j\|$ $\mathbf K_c$

\begin{aligned} D_{i j}^{2} = ‖ x_{i} - x_{j} ‖^{2} & = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 ⟨ x_{i} - \bar{x}, x_{j} - \bar{x} ⟩ \\ = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 [K_{c}]_{i j} . \end{aligned}

$\begin{align} D_{ij}^2 = \|\mathbf x_i - \mathbf x_j\|^2 &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2\langle\mathbf x_i - \bar{\mathbf x}, \mathbf x_j - \bar{\mathbf x} \rangle \\ &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2[K_c]_{ij}. \end{align}$

- D^{2} / 2

$-\mathbf D^2/2$

K_{c}

$\mathbf K_c$

D^{2}

$\mathbf D^2$

K_{c}

$\mathbf K_c$

K_{c} = - (I - \frac{1_{n}}{n}) \frac{D^{2}}{2} (I - \frac{1_{n}}{n}) .

$\mathbf K_c = -\left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\frac{\mathbf D^2}{2}\left(\mathbf I - \frac{\mathbf 1_n}{n}\right).$

$\mathbf D$ $\mathbf D \mapsto \mathbf K_c \mapsto \mathbf{US}$

$\|\mathbf x_i - \mathbf x_j\|$

Odniesienie: Elementy uczenia statystycznego , sekcja 18.5.2.

ameba
źródło

X X^{T}

$\mathbf X \mathbf X^T$

n \times n

$n \times n$

Dzięki, @cbeleites, oczywiście masz rację - to tylko literówka. Naprawię to teraz. Daj mi znać, jeśli zobaczysz inne błędy (lub możesz edytować bezpośrednio).

ameba

1

+1. I dziękuję za wykazanie przez matematykę tego, co zostało powiedziane w pierwszym akapicie mojej odpowiedzi.

ttnphns

2

+1 Chciałbym, żeby to była zaakceptowana / najwyższa odpowiedź. Myślę, że łatwo na to zasługuje.

Zhubarb

35

PCA daje DOKŁADNE takie same wyniki jak klasyczny MDS, jeśli zastosowana zostanie odległość euklidesowa.

Cytuję Cox & Cox (2001), s. 43–44:

Istnieje dwoistość między analizą składowych głównych a PCO [analiza głównych współrzędnych, czyli klasyczny MDS], gdzie różnice występują w odległości euklidesowej.

Sekcja w Cox & Cox wyjaśnia to dość wyraźnie:

$X$ $n$ $p$
$X'X$ $\xi$ $\mu$
$X$ $XX'$ $v$ $\lambda$
$XX'$ $X'X$ $i < p$ $\mu_i$ $\lambda_i$
$i^{th}$ $X'Xv_i = \lambda_i v_i$
$v_i$ $X'$ $(X'X)X'v_i = \lambda_i X'v_i$
$X'X \xi_i = \mu_i \xi_i$ $\lambda_i = \mu_i$ $\xi_i = X'v_i$ $i<p$

użytkownik1705135
źródło

2

Zrobiłem trochę kodowania w R i użyłem cmdscale jako implementacji klasycznego MDS i prcomp dla PCA - jednak wynik nie jest taki sam ... czy jest jakiś punkt, którego mi brakuje?!

user4581,

3

same results as classical MDS. „Klasyczny MDS” oznacza tutaj MDS Torgersona. To stwierdzenie jest rzeczywiście prawdziwe, ponieważ MDS Torgersona to tak naprawdę PCA (zaczynając od macierzy odległości). Jeśli inaczej zdefiniujesz „klasyczny MDS” (patrz moja odpowiedź), to stwierdzenie nie jest prawdziwe.

ttnphns

7

Zaraz, jak, u licha, XX 'zapewnia odległość euklidesową? XX 'jest produktem wewnętrznym - jeśli matryca została znormalizowana, to podobieństwo do cosinusa. Odległość euklidesowa wymaga odjęcia i pierwiastka kwadratowego.

ShainaR

X X^{'} v_{i} = λ_{i} v_{i}

$XX'v_i = \lambda_i v_i$

4

Porównanie: „Metryczny MDS daje taki sam wynik jak PCA” - proceduralnie - kiedy patrzymy na sposób użycia SVD do uzyskania optymalnego. Ale zachowane kryteria wielowymiarowe są inne. PCA wykorzystuje wyśrodkowaną macierz kowariancji, podczas gdy MDS wykorzystuje macierz gramów uzyskaną przez podwójne centrowanie macierzy odległości.

$Tr(X^T(I-\frac{1}{n}ee^T)X)$ $X$ $X$ $Z^TZ$ $X$ $Y$ $||G-Y^TY||_{F}^{2}$

karawan
źródło

Jaka jest różnica między analizą głównych składników a skalowaniem wielowymiarowym?

Odpowiedzi:

Dwa rodzaje metrycznych MDS

Klasyczny (Torgerson) MDS na odległościach euklidesowych jest równoważny PCA