Co należy rozumieć przez zachowanie przez PCA jedynie dużych par odległości?

10

Obecnie czytam technikę wizualizacji t-SNE i wspomniano, że jedną z wad stosowania analizy głównych składników (PCA) do wizualizacji danych wielowymiarowych jest to, że zachowuje ona jedynie duże parowe odległości między punktami. Znaczące punkty, które są daleko od siebie w przestrzeni wielowymiarowej, również pojawią się daleko od siebie w niskiej przestrzeni podprzestrzennej, ale poza tym wszystkie inne pary par zostałyby zepsute.

Czy ktoś mógłby mi pomóc zrozumieć, dlaczego tak jest i co to oznacza graficznie?

użytkownik
źródło
PCA jest ściśle związana z odległościami Euklidesa i Mahalanobisa, które są krótkowzroczne w wyższych wymiarach, nie widzą małych odległości.
Aksakal
Należy również zauważyć, że PCA, postrzegany jako najprostszy metryczny MDS, polega na rekonstrukcji zsumowanych kwadratowych odległości euklidesowych. Cierpi precyzja na małe odległości.
ttnphns

Odpowiedzi:

8

Rozważ następujący zestaw danych:

Zestaw danych PCA

Oś PC1 maksymalizuje wariancję projekcji. Więc w tym przypadku będzie to oczywiście przebiegać po przekątnej od lewego dolnego do prawego górnego rogu:

PCA zachowuje tylko duże odległości parami

Największa odległość parami w oryginalnym zestawie danych znajduje się między tymi dwoma odległymi punktami; zauważ, że jest prawie dokładnie zachowany w PC1. Mniejsze, ale wciąż znaczne odległości parami znajdują się między każdym z peryferyjnych punktów a wszystkimi innymi punktami; są one również dość dobrze zachowane. Ale jeśli spojrzysz na jeszcze mniejsze odległości parami między punktami w gromadzie centralnej, zobaczysz, że niektóre z nich są mocno zniekształcone.

Myślę, że daje to właściwą intuicję: PCA znajduje podprzestrzenną przestrzeń o minimalnej wielkości z maksymalną wariancją. Maksymalna wariancja oznacza, że ​​podprzestrzeń będzie miała tendencję do wyrównania, tak aby zbliżyć się do punktów leżących daleko od centrum; dlatego największe odległości parami będą zwykle dobrze zachowane, a mniejsze mniej.

1010×1010×10w rzeczywistości najlepiej zachowany właśnie przez PC1 (dowód znajduje się w mojej odpowiedzi). I można argumentować, że duże odległości parami zwykle oznaczają również duże produkty skalarne; w rzeczywistości jeden z algorytmów MDS (klasyczny / Torgerson MDS) jest skłonny wyraźnie przyjąć to założenie.

Podsumowując:

  1. PCA ma na celu zachowanie macierzy pary skalarnych produktów w tym sensie, że suma kwadratowych różnic między oryginalnymi i zrekonstruowanymi produktami skalarowymi powinna być minimalna.
  2. Oznacza to, że raczej zachowa produkty skalarne o największej wartości bezwzględnej i będzie mniej dbać o te o małej wartości bezwzględnej, ponieważ dodają one mniej do sumy błędów kwadratowych.
  3. Dlatego PCA zachowuje większe produkty skalarne lepiej niż te mniejsze.
  4. Odległości w parach zostaną zachowane tylko w takim stopniu, w jakim są podobne do produktów skalarnych, co często, ale nie zawsze, ma miejsce. W takim przypadku większe pary zostaną zachowane lepiej niż mniejsze.
ameba
źródło
Nie wydaje mi się, żeby to był dobry obraz. Nie pokazuje, jak pogarsza się wraz ze wzrostem wymiarowości
Aksakal,
2
Nie jestem pewien, czy rozumiem twój punkt widzenia, @Aksakal. Rozważ zamieszczenie alternatywnej odpowiedzi ze swoim punktem widzenia. Myślę, że efekt lepszego zachowania większych niż mniejszych odległości par jest obecny już w 2D i nie trzeba myśleć o wysokiej wymiarowości, aby zrozumieć, co się dzieje. Dlatego skupiłem się na prostym przykładzie 2D.
ameba
To, co narysowałeś, będzie miało zastosowanie do dowolnej metody. Mogę odłożyć kilka punktów bardzo daleko i argumentować, że przeważają nad resztą. Problem z odległościami euklidesowymi polega na tym, że ich zakres dynamiczny zmniejsza się wraz ze wzrostem wymiarowości
Aksakal
+1, ale zmieniam akcent, nieco inaczej niż ty (głównie punkt 4). Nie chodzi o to, że są to odległości, a są to produkty skalarne (macierz „podwójnej centracji”) - w końcu, biorąc pod uwagę przekątną, zachowują identyczne informacje. Problem jest raczej analogiczny do prawdopodobieństwa analizy PCA i Factor. PCoA Torgersona, podobnie jak PCA, będzie dążyć do maksymalizacji rekonstrukcji sc. szturchać. matrycę, głównie poprzez jej przekątną, nie kontrolując konkretnie, w jaki sposób zostaną dopasowane wejścia nie przekątne.
ttnphns
(cd.) Ślad wspomnianej przekątnej jest ogólną zmiennością i jest bezpośrednio związany z sumą wszystkich kwadratowych odległości parami, pozostawiając poszczególne odległości za sobą. Można by to sformułować również w oparciu o twierdzenie Eckarta-Younga, które stwierdza, że ​​chmura danych zrekonstruowana przez PCA jest najbardziej zbliżona pod względem sumy kwadratów do pierwotnej; to znaczy całkowita kwadratowa odległość między starymi punktami a ich punktami rzutowanymi przez PCA jest minimalna. To nie to samo, co stare odległości parami - nowe relacje odległości pw.
ttnphns