Obecnie czytam technikę wizualizacji t-SNE i wspomniano, że jedną z wad stosowania analizy głównych składników (PCA) do wizualizacji danych wielowymiarowych jest to, że zachowuje ona jedynie duże parowe odległości między punktami. Znaczące punkty, które są daleko od siebie w przestrzeni wielowymiarowej, również pojawią się daleko od siebie w niskiej przestrzeni podprzestrzennej, ale poza tym wszystkie inne pary par zostałyby zepsute.
Czy ktoś mógłby mi pomóc zrozumieć, dlaczego tak jest i co to oznacza graficznie?
machine-learning
data-visualization
pca
tsne
użytkownik
źródło
źródło
Odpowiedzi:
Rozważ następujący zestaw danych:
Oś PC1 maksymalizuje wariancję projekcji. Więc w tym przypadku będzie to oczywiście przebiegać po przekątnej od lewego dolnego do prawego górnego rogu:
Największa odległość parami w oryginalnym zestawie danych znajduje się między tymi dwoma odległymi punktami; zauważ, że jest prawie dokładnie zachowany w PC1. Mniejsze, ale wciąż znaczne odległości parami znajdują się między każdym z peryferyjnych punktów a wszystkimi innymi punktami; są one również dość dobrze zachowane. Ale jeśli spojrzysz na jeszcze mniejsze odległości parami między punktami w gromadzie centralnej, zobaczysz, że niektóre z nich są mocno zniekształcone.
Myślę, że daje to właściwą intuicję: PCA znajduje podprzestrzenną przestrzeń o minimalnej wielkości z maksymalną wariancją. Maksymalna wariancja oznacza, że podprzestrzeń będzie miała tendencję do wyrównania, tak aby zbliżyć się do punktów leżących daleko od centrum; dlatego największe odległości parami będą zwykle dobrze zachowane, a mniejsze mniej.
Podsumowując:
źródło