Chcę zobaczyć, jak 7 miar zachowania korekty tekstu (czas spędzony na poprawianiu tekstu, liczba naciśnięć klawiszy itp.) Odnoszą się do siebie. Miary są skorelowane. Uruchomiłem PCA, aby zobaczyć, jak miary rzutują się na PC1 i PC2, co pozwoliło uniknąć nakładania się osobnych testów dwukierunkowej korelacji między miarami.
Zapytano mnie, dlaczego nie stosować t-SNE, ponieważ związek między niektórymi miarami może być nieliniowy.
Widzę, w jaki sposób poprawienie tej nieliniowości poprawiłoby to, ale zastanawiam się, czy istnieje jakiś dobry powód, aby użyć PCA w tym przypadku, a nie t-SNE? Nie interesuje mnie grupowanie tekstów według ich związku ze środkami, ale raczej związek między samymi środkami.
(Wydaje mi się, że EFA może również być lepszym / innym podejściem, ale to inna dyskusja.) W porównaniu z innymi metodami, jest tu niewiele postów na temat t-SNE, więc pytanie wydaje się warte zadania.
Odpowiedzi:
Stochastyczność końcowego rozwiązania . PCA jest deterministyczna; SNE nie jest. Jedna dostaje ładną wizualizację, a następnie jej koleżanka dostaje kolejną wizualizację, a następnie stają się artystyczne, co wygląda lepiej i jeśli różnica w rozbieżności jest znacząca ... W PCA poprawna odpowiedź na postawione pytanie jest gwarantowane. SNE może mieć wiele minimów, które mogą prowadzić do różnych rozwiązań. Wymaga to wielu przebiegów, a także rodzi pytania dotyczące odtwarzalności wyników.t 0.03% KL(P||Q) t
Interpretowalność mapowania . Odnosi się to do powyższego punktu, ale załóżmy, że zespół zgodził się na konkretny losowy start / bieg. Teraz pojawia się pytanie, co to pokazuje ... SNE próbuje poprawnie odwzorować tylko lokalnych / sąsiadów, więc nasze spostrzeżenia z tego osadzenia powinny być bardzo ostrożne; globalne trendy nie są dokładnie reprezentowane (a to może być potencjalnie świetną rzeczą do wizualizacji). Z drugiej strony, PCA jest tylko diagonalnym obrotem naszej początkowej macierzy kowariancji, a wektory własne reprezentują nowy układ osiowy w przestrzeni rozpiętej przez nasze oryginalne dane. Możemy bezpośrednio wyjaśnić, co robi konkretny PCA.t
Zastosowanie do nowych / niewidocznych danych . SNE nie uczy się funkcji z pierwotnej przestrzeni do nowej (niższej) wymiarowej i to jest problem. W tej kwestii SNE jest nieparametrycznym algorytmem uczenia się, więc aproksymacja z algorytmem parametrycznym jest złym problemem. Osadzanie uczy się poprzez bezpośrednie przenoszenie danych w przestrzeni niskiego wymiaru. Oznacza to, że nie dostaje się wektora własnego lub podobnej konstrukcji do użycia w nowych danych. Natomiast za pomocą PCA wektory własne oferują nowy system osi, który można bezpośrednio wykorzystać do projekcji nowych danych. [Najwyraźniej można by ćwiczyć sieć głęboką, aby nauczyć sięt t t -Sne mapowanie (możesz usłyszeć Dr. van der Maaten na ~ 46 'tego filmu sugerującego coś w tym stylu), ale najwyraźniej nie ma łatwego rozwiązania.]
Niekompletne dane . Natywnie SNE nie zajmuje się niekompletnymi danymi. Szczerze mówiąc, PCA nie zajmuje się nimi, ale istnieją liczne rozszerzenia PCA dla niekompletnych danych (np. Probabilistyczne PCA ) i są to prawie standardowe procedury modelowania. SNE obecnie nie jest w stanie obsłużyć niekompletnych danych (pomijając oczywiście szkolenie najpierw probabilistycznego PCA i przekazywanie wyników PC do SNE jako danych wejściowych).t t t
nie jest (zbyt) mały przypadek.k SNE rozwiązuje problem zwany problemem zatłoczenia, skutecznie polegając na tym, że nieco podobne punkty w wyższym wymiarze zapadają się na siebie w niższych wymiarach (więcej tutaj ). Teraz, gdy zwiększasz stosowane wymiary, problem zatłoczenia staje się mniej poważny, tj. problem, który próbujesz rozwiązać za pomocą SNE, zostaje osłabiony. Możesz obejść ten problem, ale nie jest to trywialne. Dlatego jeśli potrzebujesz wektora wymiarowego jako zbioru zredukowanego, a nie jest całkiem mały, to kwestionowana jest optymalność produkowanego rozwiązania. Z drugiej strony PCA oferuje zawszet t k k k wyjaśniono najlepszą kombinację liniową pod względem wariancji. (Podziękowania dla @amoeba za to, że zauważyłem, że zrobiłem bałagan, kiedy pierwszy raz zarysowałem ten punkt).
Nie wspominam o problemach dotyczących wymagań obliczeniowych (np. Szybkości lub wielkości pamięci), ani o wyborze odpowiednich hiperparametrów (np. Zakłopotania). Myślę, że są to wewnętrzne problemy metodologii SNE i nie mają znaczenia przy porównywaniu jej z innym algorytmem.t
Podsumowując, SNE jest świetny, ale ponieważ wszystkie algorytmy mają swoje ograniczenia, jeśli chodzi o jego zastosowanie. Używam SNE prawie w każdym nowym zestawie danych, który dostaję jako wyjaśniające narzędzie do analizy danych. Wydaje mi się, że ma pewne ograniczenia, które nie sprawiają, że jest on prawie tak odpowiedni jak PCA. Chciałbym podkreślić, że PCA też nie jest doskonały; na przykład wizualizacje oparte na PCA są często gorsze niż w przypadku SNE.t t t
źródło
https://stats.stackexchange.com/a/249520/7828
jest doskonałą odpowiedzią ogólną.
Chciałbym się bardziej skupić na twoim problemie. Najwyraźniej chcesz zobaczyć, jak twoje próbki odnoszą się do twoich 7 zmiennych wejściowych. To jest coś, czego t-SNE nie robi. Ideą SNE i t-SNE jest umieszczenie sąsiadów blisko siebie (prawie) całkowicie ignorując globalną strukturę.
Jest to doskonałe do wizualizacji, ponieważ podobne przedmioty mogą być nanoszone obok siebie (a nie jedna na drugiej, jeśli się tłoczy).
To nie jest dobre do dalszej analizy. Globalna struktura została utracona, niektóre obiekty mogły zostać zablokowane przed przemieszczaniem się do sąsiadów, a separacja między różnymi grupami nie jest zachowana ilościowo. I w dużej mierze dlatego np. Grupowanie projekcji zwykle nie działa zbyt dobrze.
PCA jest wręcz przeciwnie. Stara się zachować globalne właściwości (wektory własne o dużej wariancji), a jednocześnie może utracić odchylenia o niskiej wariancji między sąsiadami.
źródło
Aby podać jeden zastosowany kąt, PCA i t-SNE nie wykluczają się wzajemnie. W niektórych dziedzinach biologii mamy do czynienia z danymi wysoce wymiarowymi (np. ScRNA-seq to tysiące wymiarów), w których t-SNE po prostu nie skaluje się. Dlatego najpierw używamy PCA, aby zmniejszyć wymiarowość danych, a następnie, biorąc pod uwagę najważniejsze składniki, obliczamy wykres sąsiedztwa, a następnie osadzamy go w 2 wymiarach za pomocą t-SNE (lub podobnego nieliniowego podejścia do zmniejszania wymiarowości jak UMAP) w celu wizualizacji danych.
źródło