Rozumiem z artykułu Hintona, że T-SNE wykonuje dobrą robotę, utrzymując lokalne podobieństwa i przyzwoitą pracę, zachowując globalną strukturę (klasterizacja).
Nie jestem jednak pewien, czy punkty pojawiające się bliżej w wizualizacji 2D t-sne można założyć jako „bardziej podobne” punkty danych. Używam danych z 25 funkcjami.
Jako przykład, obserwując poniższy obrazek, mogę założyć, że niebieskie punkty danych są bardziej podobne do zielonych, szczególnie do największego skupiska zielonych punktów ?. Lub, pytając inaczej, czy można założyć, że niebieskie punkty są bardziej podobne do zielonego w najbliższym gromadzie, niż czerwone w drugim gromadzie? (pomijając zielone punkty w czerwonym klastrze)
Obserwując inne przykłady, takie jak te przedstawione w sci-kit, ucz się uczenia się w Manifold, wydaje się słuszne przyjąć to, ale nie jestem pewien, czy jest poprawny statystycznie.
EDYTOWAĆ
Obliczyłem odległości od oryginalnego zestawu danych ręcznie (średnia odległość euklidesowa w parach), a wizualizacja faktycznie reprezentuje proporcjonalną odległość przestrzenną w odniesieniu do zestawu danych. Chciałbym jednak wiedzieć, czy można tego oczekiwać na podstawie oryginalnego matematycznego sformułowania t-sne, a nie zwykłego przypadku.
źródło
Odpowiedzi:
Przedstawiłbym t-SNE jako inteligentną probabilistyczną adaptację osadzania lokalnie liniowego. W obu przypadkach próbujemy rzutować punkty z przestrzeni o dużych wymiarach na małe. Projekcji tej dokonuje się poprzez optymalizację zachowania lokalnych odległości (bezpośrednio za pomocą LLE, wstępne opracowanie rozkładu probabilistycznego i optymalizację dywergencji KL za pomocą t-SNE). Więc jeśli twoje pytanie brzmi, czy utrzymuje globalne odległości, odpowiedź brzmi nie. Będzie to zależeć od „kształtu” twoich danych (jeśli rozkład jest płynny, odległości należy w jakiś sposób zachować).
t-SNE w rzeczywistości nie działa dobrze na szwajcarskim rzucie (twój obraz „S” 3D) i możesz zobaczyć, że w wyniku 2D bardzo środkowe żółte punkty są ogólnie bliższe czerwonym niż niebieskim (one są idealnie wyśrodkowane na obrazie 3D).
Innym dobrym przykładem tego, co robi t-SNE, jest grupowanie ręcznie pisanych cyfr. Zobacz przykłady pod tym linkiem: https://lvdmaaten.github.io/tsne/
źródło