Czy bliższe punkty można uznać za bardziej podobne w wizualizacji T-SNE?

14

Rozumiem z artykułu Hintona, że ​​T-SNE wykonuje dobrą robotę, utrzymując lokalne podobieństwa i przyzwoitą pracę, zachowując globalną strukturę (klasterizacja).

Nie jestem jednak pewien, czy punkty pojawiające się bliżej w wizualizacji 2D t-sne można założyć jako „bardziej podobne” punkty danych. Używam danych z 25 funkcjami.

Jako przykład, obserwując poniższy obrazek, mogę założyć, że niebieskie punkty danych są bardziej podobne do zielonych, szczególnie do największego skupiska zielonych punktów ?. Lub, pytając inaczej, czy można założyć, że niebieskie punkty są bardziej podobne do zielonego w najbliższym gromadzie, niż czerwone w drugim gromadzie? (pomijając zielone punkty w czerwonym klastrze)

wprowadź opis zdjęcia tutaj

Obserwując inne przykłady, takie jak te przedstawione w sci-kit, ucz się uczenia się w Manifold, wydaje się słuszne przyjąć to, ale nie jestem pewien, czy jest poprawny statystycznie.

wprowadź opis zdjęcia tutaj

EDYTOWAĆ

Obliczyłem odległości od oryginalnego zestawu danych ręcznie (średnia odległość euklidesowa w parach), a wizualizacja faktycznie reprezentuje proporcjonalną odległość przestrzenną w odniesieniu do zestawu danych. Chciałbym jednak wiedzieć, czy można tego oczekiwać na podstawie oryginalnego matematycznego sformułowania t-sne, a nie zwykłego przypadku.

Javierfdr
źródło
1
Niebieskie punkty są najbliżej zielonych sąsiadujących punktów zielonych, w ten sposób osadzono. Mówiąc luźniej, należy zachować podobieństwa (lub odległości). Przejście z 25 wymiarów do zaledwie 2 bardzo prawdopodobnych powoduje utratę informacji, ale reprezentacja 2D jest najbliższa, jaką można wyświetlić na ekranie.
Vladislavs Dovgalecs

Odpowiedzi:

5

Przedstawiłbym t-SNE jako inteligentną probabilistyczną adaptację osadzania lokalnie liniowego. W obu przypadkach próbujemy rzutować punkty z przestrzeni o dużych wymiarach na małe. Projekcji tej dokonuje się poprzez optymalizację zachowania lokalnych odległości (bezpośrednio za pomocą LLE, wstępne opracowanie rozkładu probabilistycznego i optymalizację dywergencji KL za pomocą t-SNE). Więc jeśli twoje pytanie brzmi, czy utrzymuje globalne odległości, odpowiedź brzmi nie. Będzie to zależeć od „kształtu” twoich danych (jeśli rozkład jest płynny, odległości należy w jakiś sposób zachować).

t-SNE w rzeczywistości nie działa dobrze na szwajcarskim rzucie (twój obraz „S” 3D) i możesz zobaczyć, że w wyniku 2D bardzo środkowe żółte punkty są ogólnie bliższe czerwonym niż niebieskim (one są idealnie wyśrodkowane na obrazie 3D).

Innym dobrym przykładem tego, co robi t-SNE, jest grupowanie ręcznie pisanych cyfr. Zobacz przykłady pod tym linkiem: https://lvdmaaten.github.io/tsne/

Rudzik
źródło
2
Chodzi mi o to, że nie można po prostu użyć odległości w dolnej przestrzeni jako kryterium podobieństwa. t-SNE zachowa globalną strukturę, taką jak klastry, ale nie musi utrzymywać odległości. Będzie to zależeć od kształtu danych wielowymiarowych i używanego problemu.
Robin
1
Dobra, widzę. Dzięki za wytłumaczenie. Tak Zgadzam się, że odległości w niższej przestrzeni nie byłyby dokładne. Teraz, skoro t-sne jest praktyczny do wizualizacji, czy mogę koncepcyjnie stosować odległości na wykresie niższego wymiaru? Na przykład na moim wykresie mogę z całą pewnością stwierdzić, że niebieskie punkty są bliższe lub bardziej podobne do zielonych niż czerwonych, biorąc pod uwagę oczywiste oddzielenie trzech grup w przestrzeni 2d. Czy to też trudno powiedzieć?
Javierfdr
1
Trudno powiedzieć. Punkty w przestrzeni niskiego wymiaru są inicjowane rozkładem gaussowskim wyśrodkowanym na początku. Są one następnie zastępowane iteracyjnie, optymalizując dywergencję KL. Powiedziałbym więc, że w twoim przypadku niebieskie punkty są bardziej podobne do zielonego gromady, ale jest teraz sposób, aby ocenić, jak blisko są od gromady czerwonej. t-SNE.
Robin,
1
Podsumowując, t-SNE kładzie nacisk na (1) modelowanie odmiennych punktów danych za pomocą dużych odległości parami oraz (2) modelowanie podobnych punktów danych za pomocą małych odległości parami. W szczególności t-SNE wprowadza siły dalekiego zasięgu do mapy niskiego wymiaru, które mogą przyciągnąć do siebie dwa (skupiska) podobnych punktów, które zostają rozdzielone na wczesnym etapie optymalizacji.
Robin
1
Bardzo miłe wytłumaczenie. dziękuję bardzo za Twój wysiłek. Myślę, że różne uwagi stanowią kompletną odpowiedź.
Javierfdr