Mam 200 punktów danych, które mają takie same wartości we wszystkich funkcjach.
Po zmniejszeniu wymiaru t-SNE nie wyglądają już tak równo, tak jak poniżej:
Dlaczego nie są w tym samym punkcie wizualizacji, a nawet wydają się być podzieleni na dwa różne klastry?
visualization
dimensionality-reduction
tsne
ScientiaEtVeritas
źródło
źródło
Odpowiedzi:
Masz rację, że te same wartości w T-SNE można rozdzielić na różne punkty, dlatego dzieje się to jasne, jeśli spojrzysz na algorytm, na którym działa T-SNE.
Aby rozwiązać swoją pierwszą obawę, że punkty faktycznie nie są takie same po zastosowaniu algorytmu do zestawu danych. Zostawię ci ćwiczenie, aby je zweryfikować, rozważ prostą tablicę i i uruchom na nim algorytm i przekonaj się, że wynikowe punkty nie są w rzeczywistości identyczne Możesz odnieść się do odpowiedzi w tej odpowiedzi.x1=[0,1] x2=[0,1]
import numpy as np from sklearn.manifold import TSNE m = TSNE(n_components=2, random_state=0) m.fit_transform(np.array([[0,1],[0,1]]))
Zauważysz również, że zmiana
random_state
faktycznie modyfikuje współrzędne wyjściowe modelu. Nie ma żadnej rzeczywistej korelacji między rzeczywistymi współrzędnymi a ich wynikiem. Od pierwszego kroku TSNE oblicza prawdopodobieństwo warunkowe.Spróbujmy teraz zracjonalizować, wykorzystując algorytm, powód, dla którego tak się dzieje, używając matematyki, bez żadnej intuicji. Zauważ, że i są wektorami w tej sytuacji. . Teraz, jeśli widzimy, że wartość wynosi 1. Po zastosowaniu rozbieżności KL otrzymujemy wartości określone powyżej. A teraz zastosujmy do tego trochę intuicji. to nieformalnie prawdopodobieństwo warunkowe, że wybierzexi xj pj|i=exp(−||xj−xi||22σ2)∑k≠iexp(−||xj−xi||22σ2) pij=pi|j+pj|i2N pij xi xj jak to jest sąsiad. Uzasadnia to wynik 1 z dwóch powodów. Pierwszy polega na tym, że nie ma innego sąsiada, dlatego musi on wybrać jedyny inny wektor z listy współrzędnych. Ponadto punkty są identyczne, a szanse, że zostaną wybrane jako inni sąsiedzi, powinny być wysokie, jak widzimy.
Teraz dochodzę do wniosku, czy bezwzględne współrzędne w mają jakieś znaczenie. Naprawdę nie. Losowość może rozdzielić punkty, gdziekolwiek chcesz. Jednak bardziej interesujące są stosunki odległości między punktami i są one względne i względne, nawet gdy rzutujemy je na wyższe wymiary, co jest dość interesujące.R2
Tak więc prawda jest taka, że zamiast patrzeć na te dwa gromady, spójrz na odległości między nimi, ponieważ przekazuje to więcej informacji niż samych koordynatów.
Mam nadzieję, że to odpowiedziało na twoje pytanie :)
źródło