Czy dane powinny być wyśrodkowane i skalowane przed zastosowaniem t-SNE?

Niektóre funkcje moich danych mają duże wartości, podczas gdy inne funkcje mają znacznie mniejsze wartości.

Czy konieczne jest wyśrodkowanie + skalowanie danych przed zastosowaniem t-SNE, aby zapobiec odchyleniu w kierunku większych wartości?

Korzystam z implementacji sklearn.manifold.TSNE w Pythonie z domyślną miarą odległości euklidesowej.

normalization dimensionality-reduction high-dimensional tsne stmax
źródło

Odpowiedzi:

Centrowanie nie powinno mieć znaczenia, ponieważ algorytm działa tylko na odległościach między punktami, jednak przeskalowanie jest konieczne, jeśli chcesz, aby różne wymiary były traktowane z jednakową wagą, ponieważ na 2-normę będą miały większy wpływ wymiary o dużej zmienności.

jon_simon
źródło