Jakie są różnice między autoencoderami a t-SNE?

Odpowiedzi:

8

Obie próbują znaleźć osadzenie danych o niższych wymiarach. Istnieją jednak różne problemy z minimalizacją. Mówiąc dokładniej, autoencoder próbuje zminimalizować błąd rekonstrukcji, podczas gdy t-SNE próbuje znaleźć przestrzeń o niższych wymiarach, a jednocześnie stara się zachować odległości sąsiedztwa. W wyniku tego atrybutu t-SNE jest zwykle preferowany w przypadku wykresów i wizualizacji.

Yannis Assael
źródło
Czy w tym sensie oznacza to, że autoencoder lepiej jest znaleźć niższy wymiar, gdy niższy wymiar jest większy niż 3D? (Ponieważ zakładam, że jeśli dolny wymiar jest duży, t-SNE może nie działać tak dobrze?)
RockTheStar
2
Istnieje wiele rodzajów autoencoderów (rzadkie, wariacyjne, piętrowe, splotowe itp.) W zależności od zadania. Mogą być bardzo wydajne w wykrywaniu osadzeń niższych wymiarów w oparciu o błąd rekonstrukcji. Dlatego jeśli Twoim zadaniem jest znalezienie optymalnej dolnej przestrzeni wymiarowej (nawet 2D), sugerowałbym wybranie odpowiedniego autokodera dla swojego zadania. Jeśli musisz wykonać wizualizacje, prawdopodobnie Twoim wyborem będzie t-SNE. ponieważ zachowanie sąsiednich odległości może skutkować lepszymi wizualizacjami.
Yannis Assael
2

[Autoencodery] koncentrują się przede wszystkim na maksymalizacji wariancji danych w utajonej przestrzeni, w wyniku czego autoencodery są mniej skuteczne w utrzymywaniu lokalnej struktury danych w utajonej przestrzeni niż różnorodni uczniowie ...

Z „Uczenia się osadzania parametrycznego przez zachowanie lokalnej struktury” Laurens van der Maaten ( https://lvdmaaten.github.io/publications/papers/AISTATS_2009.pdf )

Użytkownik 128525
źródło
To nie jest „papier T-SNE”. Standardowy t-SNE jest nieparametryczny.
ameba
1
Dzięki @amoeba za komentarz na ten temat. Zredagowałem post.
Użytkownik128525
1

Autoencoder i t-SNE mogą być używane razem w celu lepszej wizualizacji w danych wielowymiarowych, jak opisano w [1]:

W szczególności w przypadku wizualizacji 2D, t-SNE jest prawdopodobnie najlepszym dostępnym algorytmem, ale zazwyczaj wymaga stosunkowo mało wymiarowych danych. Tak więc dobrą strategią wizualizacji zależności podobieństwa w danych wielowymiarowych jest rozpoczęcie od użycia autoenkodera do kompresji danych w przestrzeni niskiego wymiaru (np. 32-wymiarowej), a następnie użycie t-SNE do mapowania skompresowanych danych na płaszczyznę 2D .


[1] https://blog.keras.io/building-autoencoders-in-keras.html

moh
źródło
0

Autoencoder ma na celu zachowanie poprzednich danych w sensie 2-normalnym, co można uznać za zachowanie energii kinetycznej danych, jeśli dane są prędkością.

Podczas gdy t-SNE, użyj rozbieżności KL, która nie jest symetryczna, doprowadzi to do skupienia się t-SNE bardziej na strukturze lokalnej, podczas gdy autoencoder ma tendencję do utrzymywania ogólnego błędu L2 na niskim poziomie, co jest w sensie globalnym.

Sztuczna inteligencja
źródło