Kiedy t-SNE wprowadza w błąd?

37

Cytując jednego z autorów:

t-Distributed Stochastic Neighbor Embedding (t-SNE) to ( nagradzana ) technika redukcji wymiarowości, która szczególnie dobrze nadaje się do wizualizacji wysokowymiarowych zestawów danych.

Brzmi więc całkiem nieźle, ale tak mówi Autor.

Kolejny cytat autora (dotyczy: wspomnianego wyżej konkursu):

Co zabrałeś z tego konkursu?
Zawsze najpierw zwizualizuj swoje dane, zanim zaczniesz trenować predyktory na danych! Często wizualizacje, takie jak te, które wykonałem, zapewniają wgląd w dystrybucję danych, które mogą pomóc w określeniu, jakie typy modeli predykcyjnych należy wypróbować.

Informacje te muszą 1 jest zagubiony - jest to redukcja wymiarów technika przecież. Ponieważ jednak jest to dobra technika do zastosowania podczas wizualizacji, utracona informacja jest mniej cenna niż podświetlona informacja (/ uwidoczniona / zrozumiała dzięki zmniejszeniu do 2 lub 3 wymiarów).

Więc moje pytanie brzmi:

  • Kiedy tSNE jest nieodpowiednim narzędziem do pracy?
  • Jakie zestawy danych powodują, że nie działa,
  • Na jakie pytania można odpowiedzieć, ale tak naprawdę nie może?
  • W drugim cytacie powyżej zaleca się zawsze wizualizować zestaw danych, czy ta wizualizacja powinna być zawsze wykonywana za pomocą tSNE?

Oczekuję, że na to pytanie najlepiej odpowiedzieć w odwrotnej kolejności , tzn. Odpowiedzieć: Kiedy tSNE jest właściwym narzędziem do pracy?


Ostrzeżono mnie, abym nie polegał na tSNE, aby powiedzieć mi, jak łatwo dane można sklasyfikować (podzielone na klasy - model dyskryminujący). Przykładem wprowadzającego w błąd było to, że dla dwóch poniższych zdjęć model generatywny 2 był gorszy dla danych wizualizowanych w pierwszej / lewej (dokładność 53,6%) niż równoważnej dla drugiej / prawej (dokładność 67,2%).

pierwszy druga


1 Mogę się mylić w tej kwestii, mogę usiąść i wypróbować później dowód / przykład

2 zauważ, że model generatywny to nie to samo, co model dyskryminacyjny, ale to jest przykład, który otrzymałem.

Lyndon White
źródło
1
ZAb|ZA|=|b||N.|=|N.n|=0|R|=|R|=|Rn|=1R2)R
@Lucas: Ach, oczywiście. (jak nie zdawałem sobie z tego sprawy)
Lyndon White
Jaki model generatywny próbujesz?
WeiChing Lin
@ Wei-ChingLin Nie jestem pewien, jakiego rodzaju modelu generatywnego użyto. Prawdopodobnie jakiś rodzaj Deep Belief Network, Deep Boltzmann Manchine lub Autoencoder. Nie bardzo dotyczy sedna pytania
Lyndon White,
2
Ważne: distill.pub/2016/misread-tsne
Lyndon White

Odpowiedzi:

13

T-Sne to technika redukcji, która utrzymuje strukturę na małą skalę (tj. Co jest szczególnie bliskie temu) przestrzeni, co czyni ją bardzo dobrą w wizualizacji rozdzielności danych. Oznacza to, że T-Sne jest szczególnie przydatny do wczesnej wizualizacji ukierunkowanej na zrozumienie stopnia rozdzielności danych. Inne techniki (na przykład PCA) pozostawiają dane w reprezentacjach niższych wymiarów rzutowanych jeden na drugim, gdy znikają wymiary, co bardzo utrudnia sformułowanie wyraźnego oświadczenia o możliwości oddzielenia w przestrzeni wyższego wymiaru.

Na przykład, jeśli otrzymasz wykres T-Sne z dużą ilością nakładających się danych, szanse są wysokie, że Twój klasyfikator źle się sprawdzi, bez względu na to, co zrobisz. I odwrotnie, jeśli widzisz wyraźnie oddzielone dane na wykresie T-Sne, wówczas leżące u ich podstaw, wielowymiarowe dane zawierają wystarczającą zmienność, aby zbudować dobry klasyfikator.

John Yetter
źródło
3
To bardzo dobre wytłumaczenie, czym jest T-SNE, dzięki. Ale nie widzę odpowiedzi na moje aktualne pytania (patrz kropka w poście otwierającym.)
Lyndon White
5
To w ogóle nie odpowiada na pytanie.
ameba mówi Przywróć Monikę
10

Po wyjęciu z pudełka tSNE ma kilka hiperparametrów, z których głównym jest zakłopotanie. Pamiętaj, że heurystycznie, zakłopotanie definiuje pojęcie podobieństwa dla tSNE, a dla wszystkich punktów danych stosuje się uniwersalne zakłopotanie. Możesz spróbować wygenerować zestaw danych oznaczony etykietą, w którym każdy klaster ma zupełnie inne problemy. Można to osiągnąć, wykonując mieszankę gaussów, z szerokim zakresem różnych wariantów. Domyślam się, że spowoduje to również problemy z implementacją tSNE w Barnes-Hut, która polega na kwartalizacji danych i korzystaniu tylko z najbliższych sąsiadów. TSNE ma również początkowy okres relaksacji, który próbuje przenosić klastry między sobą. W tym okresie nie ma kary ani wstrętu. Na przykład jeśli twoje dane wyglądają jak zmatowiona kępka makaronu (każdy makaron reprezentuje dany klaster), „ ciężko będzie mi skalibrować początkowe przejście i wątpię, żeby tSNE działało dobrze. W pewnym sensie myślę, że to sugeruje, że tSNE nie będzie działało dobrze, jeśli twoje dane są splecione razem i początkowo znajdują się w przestrzeni o małych wymiarach, powiedzmy 5.

t

k

Alex R.
źródło