Wybór hiperparametrów za pomocą T-SNE do klasyfikacji

13

W specyficznym problemie, z którym pracuję (konkurs) mam następujące ustawienie: 21 funkcji (numerycznie na [0,1]) i wyjście binarne. Mam około 100 K. wierszy. Ustawienie wydaje się być bardzo głośne.

Ja i inni uczestnicy stosujemy generowanie funkcji przez jakiś czas, a osadzanie t-rozproszonego stochastycznego sąsiada okazało się w tym otoczeniu dość potężne.

Natknąłem się na ten post „Jak efektywnie korzystać z t-SNE”, ale nadal nie mogę naprawdę stwierdzić, jak najlepiej wybrać hiperparametry w moim ustawieniu klasyfikacji.

Czy istnieją jakieś praktyczne zasady (liczba funkcji, wymiar osadzania -> wybór zakłopotania)?

W tej chwili po prostu stosuję ustawienia ad-hoc, ponieważ iteracja różnych ustawień zajmuje zbyt dużo czasu. Dziękuję za wszelkie komentarze.

Ric
źródło
To świetne pytanie! Mam nadzieję, że ktoś uzna moją odpowiedź za mało lśniącą, więc dostaniesz inną odpowiedź (i ja też nauczę się czegoś nowego).
usεr11852

Odpowiedzi:

17

t

t-SNE próbuje zminimalizować sumę rozbieżności Kullbacka-Leiblera między rozkładem odległości między danymi w pierwotnej domenie a rozkładem odległości między danymi w domenie o zmniejszonym wymiarze (w rzeczywistości rozkładami docelowymi są rozkłady prawdopodobieństwa, że ​​punkt wybierze inny punkt jako swojego sąsiada, ale są one wprost proporcjonalne do odległości między dwoma punktami). Można argumentować, że mniejsze wartości dywergencji KL wykazują lepsze wyniki. Pomysł ten nie działa zbyt dobrze w praktyce, ale teoretycznie pomógłby w wykluczeniu niektórych zakresów wartości zakłopotania, a także niektórych przebiegów algorytmu, które są wyraźnie nieoptymalne. Wyjaśniam, dlaczego ta heurystyka jest daleka od panaceum i jak może być lekko przydatna: Parametr zakłopotania rośnie monotonicznie wraz z wariancją Gaussa stosowaną do obliczania odległości / prawdopodobieństw. Dlatego, gdy zwiększysz parametr perplexity jako całość, otrzymasz mniejsze odległości w wartościach bezwzględnych i kolejne wartości dywergencji KL. Niemniej jednak, jeśli masz 20 przebiegów z tym samym zakłopotaniem i nie możesz (nie chcesz) na nie patrzeć, zawsze możesz wybrać ten z najmniejszą zmienną, mając nadzieję, że zachowa on bardziej oryginalne odległości. To samo dotyczy Niemniej jednak, jeśli masz 20 przebiegów z tym samym zakłopotaniem i nie możesz (nie chcesz) na nie patrzeć, zawsze możesz wybrać ten z najmniejszą zmienną, mając nadzieję, że zachowa on bardziej oryginalne odległości. To samo dotyczy Niemniej jednak, jeśli masz 20 przebiegów z tym samym zakłopotaniem i nie możesz (nie chcesz) na nie patrzeć, zawsze możesz wybrać ten z najmniejszą zmienną, mając nadzieję, że zachowa on bardziej oryginalne odległości. To samo dotyczyθθ

kktt- W końcu przede wszystkim użyto SNE, jeśli wynikowa reprezentacja nie jest pouczająca dla właściwości, które badamy, to po prostu nie jest dobra pomimo niskiego błędu rekonstrukcji, atrakcyjności wizualnej itp.

Zaznaczę, że to, co opisuję, to heurystyka . Jak wspomniano na początku mojego postu, ręczne sprawdzanie wyników jest niezbędnym sposobem oceny jakości wynikowej redukcji / grupowania wymiarów.

usεr11852
źródło
Dziękuję Ci za to. Ciekawa jest idea wskaźnika, w jakim stopniu klastrowanie pasuje do klasyfikacji.
Ric
4

Zwykle zakłopotanie ustawiamy na 5% rozmiaru zestawu danych. Tak więc dla zbioru danych zawierającego 100 000 wierszy zacznę od zakłopotania 5000 lub co najmniej 1000, jeśli nie masz dostępnego komputera o wysokiej wydajności. Nasze zestawy danych pochodzą z analizy za pomocą cytometrii przepływowej, zwykle zawierają od 50 do 500 tys. Punktów danych z 10 do 20 wartościami liczbowymi.

James li
źródło
4

Interesujące może być spojrzenie na „Automatyczny wybór problemu t-SNE Perplexity” autorstwa Cao i Wanga :

t-Distributed Stochastic Neighbor Embedding (t-SNE) jest jedną z najczęściej stosowanych metod redukcji wymiarowości do wizualizacji danych, ale ma paradoksalny hiperparametr, który wymaga ręcznego wyboru. W praktyce właściwe dostrajanie zakłopotania t-SNE wymaga od użytkowników zrozumienia wewnętrznego działania metody, a także posiadania praktycznego doświadczenia. Proponujemy cel wyboru modelu dla zakłopotania t-SNE, który wymaga nieznacznego dodatkowego obliczenia poza samym t-SNE. Potwierdzamy empirycznie, że ustawienia zakłopotania znalezione w naszym podejściu są zgodne z preferencjami wywołanymi przez ludzkich ekspertów w wielu zestawach danych. Analizowane są również podobieństwa naszego podejścia do bayesowskich kryteriów informacyjnych (BIC) i minimalnej długości opisu (MDL).

pisistrato
źródło
2
Jakie były wnioski ...?
Tim
1
S(Perplex.)=2KL(P||Q)+log(n)Perlex.n