W specyficznym problemie, z którym pracuję (konkurs) mam następujące ustawienie: 21 funkcji (numerycznie na [0,1]) i wyjście binarne. Mam około 100 K. wierszy. Ustawienie wydaje się być bardzo głośne.
Ja i inni uczestnicy stosujemy generowanie funkcji przez jakiś czas, a osadzanie t-rozproszonego stochastycznego sąsiada okazało się w tym otoczeniu dość potężne.
Natknąłem się na ten post „Jak efektywnie korzystać z t-SNE”, ale nadal nie mogę naprawdę stwierdzić, jak najlepiej wybrać hiperparametry w moim ustawieniu klasyfikacji.
Czy istnieją jakieś praktyczne zasady (liczba funkcji, wymiar osadzania -> wybór zakłopotania)?
W tej chwili po prostu stosuję ustawienia ad-hoc, ponieważ iteracja różnych ustawień zajmuje zbyt dużo czasu. Dziękuję za wszelkie komentarze.
Odpowiedzi:
Zaznaczę, że to, co opisuję, to heurystyka . Jak wspomniano na początku mojego postu, ręczne sprawdzanie wyników jest niezbędnym sposobem oceny jakości wynikowej redukcji / grupowania wymiarów.
źródło
Zwykle zakłopotanie ustawiamy na 5% rozmiaru zestawu danych. Tak więc dla zbioru danych zawierającego 100 000 wierszy zacznę od zakłopotania 5000 lub co najmniej 1000, jeśli nie masz dostępnego komputera o wysokiej wydajności. Nasze zestawy danych pochodzą z analizy za pomocą cytometrii przepływowej, zwykle zawierają od 50 do 500 tys. Punktów danych z 10 do 20 wartościami liczbowymi.
źródło
Interesujące może być spojrzenie na „Automatyczny wybór problemu t-SNE Perplexity” autorstwa Cao i Wanga :
źródło