Mój zestaw danych składa się z sekwencji wektorowych. Każdy wektor ma 50 rzeczywistych wymiarów. Liczba wektorów w sekwencji wynosi od 3-5 do 10-15. Innymi słowy, długość sekwencji nie jest stała.
Pewna spora liczba sekwencji (nie wektorów!) Jest opatrzona etykietą klasy. Moim zadaniem jest nauczyć się klasyfikatora, który ma sekwencję wektorów, obliczana jest etykieta klasy dla całej sekwencji.
Nie potrafię określić dokładnej natury danych, ale natura sekwencji nie jest czasowa. Niemniej jednak wektora nie można zamienić na wektor bez zmiany etykiety ( ). Innymi słowy, kolejność wektorów jest ważna. Same wektory są porównywalne, na przykład sensowne jest obliczenie iloczynu i użycie tej wartości podobieństwa.
Moje pytanie brzmi: jakie narzędzia / algorytmy mogą pomóc w klasyfikacji takich danych?
AKTUALIZACJA: Dane mają taką właściwość, że jeden lub kilka wektorów silnie wpływa na etykietę klasy.
MOŻLIWE ROZWIĄZANIE: po niektórych badaniach wygląda na to, że rekurencyjne sieci neuronowe (RNN) dość dobrze pasują do rachunku. Nadrzędnym pomysłem jest wybór rozmiaru kontekstu , konkatenacja wektorów słów, maksymalne tworzenie pul i przekazywanie tego poprzez klasyczne NN. W każdej możliwej pozycji okna kontekstowego w zdaniu budowany jest wektor cech. Ostateczny wektor cech jest budowany na przykład przy użyciu maksymalnego buforowania. Propagacja wsteczna ma na celu dostosowanie parametrów sieci. Mam już pewne pozytywne wyniki (GPU jest koniecznością).
źródło