Technika przetwarzania sygnału, Mel Cepstrum , jest często używana do wydobywania informacji z utworu muzycznego w celu wykorzystania go w zadaniu uczenia maszynowego. Ta metoda daje krótkoterminowe spektrum mocy, a współczynniki są wykorzystywane jako dane wejściowe.
Przy projektowaniu systemów wyszukiwania muzyki takie współczynniki są uważane za charakterystyczne dla danego utworu (oczywiście niekoniecznie wyjątkowe, ale wyróżniające). Czy są jakieś cechy, które lepiej pasowałyby do uczenia się w sieci? Czy zmienne w czasie cechy, takie jak progresja basu utworu zastosowanego w czymś w rodzaju sieci Elmana, działałyby bardziej skutecznie?
Które cechy stanowiłyby wystarczająco obszerny zestaw, na podstawie którego można by dokonać klasyfikacji?
Odpowiedzi:
W pewnym momencie trochę nad tym popracowaliśmy. Zestaw funkcji, które wyodrębniliśmy, podano w tym dokumencie warsztatowym NIPS . Muszę przyznać, że nie mogliśmy powielić wyników niektórych innych autorów w tej dziedzinie, chociaż były pewne wątpliwości co do zestawów danych używanych w nich (zwróć uwagę, że zestawy danych używane przez autorów w tym polu są zwykle wybierane ręcznie, a nie publikowane publicznie, ze względu na prawa autorskie, chociaż nie zawsze tak jest). Zasadniczo wszystkie były krótkoterminowymi cechami spektralnymiz wprowadzonymi współczynnikami autoregresji. Przyjrzeliśmy się klasyfikacji gatunku, o której wiemy, że ludzie mogą to zrobić (choć nie ze wspaniałą dokładnością i niezmienną zgodą ....) w bardzo krótkim czasie (<1s), co potwierdza użycie funkcji krótkoterminowych . Jeśli jesteś zainteresowany robieniem bardziej skomplikowanych rzeczy niż typowa klasyfikacja gatunku / wykonawcy / albumu / producenta, możesz potrzebować więcej funkcji dalekiego zasięgu, w przeciwnym razie te krótkofalowe funkcje spektralne będą zazwyczaj działać najlepiej.
źródło