Czy MFCC są optymalną metodą reprezentowania muzyki w systemie pobierania?

10

Technika przetwarzania sygnału, Mel Cepstrum , jest często używana do wydobywania informacji z utworu muzycznego w celu wykorzystania go w zadaniu uczenia maszynowego. Ta metoda daje krótkoterminowe spektrum mocy, a współczynniki są wykorzystywane jako dane wejściowe.

Przy projektowaniu systemów wyszukiwania muzyki takie współczynniki są uważane za charakterystyczne dla danego utworu (oczywiście niekoniecznie wyjątkowe, ale wyróżniające). Czy są jakieś cechy, które lepiej pasowałyby do uczenia się w sieci? Czy zmienne w czasie cechy, takie jak progresja basu utworu zastosowanego w czymś w rodzaju sieci Elmana, działałyby bardziej skutecznie?

Które cechy stanowiłyby wystarczająco obszerny zestaw, na podstawie którego można by dokonać klasyfikacji?

jonsca
źródło
Czy pracujesz nad wyszukiwaniem, w którym szukasz unikalnych cech konkretnego klipu audio? czy chcesz zidentyfikować podobną muzykę?
Andrew Rosenberg,
@AndrewRosenberg Więcej według identyfikacji podobnej muzyki.
jonsca
(Lata później) istnieje wiele sposobów majstrowania przy MFCC; Kinunnen i wsp., Dopasowanie częstotliwości i niezawodne weryfikacje głośników: Porównanie alternatywnych reprezentacji w skali Mel 2013, 5p, wykorzystuje 60 współczynników. I co zoptymalizować? W jakiej nieotwartej bazie danych? Powiedziałbym (nie ekspert), że pytanie jest zbyt ogólne, aby można było na nie odpowiedzieć.
denis
@denis Dzięki za informację. Wynikało to z niefortunnej wersji beta Machine Learning (po raz pierwszy w historii). Doceniam to, że jest to trochę niejasne.
jonsca

Odpowiedzi:

8

W pewnym momencie trochę nad tym popracowaliśmy. Zestaw funkcji, które wyodrębniliśmy, podano w tym dokumencie warsztatowym NIPS . Muszę przyznać, że nie mogliśmy powielić wyników niektórych innych autorów w tej dziedzinie, chociaż były pewne wątpliwości co do zestawów danych używanych w nich (zwróć uwagę, że zestawy danych używane przez autorów w tym polu są zwykle wybierane ręcznie, a nie publikowane publicznie, ze względu na prawa autorskie, chociaż nie zawsze tak jest). Zasadniczo wszystkie były krótkoterminowymi cechami spektralnymiz wprowadzonymi współczynnikami autoregresji. Przyjrzeliśmy się klasyfikacji gatunku, o której wiemy, że ludzie mogą to zrobić (choć nie ze wspaniałą dokładnością i niezmienną zgodą ....) w bardzo krótkim czasie (<1s), co potwierdza użycie funkcji krótkoterminowych . Jeśli jesteś zainteresowany robieniem bardziej skomplikowanych rzeczy niż typowa klasyfikacja gatunku / wykonawcy / albumu / producenta, możesz potrzebować więcej funkcji dalekiego zasięgu, w przeciwnym razie te krótkofalowe funkcje spektralne będą zazwyczaj działać najlepiej.

tdc
źródło
Jaki był cel dodawania współczynników AR?
jonsca
1
@jonsca Ponieważ używaliśmy metod wspomagających, które działają poprzez łączenie wielu „słabych” uczniów, postanowiliśmy zastosować dowolne funkcje, które można łatwo obliczyć, które mogłyby przynieść pewne korzyści. Jedyne, czego wymaga słaby uczeń, aby był on użyteczny, polega na tym, że może on klasyfikować się na poziomie wyższym niż szansa. Współczynniki AR są równoważne kompresji obwiedni widmowej, co daje pewne pojęcie o krótkoterminowej złożoności informacyjnej muzyki w tym oknie, choć tylko bardzo luźno.
tdc
@tdc, „zestawy danych zwykle nie są udostępniane publicznie ...”: czy znasz jakieś darmowe zestawy danych mowy online z etykietami fonemów?
Denis
@denis, jedyny, jaki znam, to ten: orange.biolab.si/datasets/phoneme.htm
tdc
@tdc, dzięki, ale to tylko 11 samogłosek z elementów uczenia statystyk, ~ 1000 x 11 funkcji (starożytny LPC).
Denis