Rozpoznawanie funkcji matematycznych w utworach

Jestem nowy w DSP i właśnie odkryłem ten StackExchange, więc przepraszam, jeśli nie jest to właściwe miejsce do opublikowania tego pytania.

Czy istnieje zasób opisujący gatunki w bardziej matematyczny sposób? Na przykład, jeśli wykonałem FFT na sygnale w tej sekcji piosenki (2:09, jeśli link się tam nie zaczyna), czy jest jakiś sposób, bym mógł wykryć, że ta sekcja ma taki szorstki charakter dźwięku? Czy takie dźwięki spełniają jakąś funkcję matematyczną, z którą mogę porównać? http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s (link od razu zaczyna odtwarzać dźwięk)

Czy jest to jedyny sposób korzystania z nadzorowanych technik uczenia się, czy też istnieje inne podejście (które najlepiej nie wymaga nadzoru)?

Dziękuję za wszelkie porady.

algorithms fourier-transform audio frequency-spectrum XSL
źródło

Możesz użyć FFT, aby wykryć rytm perkusji kontra flet, ale nie wykryć gatunku. Pewnie bardzo lokalne rzeczy dotyczące dźwięku, ale nie muzyczny charakter całego pliku.

endolith,

Czy można rozpoznać „szorstkość” dźwięku? Czy to tutaj wchodzą MFCC?

XSL,

Myślę, że rozróżnienie, którego szukasz, bardziej przypomina empiryczne niż teoretyczne (w przeciwieństwie do nadzorowanego vs. nienadzorowanego), ale mogę się mylić. Innymi słowy, idealną rzeczą byłoby mieć teoretyczną definicję różnych gatunków, a nie tylko garść nieprzejrzystych danych, które można wykorzystać do sklasyfikowania utworu [bez żadnego prawdziwego zrozumienia].

Jednak w przypadku ogólnej klasyfikacji gatunków prawdopodobnie utknąłeś przynajmniej na szkoleniu na przykładach, nawet jeśli tylko po to, aby stworzyć definicje gatunków. Jeśli chodzi o twój przykład, zastanów się, jak często ludzie będą się kłócić [na YouTube], czy dany utwór naprawdę jest dubstepem (np. Jakikolwiek utwór, który jest bardziej dubby i mniej chwiejny , mimo że gatunek zaczął się bez prawdziwego chwiejności). Ludzie definiują gatunki z biegiem czasu za pomocą przykładów, więc uzasadnione jest oczekiwanie, że algorytmy replikujące to zachowanie również wymagałyby niektórych przykładów. Sposób, w jaki ludzie opisują gatunki, jest prawie jak wektor cech w każdym razie - zadają listę pytań na temat piosenki (np. czy jest bardziej łamliwa czy chwiejna? Czy ma dużo subbasu? Jak długo to trwa? Jakie jest tempo? Czy jest wokal? itp.).

Oczywiście możesz być w stanie wybrać listę funkcji, które zapewniają intuicyjne zrozumienie gatunku. Funkcja taka jak „zakres dynamiczny” jest czymś, co dana osoba może również wykryć nausznikiem, ale coś takiego jak „przejście przez strefę czasową zero” nie byłoby zbyt intuicyjne - nawet jeśli dobrze sprawdza się w klasyfikacji. Poniższy artykuł zawiera kilka funkcji, które mogą Cię zainteresować:

George Tzanetakis, Perry R. Cook: Muzyczna klasyfikacja gatunków sygnałów audio. Transakcje IEEE dotyczące przetwarzania mowy i dźwięku 10 (5): 293-302 (2002) link .

Do pomiaru chropowatości dobrym punktem wyjścia byłoby chropowatość psychoakustyczna , ale na przykład rozróżnienie między przewodami dubstepowymi i elektrycznymi może być niewystarczające. W przypadku subtelniejszych różnic wyróżnia się rozpoznawanie barwy . Poniższa teza zawiera przyzwoitą analizę technik:

TH Park, „W kierunku automatycznego rozpoznawania barwy instrumentów muzycznych”, Ph.D. rozprawa doktorska, Princeton University, NJ, 2004. link .

Istnieje również model związany z chropowatością percepcyjną w barwie, strojeniu, spektrum i skali, który jest używany do konstruowania niestandardowych skal dla dowolnych barw. Chodzi o to, że harmoniczne, które są bardzo blisko siebie, wytwarzają częstotliwości uderzeń, które są postrzegane jako dysonans. Parafrazując z Załączników F i E ,

$F$ $f_1,f_2,...,f_n$

$D_{F} = 1 / 2 \sum_{i = 1}^{n} \sum_{j = 1}^{n} d (\frac{| f_{i} - f_{j} |}{min (f_{i}, f_{j})})$ $D_F = 1/2 \space \sum_{i=1}^{n}{} \space \sum_{j=1}^{n}{\space d\left({|f_i - f_j| \over{\min(f_i,f_j)}} \right) }$
gdzie
$d (x) = e^{- 3.5 x} - e^{- 5.75 x}$ $d(x) = e^{-3.5 x} - e^{-5.75 x}$
jest modelem krzywej Plomp-Levelta .

Służy do mierzenia, jak przyjemny jest dany akord w odniesieniu do barwy (poprzez minimalizację dysonansu). Nie wiem, czy szorstkość różnorodności psychoakustycznej, czy wewnętrzny dysonans byłyby same w sobie bardzo owocne, ale mogą być przydatne w połączeniu z innymi miernikami.

Prawdopodobnie będziesz mieć więcej szczęścia klasyfikując barwy matematyczne niż gatunki. Na przykład struny mają parzyste i nieparzyste harmoniczne, ale klarnet ma tylko nieparzyste harmoniczne (por. Fala piły zębatej , fala prostokątna ). Wobble dubstepowe zwykle wykonuje się przy użyciu filtrów napędzanych przez LFO (filtry dolnoprzepustowe i / lub formantowe), więc coś w rodzaju strumienia spektralnego (patrz [Tzanetakis] powyżej) może być dobrym punktem wyjścia jako funkcja. Wątpię jednak, aby ktokolwiek studiował jeszcze matematyczną klasyfikację chwiejności;)

Datageist
źródło

Doskonała odpowiedź od operatora danych. Chciałbym również zasugerować isophonics.net/QMVampPlugins jeśli szukasz więcej informacji i platformy dev z kodem źródłowym

Dan Barry

@ Dan To wygląda niesamowicie, dzięki za ten link.

Datageist

Znalazłem niszę do nauki! : D Dziękujemy za świetną odpowiedź i linki. Wskazał mi raczej kierunek niż bezcelowe korzystanie z Google.

XSL,

Cieszę się, że pomogę :)

Datageist

Rozpoznawanie funkcji matematycznych w utworach

Odpowiedzi: