Jaki matematyczny model dźwięku może umożliwić przesunięcie tonu poszczególnych nut w (złożonej barwie) polifonii?

24

Moje pytanie brzmi: jaki matematyczny model polifonicznego dźwięku może umożliwić zmianę (tj. Przesunięcie wysokości) poszczególnych nut w wielokanałowym nagraniu dźwiękowym polifonicznego akustycznego instrumentu muzycznego? Przez „zmienianie nut w polifonicznym dźwięku” mam na myśli robienie czegoś takiego jak edytowanie dźwięku za pomocą tak zwanej funkcji „ Direct Note Access ” w oprogramowaniu celody's Melodyne.

Według wikipedii to, czego Melodyne używa do modelowania sygnału audio z pojedynczej linii melodii odtwarzanej na akustycznym (a tym samym złożonym brzmieniu) instrumencie muzycznym, przypomina coś, co Henning Thielemann opisuje w swoim artykule zatytułowanym „ Faza rozplątywania i czas w dźwiękach monofonicznych ”. Nie mogę znaleźć żadnego odniesienia do modeli sygnałów audio polifonicznych instrumentów muzycznych; według wywiadu na YouTube Petera Neubackera (transkrybowanego poniżej) funkcja Melodyne do edytowania polifonicznego dźwięku wymaga podejścia odmiennego niż to opisane przez Thielemanna.

Jedna wskazówka z drugiego klipu youtube jest taka, że ​​model Neubackera działa lepiej z nagraniem audio tylko jednego rodzaju instrumentu (tj. Tylko fortepian, tylko gitara, tylko struny, tylko wiatry itp.). Kolejną wskazówką jest kolejny klip pokazujący zdolność nie tylko zmiany wysokości nuty, ale także jej (początkowy i końcowy) czas.


Poniżej znajduje się transkrypcja filmu z youtube, w którym wspomniano, że „materiały polifoniczne wymagają innego podejścia” (na wypadek, gdybyś nie miał czasu oglądać od 22:00).

  • Pytanie, z którego zrodziła się Melodyna: jak mogę uzyskać dźwięk z trójwymiarowej formy takiej jak ta [gestykulując z kamieniem w ręku]? Jakimi dźwiękami można uwolnić się od ciągłego czasu? Ta rzeźba jest właściwie tym, co z niej wyszło ... To kawałek plastiku ... Pochodzi bezpośrednio z muzycznych danych. Ten obiekt [wyciąga notatkę na lutnię] tę notatkę. Najlepiej jest to zwizualizowane od lewej do prawej. Czas płynie w tym kierunku [gestykuluje od lewej do prawej]. I to jest amplituda [gestykulacji dużego i małego palcem przeciwstawnym palcem]. Jeśli go obrócę, to ... reprezentuje barwę tego dźwięku w danym momencie. Bardzo wyraźnie widać tutaj strukturę [wskazującą na przekrój u dołu rzeźby], która jest nieco trójkątna; to dlatego, że w tym dźwięku

    Ponieważ Melodyne jeszcze nie istniało i po prostu eksperymentowałem z tłumaczeniem dźwięku na ten kształt, pracowałem przez prawie rok z tym jednym dźwiękiem. ... Znam ten dźwięk wewnątrz i na zewnątrz oraz na pamięć. To także stanowi dobrą ilustrację lokalnego dźwięku. Mogę nie tylko odtwarzać dźwięk [kliknięcie myszą], ale mogę także wprowadzić dźwięk dowolnego punktu i poruszać się po nim tak wolno lub szybko, jak chcę. Mogę nawet zatrzymać się w dźwięku lub poruszać się do przodu i do tyłu, więc jeśli zbadam jedno miejsce tutaj ... obejdź je. ... Dziesięć lat temu było nowe.

    Ostatnio dodano dna (bezpośredni dostęp do notatek). Za jego pomocą mogę również edytować muzykę polifoniczną. Innymi słowy, mogę edytować pojedyncze dźwięki, które brzmią jednocześnie, na przykład nagranie na gitarze. Jeśli teraz gram mały akord [wybierając Poly -> Osobne nuty na ekranie], widzimy tutaj 3 nuty, które właśnie grałem jako osobne byty. Posłuchajmy jeszcze raz [komputer gra niewielki akord]. A teraz, jakby przesuwając palec na wyższy próg, mogę podnieść tę jedną nutę [przeciągając notatkę na ekranie w górę; komputer gra główny akord]. W przypadku podzielonego dźwięku mogę wyodrębnić tę jedną nutę i mogę teraz dowolnie przesuwać ją w górę lub w dół, do dowolnej wysokości.

    Dlaczego nikt wcześniej nie był w stanie wyizolować poszczególnych tonów w złożonym materiale w ten sposób? Naprawdę nie wiem. W nauce naturalną tendencją jest zaczynać od czegoś prostego, na przykład fali sinusoidalnej lub pojedynczych nut, i najpierw przeanalizować to, aby odkryć, kiedy materiał staje się bardziej złożony lub trzeba go traktować w całości, że system nie działa Moje podejście jest inne. Właściwie zaczynam od złożonych sygnałów i dopiero wtedy, gdy chcę szczegółowo zbadać coś, wracam do prostszych, ale najpierw muszę mieć ogólne wrażenie tego, co faktycznie dzieje się w rzeczywistości.

    Czy sekret tkwi w tym rzucie? Heheh, to właściwie kibel. Pierwotnie pytanie postawione przez kamień brzmiało, jak mogę przełożyć dany dźwięk na trójwymiarową formę. Tutaj ułożyłem osobniki próbkujące wartości dźwięku, wskazane tutaj przez jeden dwa trzy, a więc spiralnie. I okazuje się, że jeśli interpolujesz między punktami [wskazując na spiralę], pojawi się krajobraz, który reprezentuje również poszczególne przekroje w dźwięku [wskazując na rzeźby].

    Ile lat ma rolka? 12 lat. Więc ten pomysł jest źródłem Melodyny, wszystkiego, co widzieliśmy dzisiaj ...? Tak, ale ten sposób zwijania dźwięku nie byłby już przydatny w przypadku materiałów polifonicznych, co wymaga innego podejścia.

użytkownik1217
źródło
Nie ma teraz czasu, ale możesz przeczytać niektóre prace Billa Setharesa dotyczące Consonance . Spróbuję przetrawić twój post i odpowiedzieć pełniej w ciągu następnych kilku dni.
Peter K.
Nie jestem pewien, jakie jest pytanie. Izolować poszczególne nuty i „zwijanie się dźwięku” kojarzy mi się z zawijania widmo w spiralę tak, że harmoniczne linii nocie ze sobą: nastechservices.com/Spectrograms.html nastechservices.com/Spectratune.html
endolit

Odpowiedzi:

12

TL; DR? Google Scholar do częściowej separacji harmonicznych .


Dobrym punktem wyjścia byłyby techniki modelowania sinusoidalnego, które dzielą sygnał na składowe sinusoidalne + szum (deterministyczne i stochastyczne). Składnik deterministyczny, złożony z sinusów, można przekonująco resyntezować:

http://mtg.upf.edu/files/projectsweb/sms-piano-original.wav

http://mtg.upf.edu/files/projectsweb/sms-piano-deterministic.wav

Sinusy są odejmowane od sygnału, a głośna / stochastyczna część pozostaje.

http://mtg.upf.edu/files/projectsweb/sms-piano-stochastic.wav

Część stochastyczna jest syntetyzowana przez przepuszczanie hałasu przez jakiś filtr kształtujący hałas. Niektóre inne rozszerzyły to na model sinus + szum + transjenty, które pomagają zachować przejściowe cechy stochastyczne podczas rozciągania w czasie.

https://ccrma.stanford.edu/~jos/sasp/Sines_Noise_Modeling.html

http://mtg.upf.edu/technologies/sms

Gdy masz już sinusoidalne parametry sygnału, możesz oddzielić sinus nakładających się nut, szukając współczynników harmonicznych i grupowania według początku itp. Częściowe śledzenie pokazuje wiele wyników w Google Scholar.

http://recherche.ircam.fr/equipes/analyse-synthese/lagrange/research/papers/lagrangeIcassp05.pdf

http://dream.cs.bath.ac.uk/software/sndan/mqan.html

Ukryte modele Markowa , wielomiany i Macaulay-Quatieri to tylko niektóre z metod. Czuję się zakłopotany rozdzieleniem stochastycznych resztek na dwie nuty. Nie wiem, jak Melodyne rozwiązuje ten problem.

Matt M.
źródło
5

Podejście zastosowane w melodynie wymaga 2 oddzielnych operacji w dziedzinie częstotliwości. Po pierwsze, polifoniczne techniki transkrypcji są używane do grupowania składników częstotliwości (ze standardowej transformaty częstotliwości) polifonicznego dźwięku w aktywacje dźwięków. Innymi słowy, pogrupuj harmoniczne podzbiory według najbardziej prawdopodobnych aktywacji nut. Zobacz moją odpowiedź na post „Odwrotne rozpoznawanie akordów polifonicznych” na tym forum, aby uzyskać odniesienia i modele matematyczne.

Druga operacja polega na przesunięciu tonu w dziedzinie częstotliwości podzbiorów harmonicznych wyodrębnionych powyżej. Nie jestem pewien, ale prawie zagwarantowałbym, że Melodyne zastosuje podejście wokodera fazowego, aby to osiągnąć. Za pomocą tej techniki możesz także wykonywać rozciąganie czasu . Używamy technik podobnych do tych w Riffstation i działają one całkiem dobrze.

Dan Barry
źródło
3

Jedną z możliwości może być analiza / ponowna synteza przy użyciu metody statystycznego dopasowywania wzorców. Jeśli znasz lub potrafisz rozsądnie odgadnąć kombinację instrumentów i masz szablony (w tym wstępne transjenty, widmo plus ewolucja spektralna itp.) Dla dźwięków instrumentów dla wszystkich oczekiwanych dźwięków, możesz spróbować statystycznego dopasowania dużej liczby rozsądnych akordów kombinacje wykorzystujące wzorce dźwiękowe szablonu do oszacowania najbardziej prawdopodobnej kombinacji polifonicznej. Byłoby to bardzo intensywne obliczeniowo poszukiwanie globalnych minimów, w których przydatne mogą być różne techniki wyszukiwania podobne do „AI”. Następnie możesz wziąć różne indywidualne prawdopodobieństwa akordów, a następnie użyć teorii decyzyjnych, aby wybrać najbardziej prawdopodobne sekwencje polifoniczne w czasie.

Następnie zanotuj szacunkowe nuty i ponownie zsyntetyzuj je zgodnie z wybranym tonem i czasem trwania klucza.

hotpaw2
źródło