Obecny stan techniki w zakresie interpolacji sygnałów audio

11

Trzy pytania:

  1. Jakich wskaźników można użyć do obiektywnego pomiaru jakości interpolacji audio? (ale także pod względem psychoakustyki, jeśli to możliwe)

  2. Według tych wskaźników, jaki jest obecny stan interpolacji audio?

  3. Załóżmy, że mam wyrenderować dwa pliki z sekwencji nut z instrumentów wirtualnych w dwóch rozdzielczościach, a następnie porównać próbkowanie w górę jednego pliku z wersją renderowaną o wysokiej częstotliwości, jakiego oprogramowania można użyć do obiektywnego porównania? - najlepiej przy użyciu wyżej wymienionych wskaźników

Do tej pory, od czasu, gdy udało mi się zebrać, te resamplery zapewniają jedne z najlepszych jakości

  1. http://www.mega-nerd.com/SRC/
  2. http://sox.sourceforge.net/SoX/
  3. http://www.izotope.com/tech/src/

Jednym z problemów, które wydają się mieć te resamplery, jest dzwonienie przed i po dzwonieniu.

Powinienem zauważyć, że kluczowe znaczenie ma rekonstrukcja sygnału (o ile ten termin ma sens), więc upsampling bardziej niż downsampling.

Edycja: Wydajność czasu interpolacji jest w tym kontekście nieistotna.

Pozdrawiam, ciekawi :-)

Bent Rasmussen
źródło

Odpowiedzi:

5

Jeśli chodzi o „problem”, który zauważasz w przypadku resamplerów:

Wiele algorytmów ponownego próbkowania wykorzystuje jądro interpolacji wielofazowej z filtrem dolnoprzepustowym z filtrem liniowym. Jądro interpolacji z filtrem fazy minimalnej, w przeciwieństwie do jądra interpolacji fazy liniowej (z tą samą odpowiedzią częstotliwościową), wytwarzałoby mniej wstępnego dzwonienia podczas ponownego próbkowania do wyższej częstotliwości próbkowania, co może obiektywnie mierzyć jako mniej dokładne, ale być może psycho- akustycznie brzmi „lepiej” dla ludzi.

Oto uwaga na temat tworzenia filtrów fazy minimalnej do filtrowania z potencjalnie mniejszym dzwonieniem wstępnym: http://www.music.columbia.edu/pipermail/music-dsp/2004-Febra/059372.html

Również filtr dolnoprzepustowy zaprojektowany przez Remeza (Parks-McClellan) może mieć wyraźne okresowe tętnienia w dziedzinie częstotliwości, co może również wytwarzać impuls przed dzwonieniem w dziedzinie czasu. Możesz więc zamiast tego spróbować wypróbować okienkowany Sinc lub wyprowadzenie klasycznego filtra analogowego dla konstrukcji filtra dolnoprzepustowego (ten ostatni zwykle skutkuje czymś bliższym minimalnej fazie) dla jądra interpolacji resamplingowej.

hotpaw2
źródło
Jeśli chodzi o twoje zdanie na temat filtrów fazy minimalnej: nie jestem pewien co do pierwszych dwóch ogniw, ale SRC iZotope pozwala na ciągłą zmienną fazę między minimum a linią. Podczas testów słuchowych ludzie lubią gdzieś pomiędzy fazą minimalną a fazą liniową.
sznurek
Filtr cynkowo-okienny niekoniecznie byłby lepszy niż filtr ekwiwalentny (zaprojektowany przez wymianę Remeza) w odniesieniu do dzwonienia w dziedzinie czasu. Efekt dzwonienia nazywa się zjawiskiem Gibbsa i obserwuje się go po ograniczeniu sygnału zawierającego nieciągłości (np. Fala prostokątna). Nie jest to spowodowane przez tętnienia w dziedzinie częstotliwości filtra ekwiwalentnego. Efekt jest bardziej zauważalny, gdy używasz filtrów z bardzo ostrym odcięciem; zwiększenie szerokości przejścia może nieco to złagodzić.
Jason R
@Jason R: sinusoida w dziedzinie czasu = impuls w dziedzinie częstotliwości, pozycja zależna od częstotliwości tętnienia sinusoidy. Teraz odwróć 2 domeny i wstaw sinusoidalną falę w odpowiedzi w dziedzinie częstotliwości. Impuls trafia do dziedziny czasu, której położenie zależy od charakterystyki tętnienia.
hotpaw2
@ hotpaw2: Widzę twoją analogię. Nie zrozumiałem intencji twojego terminu „impuls przed dzwonieniem”.
Jason R
Również gładkie okno w dziedzinie czasu odtwarza swój nieciągły kształt wokół nieciągłości w dziedzinie częstotliwości przez splot, zmniejszając w ten sposób przeregulowanie Gibbsa.
hotpaw2
6

Jest to dość dokładne porównanie algorytmów ponownego próbkowania: http://src.infinitewave.ca/

Możesz zobaczyć testy, które tam wykorzystali. Aliasing jest duży i jest łatwy do wizualizacji dzięki spektrogramowi sinusoidy. Istnieje również pasmo przenoszenia wysokich częstotliwości - SRC może zrolować wysokie częstotliwości, umożliwiając im także aliasing. Możesz wizualizować odpowiedź fazową za pomocą grafu odpowiedzi impulsowej lub wykresu reakcji fazowej.

sznurek
źródło
Tak, znam ten doskonały zasób. Chciałem tylko poznać wszystkie parametry, które warto zmierzyć podczas pomiaru wydajności resamplingu (w szczególności upsamplingu).
Bent Rasmussen