DFT z geometrycznie rozmieszczonymi pojemnikami?

16

Tradycyjna dyskretna transformata Fouriera (DFT) i jej kuzyn FFT wytwarzają pojemniki rozmieszczone w równych odstępach. Innymi słowy, dostajesz coś w rodzaju pierwszych 10 herców w pierwszym koszu, od 10,1 do 20 w drugim itd. Potrzebuję jednak czegoś innego. Chcę, aby zakres częstotliwości pokrywany przez każdy pojemnik zwiększał się geometrycznie. Załóżmy, że wybrałem mnożnik 1,5. Następnie mamy od 0 do 10 w pierwszym bin, chcę od 11 do 25 w drugim bin, od 26 do 48 w trzecim itd. Czy można zmodyfikować algorytm DFT, aby zachowywał się w ten sposób?

Brannon
źródło
Zawsze możesz obliczyć DFT w interesujących miejscach. Również dyskretna transformata falkowa i banków filtrów przyjść do mojego umysłu. Może warto na nie spojrzeć.
2
Szukasz stałej transformacji Q (CQT) .
Paul R
2
Źle sformułowane. To, czego chcesz, nie jest ani nowe, ani poprawa w wielu przypadkach.
hotpaw2
2
DFT i FFT nie są kuzynami. Dają identyczne wyniki.
Phonon

Odpowiedzi:

17

Cytując moją rozprawę:

Zbiór transformacji otrzymuje stałą nazwę Q i jest podobny do transformacji Fouriera.

Obliczanie dyskretnej transformaty Fouriera może być bardzo wydajne przy zastosowaniu szybkiej transformaty Fouriera. Zauważamy jednak, że energia sygnału jest podzielona na przedziały częstotliwości o jednakowym rozmiarze w całym spektrum. Chociaż w wielu przypadkach jest to przydatne, zauważamy sytuacje, w których ten jednolity rozkład jest nieoptymalny. Ważnym przykładem takiego przypadku jest analiza częstotliwości muzycznych. W muzyce zachodniej częstotliwości składające się na skalę muzyczną są geometrycznie rozmieszczone. Widzimy zatem, że mapa między przedziałami częstotliwości dyskretnej transformaty Fouriera i częstotliwościami skal muzycznych jest niewystarczająca w tym sensie, że przedziały są źle dopasowane. Stała transformacja kolejna rozwiązuje ten problem.

Celem stałej Q jest wytworzenie zestawu logarytmicznie rozmieszczonych przedziałów częstotliwości, w których szerokość przedziału częstotliwości jest iloczynem poprzedniego. W rezultacie możemy wyprodukować identyczną liczbę przedziałów na nutę w całym spektrum słyszalnym, utrzymując w ten sposób stały poziom dokładności dla każdej nuty. Pojemniki częstotliwości stają się szersze w kierunku wyższych częstotliwości i węższe w kierunku niższych częstotliwości. Ten rozkład dokładności wykrywania częstotliwości ściśle imituje sposób, w jaki układ słuchowo-ludzki reaguje na częstotliwości.

Dodatkowo, ścisłe dopasowanie nut w zachodnich skalach sprawia, że ​​stała Q jest szczególnie przydatna w wykrywaniu nut; identyfikacja wartości nuty zamiast wyraźnej wartości częstotliwości. Ponadto stała Q upraszcza proces analizy barwy. Częstotliwości nuty granej przez instrument często składają się z harmonicznie powiązanych części. Barwę instrumentu można scharakteryzować stosunkami harmonicznych. Przy stałej transformacji Q harmoniczne są równomiernie rozmieszczone w przedziałach niezależnie od częstotliwości podstawowej. To znacznie upraszcza proces identyfikacji instrumentu grającego nutę w dowolnym miejscu skali, po prostu przesuwając charakterystykę w poprzek przedziałów.

Wydajny algorytm przekształcania dyskretnej transformaty Fouriera (którą można obliczyć za pomocą FFT) w stałą Q jest szczegółowo opisany w Brown i Puckette (1992).

Matt Esch
źródło
1

Istnieją znaczące matematyczne założenia w DFT (FFT). Najważniejsze w tym przypadku jest to, że wykonujesz skróconą transformację sinusoidalną w nieskończonym czasie. Po drugie, zakłada się, że skrócony czas i skrócone sygnały częstotliwości są owinięte modulo (okrągłe). Pojemniki rozmieszczone w normalnym FFT tworzą zbiór ortonormalny tylko z powodu tych założeń (i równomiernego odstępu w sensie arytmetycznym). czas <-> para częstotliwości jest zatem doskonale odwracalna.

Transformacja o stałym Q nie jest tak ładnie obcinana, dlatego żadna praktyczna implementacja nie zapewnia idealnego parowania orto-normalnego. Jądro jest nieskończenie długim, wykładniczo rozkładającym się sinusoidem i dlatego nie może mieć przewagi okrągłej wskazanej powyżej. Jeśli nie obetniesz, utworzą one zbiór ortonormalny.

Transformacje falkowe są zwykle rozmieszczone w odstępach potęgi-2, co nie jest zbyt przydatne do dokładnego oszacowania częstotliwości.

Sugestia nierównomiernego rozmieszczenia standardowego sinusoidalnego DFT spowoduje pominięcie informacji w obszarze szeroko oddalonym, podczas gdy powiela informacje w obszarze gęsto rozmieszczonym. Chyba że dla każdej częstotliwości używana jest inna funkcja apodyzacji ... bardzo kosztowna.

Jednym praktycznym rozwiązaniem jest wykonanie powtarzanej procedury o pół-widmie> dziesiętnie przez 2, aby uzyskać podsekcje oparte na oktawach, aby spełnić pewien błąd oszacowania minimaksy na oktawę. Widmo częściowe> dziesiętne przez stosunek można ustawić na dowolny stosunek, aby osiągnąć dowolną szczegółowość. Jednak wciąż dość intensywnie obliczeniowe.

catraeus
źródło