Transformaty Fouriera jest powszechnie stosowana do analizy częstotliwości dźwięków. Ma jednak pewne wady, jeśli chodzi o analizę ludzkiej percepcji dźwięku. Na przykład, jego przedziały częstotliwości są liniowe, podczas gdy ludzkie ucho reaguje na częstotliwość logarytmicznie, a nie liniowo .
Transformaty falkowe mogą modyfikować rozdzielczość dla różnych zakresów częstotliwości , w przeciwieństwie do transformaty Fouriera. Właściwości transformaty falkowej pozwalają na duże wsparcie czasowe dla niższych częstotliwości, przy zachowaniu krótkich szerokości czasowych dla wyższych częstotliwości.
Morlet falkowa jest ściśle związana z ludzkiej percepcji słuchu. Można go zastosować do transkrypcji muzyki i zapewnia bardzo dokładne wyniki, które nie są możliwe przy użyciu technik transformacji Fouriera. Jest w stanie uchwycić krótkie serie powtarzających się i naprzemiennych nut z wyraźnym czasem rozpoczęcia i zakończenia każdej nuty.
Stałej P transformacji (ściśle związane z Morleta falkowej przekształcić) jest również dobrze nadaje się dane muzyczne . Ponieważ moc wyjściowa transformacji jest efektywnie amplitudą / fazą względem częstotliwości logarytmicznej, potrzeba mniejszej liczby przedziałów widmowych, aby skutecznie pokryć dany zakres, a to okazuje się przydatne, gdy częstotliwości rozciągają się na kilka oktaw.
Transformacja wykazuje zmniejszenie rozdzielczości częstotliwości z przedziałami wyższych częstotliwości, co jest pożądane w zastosowaniach dźwiękowych. Odzwierciedla ludzki układ słuchowy, dzięki czemu przy niższych częstotliwościach rozdzielczość spektralna jest lepsza, podczas gdy rozdzielczość czasowa poprawia się przy wyższych częstotliwościach.
Moje pytanie brzmi: czy istnieją inne transformacje, które ściśle naśladują ludzki układ słuchowy? Czy ktoś próbował zaprojektować transformację, która anatomicznie / neurologicznie pasuje do ludzkiego układu słuchowego tak blisko, jak to możliwe?
Na przykład wiadomo, że ludzkie uszy mają logarytmiczną odpowiedź na intensywność dźwięku . Wiadomo również, że kontury o jednakowej głośności różnią się nie tylko intensywnością, ale także odstępami częstotliwości składowych widmowych . Dźwięki zawierające składowe spektralne w wielu krytycznych pasmach są odbierane jako głośniejsze, nawet jeśli całkowite ciśnienie dźwięku pozostaje stałe.
Wreszcie ludzkie ucho ma ograniczoną rozdzielczość czasową zależną od częstotliwości . Być może można to również wziąć pod uwagę.
źródło
Odpowiedzi:
Projektując takie transformacje, należy wziąć pod uwagę konkurencyjne interesy:
Niedawno przykuły mi uwagę dwa ostatnie projekty: motywowana słuchowo transformacja falkowa Gammatone , przetwarzanie sygnałów, 2014
Transformacja ERBlet: oparta na słuchu reprezentacja czasu i częstotliwości z doskonałą rekonstrukcją , ICASSP 2013
Wspomnę także:
Transformacja oparta na słuchu do przetwarzania sygnałów audio , WASPAA 2009
źródło