Która transformacja najbardziej naśladuje ludzki układ słuchowy?

Transformaty Fouriera jest powszechnie stosowana do analizy częstotliwości dźwięków. Ma jednak pewne wady, jeśli chodzi o analizę ludzkiej percepcji dźwięku. Na przykład, jego przedziały częstotliwości są liniowe, podczas gdy ludzkie ucho reaguje na częstotliwość logarytmicznie, a nie liniowo .

Transformaty falkowe mogą modyfikować rozdzielczość dla różnych zakresów częstotliwości , w przeciwieństwie do transformaty Fouriera. Właściwości transformaty falkowej pozwalają na duże wsparcie czasowe dla niższych częstotliwości, przy zachowaniu krótkich szerokości czasowych dla wyższych częstotliwości.

Morlet falkowa jest ściśle związana z ludzkiej percepcji słuchu. Można go zastosować do transkrypcji muzyki i zapewnia bardzo dokładne wyniki, które nie są możliwe przy użyciu technik transformacji Fouriera. Jest w stanie uchwycić krótkie serie powtarzających się i naprzemiennych nut z wyraźnym czasem rozpoczęcia i zakończenia każdej nuty.

Stałej P transformacji (ściśle związane z Morleta falkowej przekształcić) jest również dobrze nadaje się dane muzyczne . Ponieważ moc wyjściowa transformacji jest efektywnie amplitudą / fazą względem częstotliwości logarytmicznej, potrzeba mniejszej liczby przedziałów widmowych, aby skutecznie pokryć dany zakres, a to okazuje się przydatne, gdy częstotliwości rozciągają się na kilka oktaw.

Transformacja wykazuje zmniejszenie rozdzielczości częstotliwości z przedziałami wyższych częstotliwości, co jest pożądane w zastosowaniach dźwiękowych. Odzwierciedla ludzki układ słuchowy, dzięki czemu przy niższych częstotliwościach rozdzielczość spektralna jest lepsza, podczas gdy rozdzielczość czasowa poprawia się przy wyższych częstotliwościach.

Moje pytanie brzmi: czy istnieją inne transformacje, które ściśle naśladują ludzki układ słuchowy? Czy ktoś próbował zaprojektować transformację, która anatomicznie / neurologicznie pasuje do ludzkiego układu słuchowego tak blisko, jak to możliwe?

Na przykład wiadomo, że ludzkie uszy mają logarytmiczną odpowiedź na intensywność dźwięku . Wiadomo również, że kontury o jednakowej głośności różnią się nie tylko intensywnością, ale także odstępami częstotliwości składowych widmowych . Dźwięki zawierające składowe spektralne w wielu krytycznych pasmach są odbierane jako głośniejsze, nawet jeśli całkowite ciśnienie dźwięku pozostaje stałe.

Wreszcie ludzkie ucho ma ograniczoną rozdzielczość czasową zależną od częstotliwości . Być może można to również wziąć pod uwagę.

fourier-transform frequency-spectrum wavelet music psychoacoustics użytkownik76284
źródło

Czy nakładasz jakieś matematyczne ograniczenia na „transformację”?

Olli Niemitalo

Wyrazy uznania dla wszystkich linków!

Gilles

Żadna pojedyncza transformacja nie może odpowiednio naśladować układu tak złożonego jak ludzki układ słuchowy. Istniejące modele HAS wykorzystują skomplikowane architektury przetwarzania sygnałów i wiele transformacji, z których każdy modeluje inny aspekt słyszenia. Być może chcesz rozważyć modelowanie kawałek po kawałku.

Fat32

Projektując takie transformacje, należy wziąć pod uwagę konkurencyjne interesy:

wierność ludzkiemu układowi słuchowemu (który różni się w zależności od ludzi), w tym aspekty nieliniowe, a nawet chaotyczne (szumy uszne)
łatwość matematycznego sformułowania dla części analitycznej
możliwość dyskretyzacji lub umożliwienia szybkich wdrożeń
istnienie odpowiedniej stabilnej odwrotności

Niedawno przykuły mi uwagę dwa ostatnie projekty: motywowana słuchowo transformacja falkowa Gammatone , przetwarzanie sygnałów, 2014

Zdolność ciągłej transformaty falkowej (CWT) do zapewnienia dobrej lokalizacji czasu i częstotliwości sprawiła, że jest popularnym narzędziem w analizie sygnałów czasowo-częstotliwościowych. Falki wykazują właściwość stałej Q, którą posiadają również podstawowe filtry membranowe w obwodowym układzie słuchowym. Podstawowe filtry membranowe lub filtry słuchowe są często modelowane za pomocą funkcji Gammatone, która zapewnia dobre przybliżenie do eksperymentalnie określonych odpowiedzi. Bank filtrów uzyskany z tych filtrów jest nazywany bankiem filtrów Gammatone. Zasadniczo analizę falkową można przyrównać do analizy banku filtrów, a zatem interesujący związek między standardową analizą falkową a bankiem filtrów Gammatone. Jednak funkcja Gammatone nie kwalifikuje się dokładnie jako falka, ponieważ jej średnia czasowa nie jest równa zero. Pokazujemy, jak można zbudować falki bona fide z funkcji Gammatone. Analizujemy właściwości takie jak dopuszczalność, iloczyn czasowo-przepustowy, zanikające momenty, które są szczególnie istotne w kontekście falek. Pokazujemy również, w jaki sposób wytwarzane są proponowane falki słuchowe jako odpowiedź impulsowa liniowego, niezmiennego systemu przesuwu rządzonego liniowym równaniem różniczkowym o stałych współczynnikach. Proponujemy implementacje obwodów analogowych proponowanego CWT. Pokazujemy również, w jaki sposób falki pochodzące od Gammatone można wykorzystać do wykrywania osobliwości i analizy czasowo-częstotliwościowej sygnałów przejściowych. Pokazujemy również, w jaki sposób wytwarzane są proponowane falki słuchowe jako odpowiedź impulsowa liniowego, niezmiennego systemu przesuwu rządzonego liniowym równaniem różniczkowym o stałych współczynnikach. Proponujemy implementacje obwodów analogowych proponowanego CWT. Pokazujemy również, w jaki sposób falki pochodzące od Gammatone można wykorzystać do wykrywania osobliwości i analizy czasowo-częstotliwościowej sygnałów przejściowych. Pokazujemy również, w jaki sposób wytwarzane są proponowane falki słuchowe jako odpowiedź impulsowa liniowego, niezmiennego systemu przesuwu rządzonego liniowym równaniem różniczkowym o stałych współczynnikach. Proponujemy implementacje obwodów analogowych proponowanego CWT. Pokazujemy również, w jaki sposób falki pochodzące od Gammatone można wykorzystać do wykrywania osobliwości i analizy czasowo-częstotliwościowej sygnałów przejściowych.

Transformacja ERBlet: oparta na słuchu reprezentacja czasu i częstotliwości z doskonałą rekonstrukcją , ICASSP 2013

W tym artykule opisano metodę uzyskania percepcyjnie zmotywowanej i doskonale odwracalnej reprezentacji sygnału dźwiękowego w czasie i częstotliwości. W oparciu o teorię ramki i niedawną niestacjonarną transformację Gabora sformułowano liniową reprezentację z rozdzielczością zmieniającą się w zależności od częstotliwości i zastosowano jako nierównomierny bank filtrów. Aby dopasować rozdzielczość czasowo-częstotliwościową słuchu człowieka, transformacja wykorzystuje okna Gaussa rozmieszczone w równych odstępach na psychoakustycznej skali częstotliwości „ERB”. Dodatkowo transformacja ma dostosowaną rozdzielczość i redundancję. Symulacje wykazały, że doskonałą rekonstrukcję można osiągnąć przy użyciu szybkich metod iteracyjnych i kondycjonowania wstępnego, nawet przy użyciu jednego filtra na ERB i bardzo niskiej redundancji (1,08).

Wspomnę także:

Transformacja oparta na słuchu do przetwarzania sygnałów audio , WASPAA 2009

W tym artykule przedstawiono transformację słuchową. Poprzez proces analizy transformacja obejmuje sygnały w dziedzinie czasu na zbiór danych wyjściowych banku filtrów. Odpowiedzi częstotliwościowe i rozkłady banku filtrów są podobne do tych w błonie podstawnej ślimaka. Przetwarzanie sygnału można przeprowadzić w rozłożonej dziedzinie sygnału. W procesie syntezy zdekomponowane sygnały można zsyntetyzować z powrotem do oryginalnego sygnału za pomocą prostego obliczenia. Ponadto przedstawiono szybkie algorytmy sygnałów dyskretnych dla transformacji zarówno do przodu, jak i odwrotnych. Transformacja została zatwierdzona teoretycznie i zweryfikowana w eksperymentach. Przedstawiono przykład zastosowania redukcji hałasu. Proponowana transformacja jest odporna na szumy tła i obliczeniowe oraz jest wolna od harmonicznych wysokości tonu.

Laurent Duval
źródło

Właśnie tego szukałem. Dziękuję Ci.

user76284,

Która transformacja najbardziej naśladuje ludzki układ słuchowy?

Odpowiedzi: