Która transformacja najbardziej naśladuje ludzki układ słuchowy?

12

Transformaty Fouriera jest powszechnie stosowana do analizy częstotliwości dźwięków. Ma jednak pewne wady, jeśli chodzi o analizę ludzkiej percepcji dźwięku. Na przykład, jego przedziały częstotliwości są liniowe, podczas gdy ludzkie ucho reaguje na częstotliwość logarytmicznie, a nie liniowo .

Transformaty falkowe mogą modyfikować rozdzielczość dla różnych zakresów częstotliwości , w przeciwieństwie do transformaty Fouriera. Właściwości transformaty falkowej pozwalają na duże wsparcie czasowe dla niższych częstotliwości, przy zachowaniu krótkich szerokości czasowych dla wyższych częstotliwości.

Morlet falkowa jest ściśle związana z ludzkiej percepcji słuchu. Można go zastosować do transkrypcji muzyki i zapewnia bardzo dokładne wyniki, które nie są możliwe przy użyciu technik transformacji Fouriera. Jest w stanie uchwycić krótkie serie powtarzających się i naprzemiennych nut z wyraźnym czasem rozpoczęcia i zakończenia każdej nuty.

Stałej P transformacji (ściśle związane z Morleta falkowej przekształcić) jest również dobrze nadaje się dane muzyczne . Ponieważ moc wyjściowa transformacji jest efektywnie amplitudą / fazą względem częstotliwości logarytmicznej, potrzeba mniejszej liczby przedziałów widmowych, aby skutecznie pokryć dany zakres, a to okazuje się przydatne, gdy częstotliwości rozciągają się na kilka oktaw.

Transformacja wykazuje zmniejszenie rozdzielczości częstotliwości z przedziałami wyższych częstotliwości, co jest pożądane w zastosowaniach dźwiękowych. Odzwierciedla ludzki układ słuchowy, dzięki czemu przy niższych częstotliwościach rozdzielczość spektralna jest lepsza, podczas gdy rozdzielczość czasowa poprawia się przy wyższych częstotliwościach.

Moje pytanie brzmi: czy istnieją inne transformacje, które ściśle naśladują ludzki układ słuchowy? Czy ktoś próbował zaprojektować transformację, która anatomicznie / neurologicznie pasuje do ludzkiego układu słuchowego tak blisko, jak to możliwe?

Na przykład wiadomo, że ludzkie uszy mają logarytmiczną odpowiedź na intensywność dźwięku . Wiadomo również, że kontury o jednakowej głośności różnią się nie tylko intensywnością, ale także odstępami częstotliwości składowych widmowych . Dźwięki zawierające składowe spektralne w wielu krytycznych pasmach są odbierane jako głośniejsze, nawet jeśli całkowite ciśnienie dźwięku pozostaje stałe.

Wreszcie ludzkie ucho ma ograniczoną rozdzielczość czasową zależną od częstotliwości . Być może można to również wziąć pod uwagę.

użytkownik76284
źródło
Czy nakładasz jakieś matematyczne ograniczenia na „transformację”?
Olli Niemitalo
2
Wyrazy uznania dla wszystkich linków!
Gilles
Żadna pojedyncza transformacja nie może odpowiednio naśladować układu tak złożonego jak ludzki układ słuchowy. Istniejące modele HAS wykorzystują skomplikowane architektury przetwarzania sygnałów i wiele transformacji, z których każdy modeluje inny aspekt słyszenia. Być może chcesz rozważyć modelowanie kawałek po kawałku.
Fat32

Odpowiedzi:

9

Projektując takie transformacje, należy wziąć pod uwagę konkurencyjne interesy:

  • wierność ludzkiemu układowi słuchowemu (który różni się w zależności od ludzi), w tym aspekty nieliniowe, a nawet chaotyczne (szumy uszne)
  • łatwość matematycznego sformułowania dla części analitycznej
  • możliwość dyskretyzacji lub umożliwienia szybkich wdrożeń
  • istnienie odpowiedniej stabilnej odwrotności

Niedawno przykuły mi uwagę dwa ostatnie projekty: motywowana słuchowo transformacja falkowa Gammatone , przetwarzanie sygnałów, 2014

Zdolność ciągłej transformaty falkowej (CWT) do zapewnienia dobrej lokalizacji czasu i częstotliwości sprawiła, że ​​jest popularnym narzędziem w analizie sygnałów czasowo-częstotliwościowych. Falki wykazują właściwość stałej Q, którą posiadają również podstawowe filtry membranowe w obwodowym układzie słuchowym. Podstawowe filtry membranowe lub filtry słuchowe są często modelowane za pomocą funkcji Gammatone, która zapewnia dobre przybliżenie do eksperymentalnie określonych odpowiedzi. Bank filtrów uzyskany z tych filtrów jest nazywany bankiem filtrów Gammatone. Zasadniczo analizę falkową można przyrównać do analizy banku filtrów, a zatem interesujący związek między standardową analizą falkową a bankiem filtrów Gammatone. Jednak funkcja Gammatone nie kwalifikuje się dokładnie jako falka, ponieważ jej średnia czasowa nie jest równa zero. Pokazujemy, jak można zbudować falki bona fide z funkcji Gammatone. Analizujemy właściwości takie jak dopuszczalność, iloczyn czasowo-przepustowy, zanikające momenty, które są szczególnie istotne w kontekście falek. Pokazujemy również, w jaki sposób wytwarzane są proponowane falki słuchowe jako odpowiedź impulsowa liniowego, niezmiennego systemu przesuwu rządzonego liniowym równaniem różniczkowym o stałych współczynnikach. Proponujemy implementacje obwodów analogowych proponowanego CWT. Pokazujemy również, w jaki sposób falki pochodzące od Gammatone można wykorzystać do wykrywania osobliwości i analizy czasowo-częstotliwościowej sygnałów przejściowych. Pokazujemy również, w jaki sposób wytwarzane są proponowane falki słuchowe jako odpowiedź impulsowa liniowego, niezmiennego systemu przesuwu rządzonego liniowym równaniem różniczkowym o stałych współczynnikach. Proponujemy implementacje obwodów analogowych proponowanego CWT. Pokazujemy również, w jaki sposób falki pochodzące od Gammatone można wykorzystać do wykrywania osobliwości i analizy czasowo-częstotliwościowej sygnałów przejściowych. Pokazujemy również, w jaki sposób wytwarzane są proponowane falki słuchowe jako odpowiedź impulsowa liniowego, niezmiennego systemu przesuwu rządzonego liniowym równaniem różniczkowym o stałych współczynnikach. Proponujemy implementacje obwodów analogowych proponowanego CWT. Pokazujemy również, w jaki sposób falki pochodzące od Gammatone można wykorzystać do wykrywania osobliwości i analizy czasowo-częstotliwościowej sygnałów przejściowych.

Transformacja ERBlet: oparta na słuchu reprezentacja czasu i częstotliwości z doskonałą rekonstrukcją , ICASSP 2013

W tym artykule opisano metodę uzyskania percepcyjnie zmotywowanej i doskonale odwracalnej reprezentacji sygnału dźwiękowego w czasie i częstotliwości. W oparciu o teorię ramki i niedawną niestacjonarną transformację Gabora sformułowano liniową reprezentację z rozdzielczością zmieniającą się w zależności od częstotliwości i zastosowano jako nierównomierny bank filtrów. Aby dopasować rozdzielczość czasowo-częstotliwościową słuchu człowieka, transformacja wykorzystuje okna Gaussa rozmieszczone w równych odstępach na psychoakustycznej skali częstotliwości „ERB”. Dodatkowo transformacja ma dostosowaną rozdzielczość i redundancję. Symulacje wykazały, że doskonałą rekonstrukcję można osiągnąć przy użyciu szybkich metod iteracyjnych i kondycjonowania wstępnego, nawet przy użyciu jednego filtra na ERB i bardzo niskiej redundancji (1,08).

Wspomnę także:

Transformacja oparta na słuchu do przetwarzania sygnałów audio , WASPAA 2009

W tym artykule przedstawiono transformację słuchową. Poprzez proces analizy transformacja obejmuje sygnały w dziedzinie czasu na zbiór danych wyjściowych banku filtrów. Odpowiedzi częstotliwościowe i rozkłady banku filtrów są podobne do tych w błonie podstawnej ślimaka. Przetwarzanie sygnału można przeprowadzić w rozłożonej dziedzinie sygnału. W procesie syntezy zdekomponowane sygnały można zsyntetyzować z powrotem do oryginalnego sygnału za pomocą prostego obliczenia. Ponadto przedstawiono szybkie algorytmy sygnałów dyskretnych dla transformacji zarówno do przodu, jak i odwrotnych. Transformacja została zatwierdzona teoretycznie i zweryfikowana w eksperymentach. Przedstawiono przykład zastosowania redukcji hałasu. Proponowana transformacja jest odporna na szumy tła i obliczeniowe oraz jest wolna od harmonicznych wysokości tonu.

Laurent Duval
źródło
1
Właśnie tego szukałem. Dziękuję Ci.
user76284,