Kiedy wkładasz coś do ucha, odtwarzając standardowe nagrania stereo, nie chcesz płaskiej odpowiedzi częstotliwościowej, ponieważ funkcja przenoszenia związana z głową, która zwykle wchodzi w grę dla źródła dźwięku znacznie dalej, wygląda zupełnie inaczej, gdy źródło jest przy uchu .
Pozwól mi zacytować kilka akapitów z książki :
Ze wszystkich elementów łańcucha transmisji elektroakustycznej najbardziej kontrowersyjne są słuchawki. Wysoka wierność w prawdziwym tego słowa znaczeniu, obejmująca nie tylko barwę, ale także lokalizację przestrzenną, kojarzy się bardziej ze stereofonią głośników ze względu na dobrze znaną lokalizację słuchawek w głowie. A jednak nagrania binauralne z atrapą głowy, które są najbardziej obiecujące z punktu widzenia prawdziwej wysokiej wierności, są przeznaczone do odtwarzania w słuchawkach. Nawet w czasach swojej świetności nie znaleźli miejsca na rutynowe nagrywanie i nadawanie. W tym czasie przyczyną była niewiarygodna lokalizacja czołowa, niezgodność z reprodukcją głośników, a także ich skłonność do nieestetyczności. Ponieważ cyfrowe przetwarzanie sygnału (DSP) może filtrować rutynowo za pomocą funkcji transferu obuusznego związanych z głową, HRTF, głowice zastępcze nie są już potrzebne.
Nadal najczęstszym zastosowaniem słuchawek jest zasilanie ich sygnałami stereo pierwotnie przeznaczonymi dla głośników. Rodzi to pytanie o idealne pasmo przenoszenia. W przypadku innych urządzeń w łańcuchu transmisyjnym (ryc. 14.1), takich jak mikrofony, wzmacniacze i głośniki, zwykle celem projektu jest płaska odpowiedź, aw szczególnych przypadkach łatwe do zdefiniowania odstępstwa od tej odpowiedzi. Głośnik jest wymagany do uzyskania płaskiej odpowiedzi SPL w odległości zwykle 1 m. SPL w polu swobodnym w tym momencie odtwarza SPL w miejscu mikrofonu w polu dźwiękowym, powiedzmy, nagrywanego koncertu. Słuchając nagrania przed LS, głowa słuchacza zniekształca SPL liniowo przez dyfrakcję. Sygnały z jego ucha nie wykazują już płaskiej odpowiedzi. Jednak, nie musi to dotyczyć producenta głośników, ponieważ tak by się stało, gdyby słuchacz był obecny podczas występu na żywo. Z drugiej strony producent słuchawek jest bezpośrednio zainteresowany wytwarzaniem tych sygnałów dla ucha. Wymagania określone w normach doprowadziły do słuchawek skalibrowanych w polu swobodnym, których pasmo przenoszenia replikuje sygnały ucha dla głośnika z przodu, a także kalibracji pola rozproszonego, w której celem jest odtworzenie SPL w uchu słuchacz odbijający dźwięk ze wszystkich kierunków. Zakłada się, że wiele głośników ma niespójne źródła, z których każde ma płaską charakterystykę napięcia. producent słuchawek jest bezpośrednio zainteresowany wytwarzaniem tych sygnałów dla ucha. Wymagania określone w normach doprowadziły do słuchawek skalibrowanych w polu swobodnym, których pasmo przenoszenia replikuje sygnały ucha dla głośnika z przodu, a także kalibracji pola rozproszonego, w której celem jest odtworzenie SPL w uchu słuchacz odbijający dźwięk ze wszystkich kierunków. Zakłada się, że wiele głośników ma niespójne źródła, z których każde ma płaską charakterystykę napięcia. producent słuchawek jest bezpośrednio zainteresowany wytwarzaniem tych sygnałów dla ucha. Wymagania określone w normach doprowadziły do słuchawek skalibrowanych w polu swobodnym, których pasmo przenoszenia replikuje sygnały ucha dla głośnika z przodu, a także kalibracji pola rozproszonego, w której celem jest odtworzenie SPL w uchu słuchacz odbijający dźwięk ze wszystkich kierunków. Zakłada się, że wiele głośników ma niespójne źródła, z których każde ma płaską charakterystykę napięcia. w której celem jest odtworzenie SPL w uchu słuchacza w celu odbijania dźwięku ze wszystkich kierunków. Zakłada się, że wiele głośników ma niespójne źródła, z których każde ma płaską charakterystykę napięcia. w której celem jest odtworzenie SPL w uchu słuchacza w celu odbijania dźwięku ze wszystkich kierunków. Zakłada się, że wiele głośników ma niespójne źródła, z których każde ma płaską charakterystykę napięcia.
(a) Reakcja w polu swobodnym: w celu braku lepszego odniesienia różne międzynarodowe i inne normy ustanowiły następujące wymaganie dla słuchawek o wysokiej wierności: odpowiedź częstotliwościowa i odbierana głośność dla wejściowego sygnału monofonicznego o stałym napięciu ma na celu przybliżenie tego płaskiego głośnika odpowiedzi przed słuchaczem w warunkach bezechowych. Funkcja przenoszenia w polu swobodnym (FF) słuchawek przy danej częstotliwości (1000 Hz wybrana jako wartość odniesienia 0 dB) jest równa wartości w dB, o którą sygnał wzmacniający ma być wzmacniany, aby zapewnić jednakową głośność. Wymagane jest uśrednienie minimalnej liczby przedmiotów (zazwyczaj ośmiu). [...] Rysunek 14.76 pokazuje typowe pole tolerancji.
(b) Odpowiedź pola dyfuzyjnego: W latach 80. XX wieku rozpoczął się ruch mający na celu zastąpienie wymagań normy dla pola swobodnego innymi, gdzie odniesieniem jest pole dyfuzyjne (DF). Jak się okazało, dotarł do standardów, ale nie zastąpił starego. Obaj stoją teraz obok siebie. Niezadowolenie z odniesienia FF wynikało głównie z wielkości piku 2 kHz. Odpowiadał on za zabarwienie obrazu, ponieważ lokalizacja czołowa nie jest osiągana nawet dla sygnału monofonicznego. Sposób, w jaki aparat słuchowy postrzega podbarwienie, opisuje model asocjacyjny Theile (ryc. 14.62). Porównanie odpowiedzi ucha dla pola rozproszonego i pola swobodnego pokazano na ryc. 14.77. [...] Ponieważ subiektywny test słuchowy jest tym, który się liczy, Słuchawki FF były jak dotąd wyjątkiem od reguły. Dostępnych jest wiele różnych pasm częstotliwości, aby zaspokoić indywidualne preferencje, a każdy producent ma własną filozofię słuchawek z pasmami częstotliwości od płaskiego do wolnego pola i poza nim.
Ten problem różnicy HRTF powoduje również, że kątowe sterowniki (w słuchawkach) brzmią lepiej dla wystarczającej liczby osób, które sprzedają takie firmy jak Sennheiser. Kątowe przetworniki nie sprawiają jednak, że słuchawki brzmią jak głośniki.
W fabryce lub w laboratorium podczas pomiaru odpowiedzi częstotliwościowej stosuje się sztuczne ucho. Ten poniżej jest na poziomie laboratoryjnym; te na poziomie fabrycznym są nieco prostsze.
Znalazłem również metodologię stosowaną przez tę witrynę HeadRoom :
Jak testujemy odpowiedź częstotliwościową: Aby wykonać ten test, kierujemy słuchawkami serią 200 ton o tym samym napięciu i coraz większej częstotliwości. Następnie mierzymy moc wyjściową dla każdej częstotliwości za pomocą wysoko wyspecjalizowanego (i drogiego!) Mikrofonu Head Acoustics. Następnie stosujemy krzywą korekcji dźwięku, która usuwa funkcję transferu związaną z głową i dokładnie wytwarza dane do wyświetlenia.
Używany jest prawdopodobnie ten mikrofon . Wygląda na to, że faktycznie odwracają funkcję przenoszenia głowy / uszu manekina za pomocą oprogramowania, ponieważ mówią przed tym, że „Teoretycznie ten wykres powinien być płaską linią przy 0dB.” ... ale nie jestem całkowicie pewien, co robią ... ponieważ potem mówią, że „naturalnie brzmiące” słuchawki powinny być nieco wyższe w basie (około 3 lub 4 dB) między 40 Hz a 500 Hz. ” oraz „Słuchawki należy również rozwinąć w wysokich tonach, aby skompensować przetworniki znajdujące się tak blisko ucha; delikatnie nachylona płaska linia od 1 kHz do około 8-10 dB przy 20 kHz jest odpowiednia”. Co nie do końca się kompiluje w stosunku do ich poprzedniego stwierdzenia o odwracaniu / usuwaniu HRTF.
Patrząc na niektóre certyfikaty, które ludzie otrzymali od producenta (Sennheiser) dla modelu słuchawek (HD800) zastosowanego w tym przykładzie HeadRoom, wydaje się, że HeadRoom wyświetla dane bez założonego modelu korekty dla samego słuchawki (co wyjaśniałoby, dlaczego dają późniejsze interpretacje, więc ich początkowa „płaska” sugestia wprowadza w błąd), podczas gdy Sennheiser używa korekcji DF (pola rozproszonego), więc ich wykresy wyglądają prawie płasko.
To tylko przypuszczenie, że różnice w sprzęcie pomiarowym (i / lub między próbkami słuchawek) mogą tłumaczyć te różnice, ponieważ nie są one tak duże.
W każdym razie jest to obszar aktywnych i ciągłych badań (jak zapewne zgadłeś z ostatnich cytowanych powyżej zdań na temat DF). Niektórzy naukowcy HK dokonali tego całkiem sporo; Nie mam (bezpłatnego) dostępu do ich artykułów AES, ale niektóre dość obszerne streszczenia można przeczytać na blogu Internalfidelity 2013 , 2014, a także po linkach z głównego blogu autora Hean , Seana Olive ; jako skrót, oto kilka darmowych slajdów z ich ostatniej prezentacji (listopad 2015), które tam znaleziono. To całkiem sporo materiału ... Patrzę na to tylko krótko, ale motywem wydaje się, że DF nie jest wystarczająco dobry.
Oto kilka interesujących slajdów z jednej z ich wcześniejszych prezentacji . Po pierwsze, pełna charakterystyka częstotliwościowa (nie obcięta do 12 KHz) HD800 i na bardziej wyraźnym sprzęcie:
I być może najbardziej interesujące dla OP, basowe brzmienie Beats nie jest wcale takie atrakcyjne, przyznane w porównaniu ze słuchawkami, które kosztują cztery do sześciu razy więcej.
Prosta odpowiedź jest taka, że płaski układ odpowiedzi częstotliwościowej zbudowany z wzmacniaczy operacyjnych w celu skorygowania odpowiedzi przetwornika musi koniecznie mieć bardzo nierównomierną odpowiedź fazową w paśmie przenoszenia. Ta nierównomierność oznacza, że częstotliwości składowe dźwięków przejściowych ulegają nierównomiernemu opóźnieniu, co powoduje subtelne przejściowe zniekształcenie, które uniemożliwia prawidłowe rozpoznawanie składników dźwięku, co oznacza, że można odróżnić mniej wyraźnych dźwięków.
W związku z tym brzmi okropnie. Jakby cały dźwięk dochodził z rozmytej kuli, dokładnie wycentrowanej między uszami.
Kwestia HRTF w powyższej odpowiedzi jest tylko częścią tego - drugie jest to, że możliwy do zrealizowania obwód domeny analogowej może mieć jedynie przyczynową odpowiedź czasową, a do prawidłowej korekty sterownika potrzebny jest filtr przypadkowy.
Można to aproksymować cyfrowo za pomocą dopasowanego do sterownika filtra Finite Impulse Response, ale wymaga to niewielkiego opóźnienia czasowego, które wystarcza, aby filmy były wyjątkowo wstrząsające.
I nadal brzmi, jakby pochodził z twojej głowy, chyba że HRTF również zostanie ponownie dodany.
Nie jest to wcale takie proste.
Aby stworzyć „przezroczysty” system, nie potrzebujesz tylko płaskiego pasma przenoszenia w zakresie ludzkiego słuchu, potrzebujesz również fazy liniowej - płaskiego wykresu opóźnienia grupy - i istnieją pewne dowody sugerujące, że ta faza liniowa potrzebuje aby kontynuować aż do zaskakująco wysokiej częstotliwości, aby wskazówki kierunkowe nie zostały utracone.
Łatwo to zweryfikować eksperymentalnie: otwórz .wav jakiejś znanej muzyki w edytorze plików dźwiękowych, takich jak Audacity lub snd, i usuń jedną próbkę 44100 Hz z tylko jednego kanału i wyrównaj drugi kanał tak, aby pierwszy próbka dzieje się teraz z drugim z edytowanego kanału i odtwarza go.
Usłyszysz bardzo zauważalną różnicę, mimo że różnica ta wynosi zaledwie 1/44100 sekundy.
Zastanów się: dźwięk płynie około 340 mm / ms, więc przy 20 kHz jest to błąd czasowy plus minus jedno opóźnienie próbki lub 50 mikrosekund. To 17 mm przesunięcia dźwięku, a jednak słychać różnicę z brakiem 22,67 mikrosekund, czyli zaledwie 7,7 mm przesunięcia dźwięku.
Całkowite odcięcie ludzkiego słuchu ogólnie uważa się za około 20 kHz, więc co się dzieje?
Odpowiedź jest taka, że testy słuchu są przeprowadzane przy użyciu tonów testowych, które w większości składają się tylko z jednej częstotliwości na raz, przez dość długi czas w każdej części testu. Ale nasze wewnętrzne uszy składają się z fizycznej struktury, która wykonuje rodzaj FFT na dźwięku, jednocześnie wystawiając na to neurony, dzięki czemu neurony w różnych pozycjach korelują z różnymi częstotliwościami.
Poszczególne neurony mogą strzelać tylko tak szybko, więc w niektórych przypadkach kilka używa się jeden po drugim, aby nadążyć ... ale to działa tylko do około 4 kHz lub mniej więcej ... To jest dokładnie tam, gdzie nasze postrzeganie końców tonów. Jednak w mózgu nie ma nic, co mogłoby zatrzymać neuron, który zadziała, za każdym razem, gdy czuje się tak skłonny, więc jaka jest najważniejsza częstotliwość?
Chodzi o to, że niewielka różnica faz między uszami jest zauważalna, ale zamiast zmieniać sposób identyfikacji dźwięków (na podstawie ich struktury spektrograficznej) wpływa na to, jak postrzegamy ich kierunek. (co HRTF również zmienia!) Nawet jeśli wydaje się, że należy je „wycofać” z naszego zakresu słyszenia.
Odpowiedź jest taka, że punkt -3dB lub nawet -10dB jest nadal zbyt niski - musisz przejść do około -80 dB, aby uzyskać wszystko. A jeśli chcesz poradzić sobie z głośnym i cichym dźwiękiem, musisz być dobry na poziomie poniżej -100 dB. Jest mało prawdopodobne, aby test słuchania z pojedynczym tonem w ogóle się pojawił, głównie dlatego, że takie częstotliwości „liczą się” tylko wtedy, gdy dochodzą do fazy z innymi harmonicznymi w ramach ostrego, przejściowego dźwięku - ich energia w tym przypadku sumuje się, osiągając wystarczającą koncentrację aby wywołać odpowiedź neuronalną, nawet jeśli jako pojedyncze składowe częstotliwości w izolacji mogą być zbyt małe, aby je policzyć.
Inną kwestią jest to, że ciągle jesteśmy bombardowani przez wiele źródeł hałasu ultradźwiękowego, prawdopodobnie w dużej mierze z uszkodzonych neuronów w naszych własnych uszach, uszkodzonych przez nadmierny poziom dźwięku w pewnym wcześniejszym punkcie naszego życia. Trudno byłoby rozpoznać izolowany ton wyjściowy testu odsłuchowego na podstawie tak głośnego „lokalnego” hałasu!
Wymaga to zatem „przezroczystej” konstrukcji systemu, aby zastosować znacznie wyższą częstotliwość dolnoprzepustową, aby istniało miejsce dla ludzkiego dolnoprzepustowego do zaniknięcia (z własną modulacją faz, do której mózg jest już „skalibrowany”) przed systemem modulacja fazowa zaczyna zmieniać kształt stanów nieustalonych i przesuwać je w czasie, tak że mózg nie może już rozpoznać, do którego dźwięku należy.
W przypadku słuchawek o wiele łatwiej jest po prostu skonstruować je tak, aby posiadały pojedynczy sterownik szerokopasmowy o wystarczającej przepustowości i polegać na bardzo wysokiej naturalnej odpowiedzi częstotliwościowej „nieskorygowanego” przetwornika, aby zapobiec zniekształceniom czasowym. Działa to znacznie lepiej w przypadku słuchawek, ponieważ niewielka masa kierowcy dobrze nadaje się do tego stanu.
Powód potrzeby liniowości fazowej jest głęboko zakorzeniony w dualności w dziedzinie czasu w dziedzinie częstotliwości, podobnie jak powód, dla którego nie można zbudować filtra zerowego opóźnienia, który mógłby „idealnie skorygować” dowolny rzeczywisty system fizyczny.
Powodem jest to, że „liniowość fazy” ma znaczenie, a nie „płaskość fazy”, ponieważ ogólne nachylenie krzywej fazowej nie ma znaczenia - w dualności każde nachylenie fazy jest po prostu równoważne stałemu opóźnieniu czasowemu.
Ucho zewnętrzne każdego człowieka ma inny kształt, a zatem inna funkcja przenoszenia występuje przy nieco innych częstotliwościach. Twój mózg jest przyzwyczajony do tego, co ma, z własnymi wyraźnymi rezonansami. Jeśli użyjesz niewłaściwego, w rzeczywistości zabrzmi to gorzej, ponieważ korekty, do których przyzwyczajony jest Twój mózg, nie będą już odpowiadały korektom w funkcji przenoszenia słuchawek i będziesz miał coś gorszego niż brak anulowania rezonansu - będziesz miał dwa razy więcej niezrównoważonych biegunów / zer zaśmiecających opóźnienie fazowe i całkowicie zaburzających opóźnienia grupowe i relacje czasowe dotarcia komponentów.
Będzie to brzmiało bardzo niejasno i nie będziesz w stanie odczytać obrazowania przestrzennego zakodowanego przez nagranie.
Jeśli wykonasz ślepy test odsłuchu A / B, wszyscy wybiorą nieskorygowane słuchawki, które przynajmniej nie zniekształcają opóźnień grupy, aby ich mózgi mogły się do nich dostroić.
I właśnie dlatego aktywne słuchawki nie próbują się wyrównać. Po prostu zbyt trudno jest to naprawić.
Właśnie dlatego cyfrowa korekta pokoju jest niszą: ponieważ jej prawidłowe stosowanie wymaga częstych pomiarów, których wykonanie na żywo jest trudne / niemożliwe i o których konsumenci na ogół nie chcą wiedzieć.
Głównie dlatego, że rezonanse akustyczne w korygowanym pomieszczeniu, które w większości są częścią odpowiedzi basu, zmieniają się nieznacznie, gdy zmienia się ciśnienie powietrza, temperatura i wilgotność, zmieniając nieznacznie prędkość dźwięku, a tym samym zmieniając rezonanse od tego, co one były w momencie wykonania pomiaru.
źródło
Ciekawy artykuł i dyskusja. Mamy tendencję do myślenia, że twierdzenie Nyquista jest regułą, która ma zastosowanie wszędzie, a następnie dowiadujemy się, że tak nie jest. Mierzysz limit ludzkiego słuchu do 20 kHz za pomocą fal sinusoidalnych, a następnie próbkujesz z częstotliwością 44,1 lub 48 kHz z pewnością, że uchwyciłeś wszystko, co może usłyszeć ucho. Przesunięcie jednego kanału o jedną próbkę powoduje jednak znaczną zmianę, chociaż różnica chwilowo przekracza 20 kHz.
W przypadku ruchomych obrazów uważamy, że oko integruje obrazy o częstotliwości powyżej 20 klatek na sekundę. Tak więc film jest nagrywany z prędkością 24 klatek na sekundę i odtwarzany z 2x migawką w celu zmniejszenia migotania (48 klatek na sekundę); Telewizor ma częstotliwość odświeżania 50 lub 60 Hz w zależności od regionu. Niektórzy z nas widzą migotanie częstotliwości 50 Hz, szczególnie jeśli dorastaliśmy z częstotliwością 60 Hz. Ale tutaj jest ciekawie. Na konferencjach Tech Retreat i SMPTE w Hollywood Professional Association w ciągu ostatnich kilku lat wykazano, że przeciętny widz widzi znaczną poprawę jakości, gdy natywna ramka jest przedłużana z 60 Hz do 120 Hz. Co jeszcze bardziej zaskakujące, ci sami widzowie zauważyli podobną poprawę przy zwiększaniu częstotliwości klatek ze 120 do 240 Hz. Nyquist powiedziałby nam, że jeśli nie widzimy liczby klatek na sekundę na 24, musimy jedynie podwoić liczbę klatek na sekundę, aby zagwarantować uchwycenie wszystkiego, co oko może rozwiązać; jednak tutaj mamy 10-krotną liczbę klatek na sekundę i wciąż zauważamy zauważalne różnice.
Najwyraźniej dzieje się tutaj więcej. W przypadku obrazowania ruchu ruch na obrazie wpływa na wymaganą liczbę klatek na sekundę. A w przypadku audio oczekiwałbym, że złożoność i gęstość pejzażu dźwiękowego determinuje potrzebną rozdzielczość dźwięku. Wszystkie te dźwięki zależą znacznie bardziej od ich spójności fazowej niż odpowiedzi częstotliwościowej, aby zapewnić artykulację potrzebną do obrazowania.
źródło