Jeśli ludzie słyszą dźwięk o częstotliwości do 20 kHz, to dlaczego dźwięk muzyki jest próbkowany z częstotliwością 44,1 kHz?

60

W niektórych miejscach czytałem, że muzyka jest próbkowana z częstotliwością 44,1 kHz, podczas gdy słyszymy tylko do 20 kHz. Dlaczego tak jest

Soham De
źródło
1
Młodsi ludzie słyszą wyższe częstotliwości. Inne techniki nagrywania wykorzystują do 48 kHz.
Thorbjørn Ravn Andersen
15
Twierdzenie Nyquista: potrzebujesz dwóch próbek na każdym zamachu, aby określić częstotliwość fali.
matematyk
Ponieważ procesory są szybsze, pamięć jest tania, ale dobre filtry analogowe wciąż są trudne, sensowne mogą być nawet wyższe częstotliwości próbkowania (96 lub 192 kHz)
Nick T
2
@ ThorbjørnRavnAndersen Myślę, że 48 kHz jest powszechne, ponieważ dzieli się na 24, 25 i 30 fps używanych do produkcji wideo. 24 nie równomiernie wchodzi w 44100. O tym wspomina Wikipedia.
Nick T
4
@SohamDe Dzieje się tak, ponieważ jeśli próbkujesz sygnał audio 20 kHz dokładnie przy 20 kHz, nic nie słyszysz . Wyobraź to sobie, sinusoidę, która osiąga szczyt co 1/20 000 sekund. Cóż, jeśli próbkujesz to z dokładnie taką samą częstotliwością, wtedy próbkujesz tylko szczyty (lub węzły lub inny poziom, na którym próbujesz to próbować). Kiedy odtwarzasz sygnał z cyfrowej linii, otrzymujesz tylko płaską linię. Ta koncepcja nazywa się aliasingiem i sprawia, że ​​musisz próbkować co najmniej dwa razy więcej niż maksymalna częstotliwość, którą chcesz słyszeć. 44 100 Hz jest wygodne, ponieważ można je podzielić przez potęgę 2.
MichaelK

Odpowiedzi:

89
  1. Częstotliwość próbkowania rzeczywistego sygnału musi być większa niż dwukrotność szerokości pasma sygnału. Dźwięk praktycznie zaczyna się od 0 Hz, więc najwyższa częstotliwość obecna w dźwięku nagranym przy 44,1 kHz wynosi 22,05 kHz (szerokość pasma 22,05 kHz).
  2. Idealne filtry ścianowe są matematycznie niemożliwe, więc nie możemy po prostu idealnie odciąć częstotliwości powyżej 20 kHz. Dodatkowe 2 kHz przeznaczone są na zejście filtrów; to „pokój wiggle”, w którym dźwięk może mieć alias z powodu niedoskonałych filtrów, ale go nie słyszymy.
  3. Konkretna wartość 44,1 kHz była zgodna z zastosowanymi wówczas częstotliwościami klatek wideo PAL i NTSC.

Należy pamiętać, że uzasadnienie opublikowano w wielu miejscach: Wikipedia: Dlaczego 44,1 kHz?

endolit
źródło
9
Cześć, naprawdę zgadzam się z twoją odpowiedzią, ale ta „podwójna najwyższa częstotliwość” bardzo szybko gryzie początkujących, ponieważ w Nyquist chodzi o przepustowość, a nie najwyższą częstotliwość; Poszedłem i nieco zmodyfikowałem twoją odpowiedź. Sprawdź, czy nie masz nic przeciwko.
Marcus Müller
2
@Ruslan: Wikipedia jest w tym całkiem dobra.
jojek
2
@BrianDrummond Więc edytuj?
endolith,
3
@ MarcusMüller początkujący, który został ugryziony przez „Nyqvist jest najwyższą dozwoloną częstotliwością”, i tak zostanie ugryziony przez aliasing artefaktów ... Następnie zrozumieją, w jaki sposób dowolny zakres częstotliwości pasma jest demodulowany do jednego z zakresu od do . Δf0Δf=fs/2
lewo około
1
Może nie być w stanie odróżnić dźwięku 19 999,9 Hz z dziesięcioma harmonicznymi lub 20 000,1 Hz z dziewięcioma, jeśli usłyszy się je osobno, ale nie oznacza to, że przejście między nimi nie byłoby słyszalne. Posiadanie filtra z bardziej stopniowym odcięciem pozwoliłoby uniknąć takich problemów.
supercat
72

44,100 zostało wybrane przez Sony, ponieważ jest to iloczyn kwadratów pierwszych czterech liczb pierwszych. Dzięki temu można ją podzielić przez wiele innych liczb całkowitych , co jest przydatną właściwością w próbkowaniu cyfrowym.

44100 = 2^2 * 3^2 * 5^2 * 7^2

Jak zauważyłeś, 44100 jest również ponad dwukrotnie większy niż ludzki słuch. Tuż nad częścią filtrów daje pewną swobodę, dlatego czyni je mniej kosztowne (mniej chipy odrzucone).

Jak zauważa Russell w komentarzach, podzielny przez wiele innych liczb całkowitych miał natychmiastową korzyść w momencie wyboru częstotliwości próbkowania. Wczesne cyfrowe audio zostało nagrane na istniejących analogowych nośnikach zapisu wideo, które obsługiwały, w zależności od regionu, specyfikację wideo NTSC lub PAL . NTSC i PAL miały różne szybkości linii na pole i pól na sekundę, których LCM (wraz z próbkami na linię) wynosi 44100 .

dotancohen
źródło
12
Wybór nie polegał tylko na uzyskaniu wielu czynników głównych, ale konkretnie na dobrym wykorzystaniu sprzętu do nagrywania wideo NTSC i PAL do przechowywania cyfrowych masterów. en.wikipedia.org/wiki/44,100_Hz#Recording_on_video_equipment
Russell Borogove
3
@RussellBorogove: Dziękuję. Zgodnie z linkiem Wiki 44100 to LCM częstotliwości próbkowania stawek funkcji wideo NTSC i PAL . Jest to dość bezpośrednia konsekwencja bycia liczbą z tak wieloma czynnikami i uważam, że masz rację, że koń prowadził wózek według tej specyfikacji.
dotancohen
1
Podzielny przez wiele liczb, ale nie przez 8 :)
Bogdan Alexandru
(Wikipedia twierdzi, że różne częstotliwości od 40,5 do 46,8 kHz spełniałyby te kryteria, a 44,1 kHz zostało wybrane, aby zapewnić pasmo przejściowe dla filtra antypoślizgowego)
endolith
2
@BogdanAlexandru Również niepodzielne przez 1 ms Ramki USB: D
endolith
13

Szybkość Nyquista przekracza dwukrotność limitu pasma sygnału pasma podstawowego, który chcesz przechwycić bez dwuznaczności (np. Aliasing).

Próbkuj z częstotliwością niższą niż dwa razy 20 kHz, a nie będziesz w stanie odróżnić bardzo wysokich i bardzo niskich częstotliwości po prostu patrząc na próbki, ze względu na aliasing.

Dodano: Należy pamiętać, że każdy sygnał o skończonej długości ma nieskończoną obsługę w dziedzinie częstotliwości, dlatego nie jest ściśle ograniczony pasmem. Jest to kolejny powód, dla którego próbkowanie dowolnego nieskończonego źródła dźwięku nieco powyżej dwukrotnie widma najwyższej częstotliwości (w sygnale pasma podstawowego) jest wymagane, aby uniknąć znacznego aliasingu (poza tylko przyczynami skończonego przejścia filtra).

hotpaw2
źródło
Cześć, naprawdę zgadzam się z twoją odpowiedzią, ale ta „podwójna najwyższa częstotliwość” bardzo szybko gryzie początkujących, ponieważ w Nyquist chodzi o przepustowość, a nie najwyższą częstotliwość; Poszedłem i nieco zmodyfikowałem twoją odpowiedź. Sprawdź, czy nie masz nic przeciwko.
Marcus Müller
6
@ MarcusMüller, ponieważ „początkujący” do próbkowania zaczynają się od próbkowania sygnałów pasma podstawowego , a nie sygnałów pasmowych , tak naprawdę chodzi o najwyższą częstotliwość (czasami nazywaną „bandlimit”), a nie szerokość pasma (co ma dodatkową dwuznaczność dotyczącą jednostronnego lub dwustronnego pasmo).
Robert Bristol-Johnson
@ robertbristow-johnson nie spojrzał na tę dwuznaczność. Hm; Lubię podejście bandlimit!
Marcus Müller
3
w artykule w Wikipedii nazywamy to „ ” i chociaż Shannon powiedział, że jest wystarczający, zakładał skończoną energię, więc nie ma sinusoid (które mają nieskończoną energię i mogą również umieścić delty diraca o ). jeśli dopuścisz sinusoidę na częstotliwości , to jest to bardziej często stwierdzany . Bfs2B±BBfs>2B
Robert Bristol-Johnson
10

Zasadniczo podwojenie szerokości pasma jest powszechnym wymogiem przy próbkowaniu sygnału, dlatego kHz to minimum. Następnie nieco więcej jest przydatne, aby poradzić sobie z niedoskonałym filtrowaniem i kwantyzacją . Szczegóły poniżej.2×20=40

Teoretycznie nie potrzebujesz tego, co jest wymagane w praktyce. Jest to zgodne z cytatem (przypisywanym wielu):

Teoretycznie nie ma różnicy między teorią a praktyką. W praktyce jest.

Nie jestem ekspertem od dźwięku, ale zostałem przeszkolony przez osoby próbujące / kompresujące dźwięk wysokiej jakości. Moja wiedza może być zardzewiała, weź ją ostrożnie.

Po pierwsze, standardowa teoria próbkowania działa pod pewnymi założeniami: układami liniowymi i niezmiennością czasową. Następnie znane jest zjawisko ciągłego ograniczania pasma, które teoretycznie może być próbkowane przy około dwukrotnej szerokości pasma (lub dwukrotności maksymalnej częstotliwości dla sygnałów pasma podstawowego) bez strat. „Wskaźnik Nyquista” jest często definiowany jako:

minimalny poziom, przy którym sygnał może być próbkowany bez wprowadzania błędów

Jest to część analityczna „twierdzenia o próbkowaniu”. „Może być” jest ważne. Istnieje część syntezy: ciągły sygnał „ można zrekonstruować” analogicznie za pomocą sinusów kardynalnych. Nie jest to jedyna technika i nie uwzględnia wstępnego filtrowania dolnoprzepustowego, nieliniowego (takiego jak kwantyzacja, nasycenie) i innych czynników wariacyjnych.

Ludzki słuch nie jest prostym tematem. Przyjmuje się, że ludzie słyszą częstotliwości od 20 Hz do 20 000 Hz. Ale takie dokładne granice w Hertz nie są cechą natury dla wszystkich ludzi. Stopniowa utrata wrażliwości na wyższe częstotliwości jest częsta z wiekiem. Z drugiej strony:

W idealnych warunkach laboratoryjnych ludzie słyszą dźwięk o częstotliwości tak niskiej jak 12 Hz i tak wysokiej jak 28 kHz, chociaż próg gwałtownie wzrasta przy 15 kHz u dorosłych

Słuch nie jest liniowy: istnieją progi przesłuchania i cierpienia . Nie jest niezmienny w czasie. Istnieją efekty maskowania zarówno w czasie, jak i częstotliwości.

Jeśli pasmo od 20 Hz do 20 000 Hz jest powszechnym zakresem, a 40 000 Hz teoretycznie powinno wystarczyć, trochę więcej potrzeba, aby poradzić sobie z dodatkowymi zniekształceniami. Ogólna zasada mówi, że 10% więcej jest w porządku ( -krotność pasma sygnału) i 44 100 Hz to robi. Wraca do późnych lat siedemdziesiątych. Dlaczego nie używa się 44 000 Hz? Głównie ze względu na standardy wyznaczane przez popularność płyt CD, których technologia jak zwykle opiera się na kompromisie. Ponadto 44,100 to iloczyn kwadratów pierwszych czterech liczb pierwszych ( ), stąd ma małe czynniki, korzystne dla obliczeń (jak FFT).2.2×22×32×52×72

Tak więc od do (i wielokrotności) mamy równowagę w zakresie bezpieczeństwa, kwantyzacji, użyteczności, obliczeń i standardów.2×2044.1

Istnieją inne opcje: na przykład format DAT został wydany z próbkowaniem 48 kHz, z początkowo trudną konwersją. 96 kHz jest omówione w odniesieniu do kwantyzacji (lub głębokości bitów) w Jakiej częstotliwości próbkowania i głębokości bitów należy użyć? Jest to temat kontrowersyjny, patrz wersety 24-bitowe 48 kHz 24-bitowe 96 kHz . Możesz na przykład sprawdzić częstotliwość próbkowania Audacity .

Laurent Duval
źródło
2
1. Odpowiedź na pytanie brzmi, że twierdzenie Nyquista nakazuje> 40 kHz, a nie> 20 kHz. 2. Ani dolny słuch, ani format CD nie jest ograniczony do 20 Hz. Każdy wystarczająco duży organ piszczałkowy może wytwarzać dźwięk 16 Hz, a płyta CD może go łatwo odtworzyć. Niektóre narządy spadają do 8 Hz, co zaczyna być postrzegane jako pojedyncze wibracje, ale które CD może ponownie odtworzyć.
user207421,
Zgadzam się z twoim komentarzem, z wyjątkiem „dyktuje” (jest to warunek „jeśli”). Czy mógłbyś wskazać, gdzie się od niego odstąpiłem?
Laurent Duval,
1
Mam tylko jeden dodatek do odpowiedzi @LaurentDuval. Mowa, muzyka i dźwięk to w ogólności sygnały niestacjonarne. Chociaż są one skutecznie ograniczone, ale nie wiemy jeszcze, w jaki sposób ludzkie ucho przetwarza sygnał ciągłego czasu na wystrzeliwanie nerwów, które ułatwiają nam percepcję dźwięku. Często twierdzi się, że niektórzy ludzie mają „złote uszy” i mogą odróżnić nagrania 44,1 kHz od 96 kHz. Ponadto muszę jeszcze potwierdzić, że wydaje się, że wyższe częstotliwości próbkowania sprzyjają postrzeganiu dodatkowych wskazówek, takich jak lokalizacja w nagraniach dwuusznych.
Neeks
0

Odpowiedź na pytanie, dlaczego wynosi dokładnie 44,1 kHz, została już wyjaśniona - ale aby skupić się na aspekcie pytania związanego z ograniczeniem ludzkiej percepcji, powód jest dość prosty.

Rozdzielczość w czasie musi być wystarczająca, aby móc wygenerować wszystkie możliwe kształty fali do wyczuwalnego limitu. Zgodnie z twierdzeniem o próbkowaniu rozdzielczość musi być taka, aby częstotliwość próbkowania była co najmniej dwa razy większa od tej częstotliwości. Intuicyjnie, przy najwyższej częstotliwości, potrzebujesz co najmniej 2 punktów, aby reprezentować maksimum i minimum twojego sygnału - dając tę ​​falę prostokątną Ascii-art:

_   _
 |_| |_
meduz
źródło
-1

Aby wiernie odtworzyć sygnał, im wyższa częstotliwość próbkowania, tym lepiej. Wybrano ~ 40 kHz, ponieważ była to niska częstotliwość próbkowania, dla której większość ludzi nie jest w stanie odróżnić (po rekonstrukcji). Po wprowadzeniu próbkowania audio pamięć i pamięć były drogie, a wyższe częstotliwości próbkowania nie były tanie.

Przy dwukrotnej górnej granicy ludzkiego słuchu dwie próbki na cykl są bardzo słabą rekonstrukcją, nawet jeśli spełniają kryteria Nyquista dla sygnałów próbkowania, prosty wykres przedstawiający falę sinusoidalną z dwiema próbkami na cykl pokaże, jak słabe są dwie próbki na cykl w odtwarzaniu kształtu fali. Możesz dosłownie zamienić sinusoidę w falę kwadratową; to dobrze, że przy 20 kHz nikt nie może powiedzieć. Założę się, że pies może.

mikrofon
źródło