Dlaczego wybieramy 44,1 kHz jako częstotliwość próbkowania nagrywania?

21

Uszy ludzi słyszą dźwięki o częstotliwościach od 20 Hz do 20 kHz. W oparciu o twierdzenie Nyquista szybkość zapisu powinna wynosić co najmniej 40 kHz. Czy to jest powód wyboru 44,1 kHz?

new_comer_forever
źródło
4
Został wybrany ze względu na zgodność z częstotliwością klatek wideo. Zobacz en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F
endolith
Częstotliwości powyżej około 12-15k dodają niewielką lub żadną wartość. Muzycznie. Większość osób powyżej 40 roku życia będzie mało przydatna. Słyszalność powyżej tego poziomu.
Chris Heath

Odpowiedzi:

32

Prawdą jest, że jak każda konwencja wybór 44,1 kHz jest rodzajem historycznego wypadku. Istnieje kilka innych historycznych powodów.

Oczywiście częstotliwość próbkowania musi przekraczać 40 kHz, jeśli chcesz uzyskać wysokiej jakości dźwięk o szerokości pasma 20 kHz.

Dyskutowano na temat uzyskania go na poziomie 48,0 kHz (było ładnie przystające do filmów 24 klatek na sekundę i pozornie 30 klatek na sekundę w telewizji w Ameryce Północnej), ale biorąc pod uwagę fizyczny rozmiar 120 mm, istniała granica ilości danych Płyta CD może pomieścić, a biorąc pod uwagę, że potrzebny jest schemat wykrywania błędów i korekty, który wymaga pewnej nadmiarowości danych, ilość danych logicznych, które może przechowywać dysk CD (około 700 MB), stanowi około połowy ilości danych fizycznych. Biorąc to wszystko pod uwagę, w częstotliwości 48 kHz, powiedziano nam, że nie może pomieścić wszystkich 9 Beethovena, ale że może pomieścić całą 9 ​​na jednej płycie z nieco wolniejszą prędkością. Więc 48 kHz jest wyłączone.

Dlaczego jednak 44,1, a nie 44,0 lub 45,0 kHz lub jakaś ładna okrągła liczba?

Wtedy w późnych latach 70. istniał produkt Sony F1, który został zaprojektowany do nagrywania cyfrowego dźwięku na łatwo dostępnej taśmie wideo (Betamax, nie VHS). Było to przy 44,1 kHz (a dokładniej 44,056 kHz). Ułatwi to przesyłanie nagrań bez ponownego próbkowania i interpolacji z F1 na CD lub w innym kierunku.

Rozumiem, jak to się dzieje, że pozioma częstotliwość skanowania w telewizorze NTSC wynosiła 15 750 kHz, a 44,1 kHz jest dokładnie 2,8 razy wyższa. Nie jestem do końca pewien, ale uważam, że to oznacza, że ​​możesz mieć trzy pary próbek stereo na linię poziomą, a na każde 5 linii, gdzie normalnie miałbyś 15 próbek, jest 14 próbek plus jedna dodatkowa próbka dla niektórych kontrola parzystości lub redundancja w F1. 14 próbek na 5 linii to tyle samo, co 2,8 próbek na linię poziomą i 15 750 linii na sekundę, co daje 44 100 próbek na sekundę.

Teraz, odkąd wprowadzono telewizor kolorowy, musieli nieznacznie obniżyć poziomą szybkość linii do 15734 linii na sekundę. Ta korekta prowadzi do 44 056 próbek na sekundę w Sony F1.

Robert Bristol-Johnson
źródło
8

Zobacz na przykład http://www1.cs.columbia.edu/~hgs/audio/44.1.html . Powinieneś używać częstotliwości próbkowania większej niż 40 kHz ze względu na filtry antyaliasingowe. Powinieneś mieć pewną rezerwę częstotliwości, aby zapobiec zniekształceniom sygnału z powodu nachylenia odpowiedzi filtra. Rzeczywista wartość 44,1 kHz została zasugerowana przez Sony Corp podczas dyskusji o standardzie nagrywania dźwięku w 1979 roku. W tym momencie powszechnie stosowali tę częstotliwość.

Jest to generalnie powód historyczny.

Serj
źródło
6

W przejściu do formatów cyfrowych audio były przechowywane w fali pseudo-wideo, która może być postrzegana jako czarna lub biała (reprezentująca format binarny).

Częstotliwość i struktura pola stosowane przez standard telewizyjny są następujące dla wideo 60 Hz: 245 linii na pole (z wyłączeniem pierwszych 35 pustych linii). Z trzema próbkami na linię, co daje 60 x 245 x 3 = 44100 = 44,1 KHz.

Konwencję tę zastosowano później w formacie CD ze względu na obawy dotyczące kompatybilności sprzętu (pierwszy sprzęt używany do tworzenia wzorców CD używanych do replikacji płyt CD był oparty na wideo).

Źródło: The Art of Sound Reproduction, str. 228

mhbuur
źródło
jeśli tak właśnie robi F1, muszę powiedzieć „stoję skorygowany”. założyłem, że F1 używa pustych linii.
Robert Bristol-Johnnson
cześć, właśnie przeczytałem tutaj, że „Kodowanie kolorów NTSC jest stosowane z sygnałem telewizyjnym Systemu M, który składa się z 30 / 1.001 (około 29,97) klatek wideo z przeplotem na sekundę. Każda klatka składa się z dwóch pól, z których każde składa się z 262,5 linie skanowania, w sumie 525 linii skanowania. 483 linii skanowania stanowi widoczny raster. Pozostała część (przedział wygaszania w pionie) pozwala na pionową synchronizację i powrót. ”
więc nawet 490 linii używa niektórych (oryginalnych NTSC) pustych linii.
Robert Bristol-Johnnson
0

Wydaje się, że granica słyszalności dla ludzi może być znacznie wyższa niż 20 kHz, jeśli spojrzeć na nią z perspektywy „dynamicznej” rozdzielczości czasowej, a nie typowych statycznych fal sinusoidalnych. Ciekawe komentarze na temat marginesu między 20 kHz a 22 kHz dla filtrowania rekonstrukcji. Właściwie Peter Craven ma dość ciekawą pracę na temat filtrowania zoptymalizowanego w dziedzinie czasu, która wymaga co najmniej 96 kHz dla odtwarzania hi-fi.

Paweł

Paweł
źródło
cóż, jest sposób, aby się dowiedzieć. nazywa się to testowaniem na ślepo AB . nie musi być podwójnie ślepy (ale zwykle jest). a moim zdaniem testy AB są lepsze niż testy ABX.
Robert Bristol-Johnnson
0

https://en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F Twierdzenie Nyquista – Shannona mówi, że częstotliwość próbkowania musi być większa niż dwukrotność maksymalnej częstotliwości, którą chce się odtworzyć. Ponieważ ludzki zakres słuchu wynosi od około 20 Hz do 20 000 Hz, częstotliwość próbkowania musiała być większa niż 40 kHz.

Ponadto przed próbkowaniem sygnały muszą być filtrowane dolnoprzepustowo, aby uniknąć aliasingu. Podczas gdy idealny filtr dolnoprzepustowy idealnie przepuszczałby częstotliwości poniżej 20 kHz (bez ich tłumienia) i idealnie odcinał częstotliwości powyżej 20 kHz, taki idealny filtr jest teoretycznie niemożliwy (nie jest przyczyną), więc w praktyce konieczne jest pasmo przejściowe, gdzie częstotliwości są częściowo tłumione. Im szersze jest to pasmo przejściowe, tym łatwiejszy i bardziej ekonomiczny jest filtr antyaliasingowy. Częstotliwość próbkowania 44,1 kHz pozwala na pasmo przejściowe 2,05 kHz.

Ponadto 44,100 jest iloczynem kwadratów pierwszych czterech liczb pierwszych (2 ^ 2 * 3 ^ 2 * 5 ^ 2 * 7 ^ 2), a zatem ma wiele użytecznych małych czynników.

zhong
źródło
więc jeśli zmienimy czas jednostkowy z drugiego na „farg” , czyli 1,001 sekundy, to co to zrobi z 44100 i jego wieloma przydatnymi małymi czynnikami?
Robert Bristol-Johnnson
-2

Poszukaj opisu [ http://batmobile.blogs.ilrt.org/audio-analysis-on-an-iphone . Twierdzenie zwane twierdzeniem Nyquista o próbkowaniu stwierdza, że ​​aby próbkować sygnał o częstotliwości X Hz bez znaczącej utraty jakości, należy próbkować z częstotliwością 2x. Granica ludzkiego słuchu wynosi około 20 kHz, co wymaga częstotliwości próbkowania około 40 kHz. Dlatego płyty CD są próbkowane z częstotliwością 44 kHz. tzn. każda sekunda nagrania na płycie CD zawiera 44 000 pomiarów najwyższej możliwej częstotliwości zawartej w nagraniu.

aash ma
źródło
Cóż,
niezupełnie
Częściowo z tego powodu. człowiek rzadko słyszy powyżej 20k, więc audiofilski zasięg jest nieco powyżej 40kHz, tj. 42, 43, 44. jeśli wysadzisz kogoś z ogromnymi falami sinusoidalnymi przy 22k, tylko dziecko ma szansę go usłyszeć. nietoperze mają 115 kHz, a niektóre delfiny mają częstotliwość 150 kHz, z wyjątkiem tego, że jest w wodzie, co brzmi wyraźniej. Sprawdź swoją percepcję wysokich częstotliwości online za pomocą nagrań ... tj. Tutaj audiocheck.net/audiotests_frequencycheckhigh.php
com. Prehensible