Nauka planu dla początkujących przetwarzających sygnały audio

13

Chciałbym rozpocząć naukę przetwarzania sygnałów audio. Istnieje wiele książek online i artykułów naukowych, z których wszystkie pomijają podstawy tego tematu.

Chciałbym poznać przybliżoną mapę drogową, którą można by rzec, aby pomyślnie nauczyć się przetwarzania sygnału audio.

Przeczytałem, że rachunek jest pierwszym krokiem przed rozpoczęciem analizy sygnału.

Wydaje mi się, że analiza sygnału audio to tylko część ogólnej wiedzy. Gdzie inne tematy to teoria muzyki, inżynieria dźwięku i programowanie.

Jeśli mogę poprosić osoby posiadające wiedzę na ten temat, aby zasugerować możliwe kroki w celu zrozumienia, jak analizować i przetwarzać / tworzyć sygnały audio.

jarryd
źródło
Zgadzam się, że podstawa rachunku różniczkowego (przynajmniej) będzie ważna, abyś miał szansę zrozumieć matematykę, którą możesz spotkać w tekście lub kursie teorii sygnałów i systemów. Najpierw upewnię się, że tam jesteś.
Jason R
1
Te slajdy mogą pomóc. Dostają niektóre z nie-matematycznych / inżynierskich podstaw przetwarzania audio i programowania dźwięku. blog.bjornroche.com/2011/11/…
Bjorn Roche

Odpowiedzi:

9

Nie wydaje mi się, żeby istniał jakiś punkt, który zagłębiałby się w złożoność DFT / FFT / IIR / FIR i falek bez uprzedniego zrozumienia, czym jest zasadniczo dźwięk i jakie są różne sposoby jego cyfrowego przedstawiania.

Czym jest ogólnie dźwięk (w powietrzu, a nie w wodzie lub innych materiałach):

  • Audio składa się z fal ciśnienia akustycznego
  • Powodują kompresję i rozrzedzenie powietrza
  • Fale te rozprzestrzeniają się na zewnątrz od źródła
  • Fale mogą zakłócać się wzajemnie, powodując szczyty i doliny
  • Fale mogą być pochłaniane i odbijane przez materiały

Jak audio jest reprezentowane elektrycznie:

  • Mikrofon i przedwzmacniacz przekształcają fale ciśnienia akustycznego w sygnał elektryczny
  • Zazwyczaj ten sygnał ma zarówno dodatnie, jak i ujemne napięcie (podobnie jak napięcia AC)
  • Taśmy magnetyczne przechowują te różnice tak, jak się pojawiają, stąd termin analog
  • Nasycenie występuje, gdy siła sygnału wejściowego jest równa limitom systemu (nie można dokładnie przedstawić żadnego wzrostu napięcia)
  • Obcinanie występuje, gdy sygnał wejściowy jest wyższy niż może być reprezentowany przez system, więc sygnał zostaje obcięty (lub zakryty na końcach)

Jak dźwięk jest reprezentowany cyfrowo:

  • Najpierw należy próbkować dźwięk za pomocą ADC (przetwornika analogowo-cyfrowego)
  • Próbkowanie polega na okresowym elektrycznym pomiarze sygnału audio
  • Ten okres nazywa się częstotliwością próbkowania i określa najwyższą częstotliwość, którą można przedstawić (limit NYQIST)
  • Limit nyquist to częstotliwość próbkowania / 2 (im bliżej limitu, tym słabiej reprezentowany jest sygnał)
  • Zakres bitów określa poziom szumu (-96dB dla 16 bitów vs -48dB dla 8 bitów)
  • Pojedyncza 16-bitowa próbka dźwięku może mieć (podpisaną) wartość od -32768 do 32767 (może to reprezentować zarówno ujemny, jak i dodatni wahanie sygnału analogowego)
  • Dozwolonych jest tylko 8 bitów na bajt (pod względem pamięci komputera), więc próbka 16 bitów musi być reprezentowana przez co najmniej 2 bajty
  • Kolejność przechowywania tych bajtów jest określana jako ich typ endian (duży lub mały)
  • Próbki stereo wymagają osobnej próbki dla każdego kanału, jednej dla lewej i drugiej dla prawej

Jakie są różne sposoby przechowywania cyfrowego dźwięku:

  • PCM (modulowany kodem pulsowym) jest najczęstszym nieskompresowanym sposobem cyfrowego przechowywania dźwięku
  • Istnieje wiele kompresji w celu zmniejszenia ilości wykorzystywanych danych, niektóre są bezstratne, inne są stratne
  • Pliki WAV są nieskompresowane i mogą być mono lub stereo (próbki z przeplotem)
  • Pliki MP3 są kompresowane, stratne i wykorzystują psychoakustikę, aby osiągnąć bardzo wysokie wskaźniki kompresji danych
  • Nawet najniższy zakres bitów (1 bit) może być przydatny w zależności od ich zastosowania, zwykle karty upominkowe odtwarzające dźwięk zapisany jako 1 bit

Jak lepiej zapoznać się z dźwiękiem w dziedzinie cyfrowej:

  • Rób i rób więcej! Pobierz program, taki jak audacity, i twórz różne pliki audio przy użyciu różnych częstotliwości próbkowania i zakresów bitów
  • Twórz dźwięki sinusoidalne / trójkątne / kwadratowe i piłokształtne i usłysz różnice
  • Naucz się słyszeć różnicę między typami, takimi jak 8-bitowy plik 10 kHz i 16-bitowy plik 44,1 kHz (jakość CD)
  • Eksperymentuj z filtrami górnoprzepustowymi / dolnoprzepustowymi / pasmowo-przepustowymi i usłysz różnice
  • Przesuwaj sygnały poza ich granicę nasycenia, aby zrozumieć, jak obcinanie wpływa na sygnał audio
  • Zastosuj obwiednie do sygnałów, jeśli twoje oprogramowanie ma taką możliwość
  • Istnieje różnica między zniekształceniem nieharmonicznym i harmonicznym, eksperymentuj z obydwoma
  • Użyj spektrogramu (FFT), aby zobaczyć te i inne sygnały, aby się z nimi zapoznać
  • Użyj wykresów liniowych i logarytmicznych, aby zobaczyć różnice
  • Próbkowanie w dół i w górę sygnałów i usłysz, jak to wpływa na dźwięk
  • Użyj różnych metod ditheringu (przy konwersji zakresów bitów) i usłysz różnice

Miejmy nadzieję, że da ci to pojęcie, czym jest cyfrowo reprezentowany dźwięk i jak brzmią różnice przed próbą jakiegokolwiek DSP. Zawsze łatwiej jest wiedzieć, że coś jest nie tak z analizą FFT, jeśli można rozpoznać, że wprowadzono na przykład sygnał 8-bitowy w porównaniu z sygnałem 16-bitowym lub że częstotliwość próbkowania została uszkodzona z powodu błędnego obliczenia błędu w transformacji.

Ronnied
źródło
Dziękuję za odpowiedź. Jestem jednak świadomy tych rzeczy i chciałbym teraz przejść do strony kodowania dsp.
jarryd