Teoria leżąca u podstaw liniowego kodowania predykcyjnego (LPC)

9
  • Jaka jest teoria LPC?
  • Dlaczego mówi się, że niektóre implementacje LPC są bardziej tolerancyjne dla kwantyzacji błędów transmisji lub kodowania niż inne schematy kodowania głosu ze skompresowaniem?

  • Czy metody LPC mogą być również stosowane do wygładzania lub krótkoterminowego „przewidywania” podobnie do metod filtrowania Kalmana?

  • Na jakich warunkach lub ograniczeniach stosowanie LPC jest ważne?
hotpaw2
źródło
„Dlaczego mówi się, że LPC jest bardziej tolerancyjny wobec błędów transmisji lub błędów kodowania niż niektóre inne schematy kodowania głosu ze skompresowaniem?” Kto to powiedział? Nie znam LPC zbyt dobrze, ale pomyślałem, że ma to związek ze zmniejszeniem redundancji, co miałoby odwrotny skutek.
endolith
To pytanie jest mylące, ponieważ opiera się na fałszywych przesłankach. Zamknij i popraw to.
Dipan Mehta
Tutaj jest wiele pytań i przesłanek. Który z nich Twoim zdaniem wymaga naprawy?
hotpaw2
1
To stwierdzenie Why are(were) certain implementations of LPC said to be more tolerant of transmission or encoding errors quantization than other compressed voice encoding schemes?jest raczej fałszywe. Czy możesz przytoczyć jakieś odniesienie, które wyraźnie mówi, co jest lepsze od innych?
Dipan Mehta
1
To właściwie moje pytanie. Słyszałem to gdzieś, ale nie wiem, dlaczego to zostało powiedziane.
hotpaw2

Odpowiedzi:

14

Po pierwsze, powiedzenie, że liniowe kodowanie predykcyjne (LPC) jest „bardziej tolerancyjne dla błędów transmisji lub błędów kodowania”, nie jest do końca prawdą. Forma, w jakiej współczynniki są przekazywane, robi dużą różnicę. Na przykład, jeśli rozwiązane są współczynniki predykcji liniowej, mogą one być bardzo wrażliwe na kwantyzację, podobnie jak współczynniki filtra IIR wyższego rzędu (dzieje się tak, ponieważ filtr syntezy będzie IIR, ale o tym później). Jeśli jednak zostaną przesłane w innej formie, problem ten można łatwo rozwiązać.

Jednym ze sposobów jest przeniesienie współczynników odbicia. Jeśli rekurencyjnie rozwiążesz dla filtru predykcji liniowej k-tego rzędu, najwyższy współczynnik rzędu na każdym etapie nazywa się współczynnikiem odbicia. Można ich używać razem, aby całkowicie scharakteryzować system (co można łatwo zobaczyć z rekurencji Levinsona). W rzeczywistości możesz użyć ich wszystkich razem, aby utworzyć filtr sieciowy. Te filtry są często używane, gdy kwantyzacja stanowi problem, ponieważ są znacznie bardziej odporne na małe liczby bitów. Ponadto, jeśli wielkość tych współczynników odbicia jest ograniczona przez jedność, masz gwarancję stabilnego filtra BIBO, który jest krytyczny dla LPC, w którym filtr jest używany do syntezy twojego sygnału. Istnieją inne metody, takie jak liniowe pary widmowe, które są często używane, ale nie są

Aby odpowiedzieć na pierwsze pytanie, teoria LPC obraca się wokół modelowania dróg głosowych. Zasadniczo modelujemy mowę jako powietrze wibrujące jako wejście do rurki o jakiejś strukturze. Możesz poszukać niektórych zasobów, które są bardziej szczegółowe w celu dopracowania tego modelu (długość rur, intensywność powietrza, struktura itp.). Zasoby te odnoszą te struktury bezpośrednio do filtrów IIR reagujących na różne bodźce, na przykład biały szum.

Kiedy więc rozwiązujemy współczynniki predykcji liniowej, szukamy takich współczynników, że jeśli wprowadzimy nasz sygnał (na przykład głos) do filtra FIR utworzonego ze współczynników, otrzymamy biały szum jako wyjście. Zastanów się, co to znaczy. Wkładamy wysokoskorelowany sygnał i wysyłanie sekwencji białego szumu. W efekcie usuwamy całą liniową zależność tego sygnału. Innym sposobem spojrzenia na to jest to, że wszystkie znaczące informacje są zawarte we współczynnikach, które usuwają tę liniową zależność. Dlatego możemy przenieść te współczynniki (lub niektóre ich formy jak wyżej), a odbiorca może odtworzyć sygnał. Odbywa się to poprzez odwrócenie liniowego filtra predykcyjnego FIR w celu utworzenia filtra IIR i wprowadzenie białego szumu. Zatem kompresja pochodzi z usunięcia tej liniowej zależności i przeniesienia współczynników. Właśnie dlatego metoda Burga jest czasami określana jako metoda maksymalnej entropii, ponieważ ma ona na celu maksymalizację „losowości” lub bieli szumu wyjściowego w filtrze predykcji liniowej. Inny sposób na to spojrzeć,

Aby odpowiedzieć na ostatnie pytanie, nie jestem pewien, o co pytasz całkowicie. LPC lub liniowe kodowanie predykcyjne ma na celu „kompresowanie” sygnału, zakładając, że można go skutecznie modelować, jak omówiono wcześniej. Z pewnością możesz użyć przewidywania liniowego, aby wykonać „przewidywanie krótkoterminowe”, jak już wspomniałeś. Jest to domyślna podstawa metod AR wysokiej rozdzielczości wykorzystywanych do szacowania gęstości widmowej mocy. Sekwencję autokorelacji można rekurencyjnie wydłużyć z jej skończonej postaci z ograniczonego rekordu danych do nieskończoności jako teoretyczną sekwencję autokorelacji sekwencji nierozwiniętej. Z tego powodu metody AR oszacowania PSD nie wykazują zjawisk bocznych.

Bryan
źródło
1
„teoria LPC obraca się wokół modelowania dróg głosowych” Czy to zawsze prawda? FLAC korzysta z LPC na ogólnych przebiegach audio, nie tylko na głos.
endolith
3
Przepraszam, pierwotnie nauczyłem się tego poprzez analogię akordów głosowych jako modelu fizycznego, z którego to pochodzi. Jak powiedziałem, są miejsca, w których zagłębiają się w to znacznie głębiej. Ale masz rację, LPC nadaje się do ogólnych przebiegów audio. Jak wspomniałem, działa dobrze na każdym spektrum impulsywnym. Następstwem tego jest słabe działanie na głośnych sygnałach, w których widmo jest mniej impulsywne (dzieje się tak, ponieważ głośne sygnały są lepiej modelowane jako procesy ARMA).
Bryan