Średnia normalizacja cepstralna

15

Czy ktoś może wyjaśnić normalizację cepstralną, jak wpływa na to właściwość równoważności splotu? Czy należy wykonywać CMN w rozpoznawaniu głośników na podstawie MFCC? Dlaczego właściwość splotu jest podstawową potrzebą MFCC?

Jestem bardzo nowy w tym przetwarzaniu sygnału. Proszę pomóż

Mun
źródło
Czy bez użycia banku filtrów przekształcenie częstotliwości bezpośrednio w skalę Melsc będzie działało w procesie MFCC?
fioletowy

Odpowiedzi:

18

Żeby było jasne - ta właściwość nie jest fundamentalna, ale ważna . Jest to podstawowa różnica, jeśli chodzi o zastosowanie DCT zamiast DFT do obliczania widma.

Dlaczego dokonujemy normalizacji średniej cepstralnej

W rozpoznawaniu głośników chcemy usunąć wszelkie efekty kanałów (reakcja impulsowa ścieżki głosowej, ścieżki audio, pomieszczenia itp.). Pod warunkiem, że sygnałem wejściowym jest a odpowiedź impulsowa kanału jest podawana przez h [ n ]x[n]h[n] , zarejestrowany sygnał jest liniową splotą obu:

y[n]=x[n]h[n]

Biorąc transformację Fouriera otrzymujemy:

Y[f]=X[f]H[f]

ze względu na właściwość równoważności splotu i mnożenia FT - dlatego jest to tak ważna właściwość FFT na tym etapie .

Kolejnym krokiem w obliczeniach cepstrum jest przyjęcie logarytmu widma:

Y[q]=logY[f]=log(X[f]H[f])=X[q]+H[q]

log(ab)=loga+logbq jest kwerendą . Jak można zauważyć, przyjmując cepstrum splotu w dziedzinie czasu, uzyskujemy dodanie do domeny cepstral (quefrency).

Co to jest normalizacja cepstralna?

Teraz wiemy, że w dziedzinie cepstralnej wszelkie zniekształcenia splotowe są reprezentowane przez dodawanie. Załóżmy, że wszystkie z nich są nieruchome (co jest silnym założeniem, ponieważ drogi głosowe i odpowiedź kanału nie zmieniają się), a stacjonarna część mowy jest znikoma. Możemy zaobserwować, że dla każdej i-tej ramki prawdą jest:

Yi[q]=H[q]+Xi[q]

Biorąc średnią z wszystkich klatek, które otrzymujemy

1NiYi[q]=H[q]+1NiXi[q]

Określanie różnicy:

Ri[q]=Yi[q]1NjYj[q]=H[q]+Xi[q](H[q]+1NjXj[q])=Xi[q]1NjXj[q]

W efekcie otrzymujemy sygnał z usuniętymi zniekształceniami kanałów. Ułożenie wszystkich powyższych równań w prostym języku angielskim:

  • Oblicz cepstrum
  • Odejmij średnią z każdego współczynnika
  • Opcjonalnie podziel przez wariancję, aby wykonać normalizację średniej cepstralnej w przeciwieństwie do odejmowania.

Czy konieczna jest normalizacja średniej cepstralnej?

Nie jest to obowiązkowe, zwłaszcza gdy próbujesz rozpoznać jednego mówcę w jednym środowisku. W rzeczywistości może nawet pogorszyć wyniki, ponieważ jest podatny na błędy wynikające z szumu addytywnego:

y[n]=x[n]h[n]+w[n]

Y[f]=X[f]H[f]+W[f]

logY[f]=log[X[f](H[f]+W[f]X[f])]=logX[f]+log(H[f]+W[f]X[f])

In poor SNR conditions marked term can overtake the estimation.

Although when CMS is performed, you can usually gain few extra percent. If you add to that performance gain from derivatives of coefficients then you get a real boost of your recognition rate. The final decision is up to you, especially that there are plenty of other methods used for the improvement of speech recognition systems.

jojek
źródło
@mun: Glad it helped. Why not to mark answers to your questions as accepted so you could remove new-user restrictions?
jojek
@mun: Congrats! Now you post more links, vote up on questions and answers + flag posts.
jojek
thanks @jojek ..I am very new to these all.But am glad that I got my problem solved.
mun
@mun: Then I definitely suggest you to take a quick tour
jojek
In last answer, I cannot get what "add to that performance gain from derivatives of coefficients" actually mean. Can you give some simple explain? Thanks a lot
Shuai Wang