Średnia normalizacja cepstralna

Żeby było jasne - ta właściwość nie jest fundamentalna, ale ważna . Jest to podstawowa różnica, jeśli chodzi o zastosowanie DCT zamiast DFT do obliczania widma.

Dlaczego dokonujemy normalizacji średniej cepstralnej

W rozpoznawaniu głośników chcemy usunąć wszelkie efekty kanałów (reakcja impulsowa ścieżki głosowej, ścieżki audio, pomieszczenia itp.). Pod warunkiem, że sygnałem wejściowym jest a odpowiedź impulsowa kanału jest podawana przez $x[n]$ $h[n]$ , zarejestrowany sygnał jest liniową splotą obu:

y [n] = x [n] ⋆ h [n]

$y[n] = x[n] \star h[n]$

Biorąc transformację Fouriera otrzymujemy:

Y [f] = X [f] \cdot H [f]

$Y[f] = X[f]\cdot H[f]$

ze względu na właściwość równoważności splotu i mnożenia FT - dlatego jest to tak ważna właściwość FFT na tym etapie .

Kolejnym krokiem w obliczeniach cepstrum jest przyjęcie logarytmu widma:

Y [q] = \log Y [f] = \log (X [f] \cdot H [f]) = X [q] + H [q]

$Y[q] = \log Y[f] = \log \left( X[f] \cdot H[f]\right) = X[q] + H[q]$

$\log(ab) = \log a +\log b$ $q$ jest kwerendą . Jak można zauważyć, przyjmując cepstrum splotu w dziedzinie czasu, uzyskujemy dodanie do domeny cepstral (quefrency).

Co to jest normalizacja cepstralna?

Teraz wiemy, że w dziedzinie cepstralnej wszelkie zniekształcenia splotowe są reprezentowane przez dodawanie. Załóżmy, że wszystkie z nich są nieruchome (co jest silnym założeniem, ponieważ drogi głosowe i odpowiedź kanału nie zmieniają się), a stacjonarna część mowy jest znikoma. Możemy zaobserwować, że dla każdej i-tej ramki prawdą jest:

Y_{i} [q] = H [q] + X_{i} [q]

$Y_i[q] = H[q] + X_i[q]$

Biorąc średnią z wszystkich klatek, które otrzymujemy

\frac{1}{N} \sum_{i} Y_{i} [q] = H [q] + \frac{1}{N} \sum_{i} X_{i} [q]

$\dfrac{1}{N}\sum_{i} Y_i[q] = H[q] + \dfrac{1}{N}\sum_{i} X_i[q]$

Określanie różnicy:

\begin{matrix} R_{i} [q] & = Y_{i} [q] - \frac{1}{N} \sum_{j} Y_{j} [q] \\ = H [q] + X_{i} [q] - (H [q] + \frac{1}{N} \sum_{j} X_{j} [q]) \\ = X_{i} [q] - \frac{1}{N} \sum_{j} X_{j} [q] \end{matrix}

$\begin{array} &R_i[q] &= Y_i[q] - \dfrac{1}{N}\sum_{j} Y_j[q]\\ & = H[q] + X_i[q] - \left(H[q] + \dfrac{1}{N}\sum_{j} X_j[q]\right) \\ & = X_i[q] - \dfrac{1}{N}\sum_{j} X_j[q]\\ \end{array}$

W efekcie otrzymujemy sygnał z usuniętymi zniekształceniami kanałów. Ułożenie wszystkich powyższych równań w prostym języku angielskim:

Oblicz cepstrum
Odejmij średnią z każdego współczynnika
Opcjonalnie podziel przez wariancję, aby wykonać normalizację średniej cepstralnej w przeciwieństwie do odejmowania.

Czy konieczna jest normalizacja średniej cepstralnej?

Nie jest to obowiązkowe, zwłaszcza gdy próbujesz rozpoznać jednego mówcę w jednym środowisku. W rzeczywistości może nawet pogorszyć wyniki, ponieważ jest podatny na błędy wynikające z szumu addytywnego:

y [n] = x [n] ⋆ h [n] + w [n]

$y[n] = x[n] \star h[n] + w[n]$

Y [f] = X [f] \cdot H [f] + W [f]

$Y[f] = X[f]\cdot H[f] + W[f]$

\log Y [f] = \log [X [f] (H [f] + \frac{W [f]}{X [f]})] = \log X [f] + \log (H [f] + \frac{W [f]}{X [f]})

$\log Y[f] = \log \left[X[f]\left(H[f]+\dfrac{W[f]}{X[f]} \right) \right] = \log X[f] +\log \left(H[f]+\color{red}{\dfrac{W[f]}{X[f]}} \right)$

In poor SNR conditions marked term can overtake the estimation.

Although when CMS is performed, you can usually gain few extra percent. If you add to that performance gain from derivatives of coefficients then you get a real boost of your recognition rate. The final decision is up to you, especially that there are plenty of other methods used for the improvement of speech recognition systems.

jojek
źródło

@mun: Glad it helped. Why not to mark answers to your questions as accepted so you could remove new-user restrictions?

jojek

@mun: Congrats! Now you post more links, vote up on questions and answers + flag posts.

jojek

thanks @jojek ..I am very new to these all.But am glad that I got my problem solved.

mun

@mun: Then I definitely suggest you to take a quick tour

jojek

In last answer, I cannot get what "add to that performance gain from derivatives of coefficients" actually mean. Can you give some simple explain? Thanks a lot

Shuai Wang

Średnia normalizacja cepstralna

Odpowiedzi:

Dlaczego dokonujemy normalizacji średniej cepstralnej

Co to jest normalizacja cepstralna?

Czy konieczna jest normalizacja średniej cepstralnej?