Czy ktoś może wyjaśnić normalizację cepstralną, jak wpływa na to właściwość równoważności splotu? Czy należy wykonywać CMN w rozpoznawaniu głośników na podstawie MFCC? Dlaczego właściwość splotu jest podstawową potrzebą MFCC?
Jestem bardzo nowy w tym przetwarzaniu sygnału. Proszę pomóż
Odpowiedzi:
Żeby było jasne - ta właściwość nie jest fundamentalna, ale ważna . Jest to podstawowa różnica, jeśli chodzi o zastosowanie DCT zamiast DFT do obliczania widma.
Dlaczego dokonujemy normalizacji średniej cepstralnej
W rozpoznawaniu głośników chcemy usunąć wszelkie efekty kanałów (reakcja impulsowa ścieżki głosowej, ścieżki audio, pomieszczenia itp.). Pod warunkiem, że sygnałem wejściowym jest a odpowiedź impulsowa kanału jest podawana przez h [ n ]x[n] h[n] , zarejestrowany sygnał jest liniową splotą obu:
Biorąc transformację Fouriera otrzymujemy:
ze względu na właściwość równoważności splotu i mnożenia FT - dlatego jest to tak ważna właściwość FFT na tym etapie .
Kolejnym krokiem w obliczeniach cepstrum jest przyjęcie logarytmu widma:
Co to jest normalizacja cepstralna?
Teraz wiemy, że w dziedzinie cepstralnej wszelkie zniekształcenia splotowe są reprezentowane przez dodawanie. Załóżmy, że wszystkie z nich są nieruchome (co jest silnym założeniem, ponieważ drogi głosowe i odpowiedź kanału nie zmieniają się), a stacjonarna część mowy jest znikoma. Możemy zaobserwować, że dla każdej i-tej ramki prawdą jest:
Biorąc średnią z wszystkich klatek, które otrzymujemy
Określanie różnicy:
W efekcie otrzymujemy sygnał z usuniętymi zniekształceniami kanałów. Ułożenie wszystkich powyższych równań w prostym języku angielskim:
Czy konieczna jest normalizacja średniej cepstralnej?
Nie jest to obowiązkowe, zwłaszcza gdy próbujesz rozpoznać jednego mówcę w jednym środowisku. W rzeczywistości może nawet pogorszyć wyniki, ponieważ jest podatny na błędy wynikające z szumu addytywnego:
In poor SNR conditions marked term can overtake the estimation.
Although when CMS is performed, you can usually gain few extra percent. If you add to that performance gain from derivatives of coefficients then you get a real boost of your recognition rate. The final decision is up to you, especially that there are plenty of other methods used for the improvement of speech recognition systems.
źródło