Rozpoznawanie wzorów dla danych czasowych

9

Próbuję wykryć i sklasyfikować dźwięki bez mowy. Obecnie używam serii ruchomych nakładających się widm mocy z dźwięków treningowych jako funkcji, których szukam.

Kiedy analizuję, po prostu obliczam tę samą liczbę nakładających się widm, aby liczba funkcji była taka sama. W tej chwili wydajność nie jest zbyt dobra, może wykryć tylko ciszę kontra brak ciszy.

Jakie są techniki wykrywania tego typu sygnału? Jedną z moich obaw jest to, że dla dźwięków o różnych długościach w dziedzinie czasu powstałyby różne długości wektorów cech, które więc nie mogę użyć tego samego klasyfikatora, utknąłem na tym.

audio cufmo
źródło

3

Czy próbujesz wykryć mowę a nie-mowę, czy też istnieją klasy dźwięków niemówionych, które próbujesz odróżnić? Nie jestem jednoznaczny z twojego pytania.

Myślę, że dobrym pierwszym podejściem byłoby zablokowanie sygnału w ramkach i obliczenie współczynników cepstralnych częstotliwości Mel (MFCC), a także delta-MFCC (różnice między MFCC sąsiadujących ramek) i MFCC delta-delta (różnice między MFCC w ramkach, które są dwie klatki od siebie). Nie jest to jedyny sposób, aby to zrobić, ale bez bardziej szczegółowej wiedzy o problematycznej dziedzinie jest to prawdopodobnie dobre miejsce na rozpoczęcie.

Wystarczy googling powinien dać ci dobre informacje na temat obliczania MFCC, jeśli jeszcze ich nie znasz. Zasadniczo bierzesz DFT, bierzesz wielkości, obliczasz energie w trójkątnych oknach odpowiadających ludzkiemu słyszeniu, bierz DCT tych współczynników, zasadniczo jako krok kompresji, a następnie odrzucaj współczynniki wyższego rzędu, zwykle biorąc tylko około pierwszych dwunastu współczynników . Mam wyjaśnienie znaczenia kroku DCT w tym poście: Jak interpretować krok DCT w procesie ekstrakcji MFCC?

Można wtedy, powiedzmy, użyć tych współczynników jako funkcji SVM.

sznurek
źródło

2

Myślę, że generalnie patrzysz na problem z wykrywaniem mowy , który istnieje od zawsze, i istnieje mnóstwo metod, aby to zrobić, opracowanych do tej pory. Wygląda na to , że na przykład ten papier również wykorzystuje techniki spektralne, więc możesz zacząć od tego. Dobra stara wyszukiwarka Google zwróci wiele wyników z linkami do artykułów i artykułów.

Zasadniczo istnieją dwa dość różne podejścia do wykrywania mowy. Jedno pozwala na założenie dobrego stosunku mowy do szumu (głos jest głośniejszy niż hałas otoczenia, muzyka, inna nieistotna treść), a drugie nie przyjmuje takich założeń i próbuje zidentyfikować obecność mowy w bardzo głośnych sygnałach (mowa zakopana w hałas). W zależności od tego, co próbujesz zrobić, skończysz na bardzo różnych dokumentach. Być może, jeśli nieco wyjaśnisz swoje pytanie i rozwiniesz rodzaje sygnałów mowy, z którymi pracujesz, ta strona może być bardziej pomocna.

Phonon
źródło

Rozpoznawanie wzorów dla danych czasowych

Odpowiedzi: