Czym różni się redukcja szumów w rozpoznawaniu mowy od redukcji szumów, która ma uczynić mowę bardziej „zrozumiałą” dla ludzi?

10

to pytanie interesuje mnie od dłuższego czasu, głównie dlatego, że sam pracuję nad redukcją szumów dla istniejącego systemu rozpoznawania mowy.

Większość artykułów na temat technik redukcji hałasu wydaje się koncentrować na tym, jak uczynić mowę bardziej zrozumiałą dla ludzi lub jak poprawić niejasne warunki, takie jak „jakość mowy”.

Jestem pewien, że stosując takie kryteria, możesz zidentyfikować filtry, które ułatwiają słuchanie głośnych sygnałów mowy dla ludzi. Nie jestem jednak pewien, czy kryteria te można po prostu dostosować, próbując ocenić sygnały mowy, które zostały denominowane w celu poprawy dokładności systemu rozpoznawania mowy.

Tak naprawdę nie znajduję artykułów, które omawiają tę różnicę. Czy zrozumiałość mowy i jej jakość korelują z dokładnością systemów rozpoznawania mowy? Czy istnieją obiektywne środki, które mogą ocenić, jak „dobry” będzie odszumiony sygnał mowy dla systemu rozpoznawania mowy, na przykład, jeśli otrzyma się również oryginalną czystą mowę? Czy jest to jedyny sposób, aby dowiedzieć się, jak dobra jest twoja technika redukcji szumów, aby wyszkolić system rozpoznawania mowy na zdemineralizowanych danych i spojrzeć na dokładność?

Byłbym szczęśliwy, gdyby ktoś mógł skierować mnie w dobrym kierunku, a może dać kilka artykułów na ten temat. Z góry dziękuję!

marlonfl
źródło

Odpowiedzi:

2

Tak naprawdę nie znajduję artykułów, które omawiają tę różnicę.

Istnieją całe książki na ten temat:

Solidne automatyczne rozpoznawanie mowy 1. edycja

Czy zrozumiałość mowy i jej jakość korelują z dokładnością systemów rozpoznawania mowy?

Zwykle nie, zwykle redukcja szumów psuje funkcje w nieprzewidywalny sposób i zmniejsza dokładność rozpoznawania mowy.

Czy istnieją obiektywne środki, które mogą ocenić, jak „dobry” będzie odszumiony sygnał mowy dla systemu rozpoznawania mowy, na przykład, jeśli otrzyma się również oryginalną czystą mowę? Czy jest to jedyny sposób, aby dowiedzieć się, jak dobra jest twoja technika redukcji szumów, aby wyszkolić system rozpoznawania mowy na zdemineralizowanych danych i spojrzeć na dokładność?

Druga. Ponadto redukcja szumów oparta na funkcjach faktycznie usuwa ważne informacje z widma, więc nie można naprawić dokładności czystego systemu. Z tego powodu nowoczesne podejście polega na przeprowadzaniu wielostronnego treningu na zaszumionych danych zamiast wcześniejszego zastosowania algorytmu redukcji szumów. Kończy się dokładniejszym rozpoznaniem.

Nikolay Shmyrev
źródło
Dziękuję za odpowiedzi. Chyba nie szukałem odpowiednich dokumentów. Rzucę okiem na tę książkę.
marlonfl
Ok, jeśli chcesz dokumenty, możesz sprawdzić wyniki wyzwania CHIME-4, głównie najnowocześniejszy w solidnym ASR.
Nikolay Shmyrev