to pytanie interesuje mnie od dłuższego czasu, głównie dlatego, że sam pracuję nad redukcją szumów dla istniejącego systemu rozpoznawania mowy.
Większość artykułów na temat technik redukcji hałasu wydaje się koncentrować na tym, jak uczynić mowę bardziej zrozumiałą dla ludzi lub jak poprawić niejasne warunki, takie jak „jakość mowy”.
Jestem pewien, że stosując takie kryteria, możesz zidentyfikować filtry, które ułatwiają słuchanie głośnych sygnałów mowy dla ludzi. Nie jestem jednak pewien, czy kryteria te można po prostu dostosować, próbując ocenić sygnały mowy, które zostały denominowane w celu poprawy dokładności systemu rozpoznawania mowy.
Tak naprawdę nie znajduję artykułów, które omawiają tę różnicę. Czy zrozumiałość mowy i jej jakość korelują z dokładnością systemów rozpoznawania mowy? Czy istnieją obiektywne środki, które mogą ocenić, jak „dobry” będzie odszumiony sygnał mowy dla systemu rozpoznawania mowy, na przykład, jeśli otrzyma się również oryginalną czystą mowę? Czy jest to jedyny sposób, aby dowiedzieć się, jak dobra jest twoja technika redukcji szumów, aby wyszkolić system rozpoznawania mowy na zdemineralizowanych danych i spojrzeć na dokładność?
Byłbym szczęśliwy, gdyby ktoś mógł skierować mnie w dobrym kierunku, a może dać kilka artykułów na ten temat. Z góry dziękuję!