Mój problem polega na tym, że nie znam energii szumu tła, więc nie mogę po prostu przekroczyć energii. Przetwarzanie odbywa się w czasie rzeczywistym, a ja mam około 500 ms do podjęcia decyzji. Idealnie chciałbym, aby ciche spółgłoski uważane były za brak ciszy.
audio
speech-recognition
Michael Litvin
źródło
źródło
Odpowiedzi:
Istnieje kilka parametrów, na które możesz spojrzeć:
Myślę, że połączenie tych trzech powinno dać dość solidny schemat wykrywania.
źródło