Czy istnieje jakieś przyzwoite oprogramowanie do rozpoznawania mowy dla systemu Linux?

49

Krótka wersja pytania: szukam oprogramowania do rozpoznawania mowy działającego w systemie Linux, mającego przyzwoitą dokładność i użyteczność. Każda licencja i cena jest w porządku. Nie powinno się ograniczać do poleceń głosowych, ponieważ chcę móc dyktować tekst.

Więcej szczegółów:

Niezadowalająco próbowałem:

CMU Sphinx
CVoiceControl
Uszy
Juliusz
Kaldi (np. Serwer Kaldi GStreamer )
IBM ViaVoice (kiedyś działał w systemie Linux, ale został wycofany wiele lat temu)
Zestaw narzędzi NICO ANN
OpenMindSpeech
RWTH ASR
krzyczeć
silvius (zbudowany na zestawie narzędzi do rozpoznawania mowy Kaldi)
Simon Listens
ViaVoice / Xvoice
Wine + Dragon NaturallySpeaking + NatLink + dragonfly + damselfly
https://github.com/DragonComputer/Dragonfire : akceptuje tylko polecenia głosowe

Wszystkie wyżej wymienione natywne rozwiązania dla Linuksa mają zarówno słabą dokładność, jak i użyteczność (lub niektóre nie pozwalają na dyktowanie dowolnego tekstu, a jedynie polecenia głosowe). Przez niską dokładność rozumiem dokładność znacznie poniżej tej, którą oprogramowanie do rozpoznawania mowy, o której wspomniałem poniżej, ma dla innych platform. Jeśli chodzi o Wine + Dragon NaturallySpeaking, z mojego doświadczenia ciągle się zawiesza i nie wydaje mi się, że tylko ja mam takie problemy.

W systemie Microsoft Windows używam Dragon NaturallySpeaking, w Apple Mac OS XI korzystam z Apple Dictation i DragonDictate, na Androida używam rozpoznawania mowy Google, a na iOS używam wbudowanego rozpoznawania mowy Apple.

Baidu Badania wydany wczoraj ten kod do swojej biblioteki rozpoznawania mowy przy użyciu koneksjonistyczne Temporal Classification realizowany z palnika. Testy porównawcze z Gigaom są zachęcające, jak pokazano na zrzucie ekranu poniżej, ale nie jestem świadomy żadnego dobrego opakowania, które umożliwiłoby korzystanie z niego bez dość kodowania (i dużego zestawu danych treningowych):

Istnieje kilka bardzo otwartych projektów alfa:

https://github.com/mozilla/DeepSpeech (część projektu Vaani Mozilli: http://vaani.io ( mirror ))
https://github.com/pannous/tensorflow-speech-recognition
Vox, system do sterowania systemem Linux za pomocą Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo (do wydania przez Google, wspomniane na Interspeech 2018)

Jestem również świadomy tej próby śledzenia stanów sztuki i najnowszych wyników (bibliografii) dotyczących rozpoznawania mowy. a także ten test porównawczy istniejących interfejsów API rozpoznawania mowy .

Znam Aeneę , która umożliwia rozpoznawanie mowy za pośrednictwem Dragonfly na jednym komputerze w celu wysyłania zdarzeń do innego, ale wiąże się to z pewnym opóźnieniem:

Zdaję sobie również sprawę z tych dwóch rozmów eksplorujących opcję Linux do rozpoznawania mowy:

2016 - The Eleventh HOPE: Coding by Voice with Open Source Speech Recognition (David Williams-King)
2014 - Pycon: Używanie Pythona do kodowania za pomocą głosu (Tavis Rudd)

software-rec speech-recognition Franck Dernoncourt
źródło

2

Niektóre szczegóły na temat tego, co uważasz za „niezadowalające”, mogą posunąć naprzód twój skądinąd interesujący, ale raczej ogólny temat publikowania. Na przykład: co konkretnie uważasz za niezadowalające w kombinacji „Wine + Dragon NaturallySpeaking”? (w jaki sposób nie udało się zreplikować systemu Windows?)

Theophrastus

1

@Theophrastus Zasadniczo wszystkie rodzime rozwiązania Linux mają zarówno słabą dokładność, jak i użyteczność. Przez niską dokładność rozumiem dokładność znacznie poniżej tej, którą wspomniałem oprogramowanie do rozpoznawania mowy dla innych platform. Jeśli chodzi o Wine + Dragon NaturallySpeaking, z mojego doświadczenia wynika, że ciągle się zawiesza i nie wydaje mi się, że jako jedyny mam takie problemy ( appdb.winehq.org/... )

Franck Dernoncourt

1

Nie próbowałem tego, ale na wypadek, gdyby ktoś uznał to za przydatne: github.com/Uberi/speech_recognition i jasperproject.github.io i github.com/benoitfragit/google2ubuntu

Hatszepsut

Czy jest takie oprogramowanie, które ma narzędzie wiersza polecenia? Byłoby bardzo interesujące połączenie rozpoznawania mowy z narzędziem do naciskania klawiszy i myszy, takim jak xdotool ( github.com/jordansissel/xdotool ) lub xsendkey ( github.com/kyoto/sendkeys ).

baptx

13

Obecnie eksperymentuję z użyciem połączenia KDE w połączeniu z rozpoznawaniem mowy Google na moim smartfonie z Androidem.

KDE Connect umożliwia korzystanie z urządzenia z Androidem jako urządzenia wejściowego dla komputera z systemem Linux (istnieją również inne funkcje). Musisz zainstalować aplikację KDE Connect ze sklepu Google Play na swoim smartfonie / tablecie i zainstalować zarówno kdeconnect, jak i wskaźnik-kdeconnect na komputerze z systemem Linux. W przypadku systemów Ubuntu instalacja przebiega następująco:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Minusem tej instalacji jest to, że instaluje kilka pakietów KDE, których nie potrzebujesz, jeśli nie korzystasz ze środowiska graficznego KDE.

Po sparowaniu urządzenia z systemem Android z komputerem (muszą znajdować się w tej samej sieci) możesz użyć klawiatury Androida, a następnie kliknąć / nacisnąć mikrofon, aby użyć rozpoznawania mowy Google. Podczas rozmowy tekst zacznie się pojawiać tam, gdzie kursor jest aktywny na komputerze z systemem Linux.

Jeśli chodzi o wyniki, są one dla mnie trochę mieszane, ponieważ obecnie piszę jakiś dokument dotyczący astrofizyki technicznej, a rozpoznawanie mowy Google walczy z żargonem, którego zwykle nie czytasz. Zapomnij również o tym, zastanawiając się nad interpunkcją lub poprawnym pisaniem wielkimi literami.

Shockburner
źródło

4

Na razie tylko notatnik głosowy działa w systemie Linux.

Aleksiej
źródło

2

Dzięki, działa tylko w przeglądarce Chrome.

Franck Dernoncourt

3

Gdy jeszcze jeden Linuxer szukał przydatnego programu konwersji tekstu na mowę (dyktowanie), zajrzałem do speechpad.pw:

bardzo dobrze rozpoznaje mój język ojczysty
działa szybko i bardzo niezawodnie

Wady:

oczywiście jest to zastrzeżone i zamknięte oprogramowanie od Google
usługa Google będzie nasłuchiwać, przetwarzać i rzekomo przechowywać każde wypowiedziane słowo
dźwięk i tekst będą przetwarzane i oczywiście przechowywane przez Google
speechpad.pw wymaga miesięcznej / kwartalnej / rocznej opłaty abonamentowej
speechpad.pw działa tylko jako dodatek do przeglądarki Google Chrome - żadna inna przeglądarka

Tak więc speechpad.pw jest bardzo zastrzeżonym i zamkniętym źródłem, a także powiązanym z Google, który wszyscy znamy jako nieprzespane metadane, dane osobowe i kolekcjoner treści osobistych.

Te wady sprawiają, że jest to dla mnie aplikacja nie do przejścia, chociaż samo rozpoznawanie mowy działa bardzo dobrze - znacznie lepiej niż wszystko, co do tej pory widziałem.

też
źródło

Dzięki, tak, znaczące wady, tym bardziej, że działa tylko w przeglądarce Chrome.

Franck Dernoncourt

1

Możesz używać Dokumentów Google w Chrome i korzystać z ich opcji „Narzędzia” »„ Pisanie głosów ... ”. Prawdopodobnie dokładnie to samo oprogramowanie do rozpoznawania mowy, ale jest bezpłatne. Następnie skopiuj wklej wyniki z twojego dokumentu tam, gdzie potrzebujesz tekstu.

Alexis Wilke,

2

Aplikacja Chrome „VoiceNote II” ( http://voicenote.in/ ) działa świetnie na moim komputerze Xubuntu 16.04. Nie jest wymagane szkolenie głosowe, a konfiguracja była prosta. Jedno wyszukiwanie, aby je znaleźć, jedno kliknięcie, aby zainstalować, jedno kliknięcie, aby utworzyć skrót i połączyć go z pulpitem.

Poprawka Indy Tech
źródło

Dzięki, działa tylko w Google Chrome

Franck Dernoncourt

0

Sugeruję użycie smoka na telefonie lub tablecie, a następnie wysłanie wiadomości e-mail do siebie. To opór, ale działa i jest bardzo dokładny. Jeśli nalegasz na użycie Linuksa do tego, uzyskanie drugiego wyświetlacza znacznie ułatwi kopiowanie i przechodzenie do przeszłości.

Nie próbowałem tego, ale możesz być w stanie użyć lub dostosować program do rozmowy Bluetooth w Pythonie ze smokiem na tablecie / telefonie. Mogą też istnieć aplikacje zdalnej klawiatury dla urządzeń mobilnych, które mogą obsługiwać wprowadzanie dyktanda.

Eksperymentuję i postaram się odpowiedzieć z czymś bardziej ostatecznym.

użytkownik273470
źródło

0

Korzystam z aplikacji KD Connect. działa całkiem skutecznie! Jestem w stanie nie odrywać wzroku od monitora podczas rozmowy z telefonem na biurku. Jedynym minusem jest to, że odbywa się to za pomocą klawiatury Google. nie jest ani darmowy, natywny ani otwarty. ten komentarz został opublikowany bez dokonywania jakichkolwiek poprawek

Josh Levine
źródło

-2

Możesz używać mowy na tekst w aplikacji Linux Ta aplikacja korzysta z Google Speech Api i binarnego modułu integracji dla systemu Linux 32 lub 64-bitowego. Możesz zobaczyć krótką prezentację użycia narzędzi speechpad.pw w Ubuntu

Pavel Popov
źródło

1

OP szuka silnika syntezatora mowy. To tylko opakowanie interfejsu użytkownika (i to kiepskie) wokół silnika STT.

Cerin,

Czy istnieje jakieś przyzwoite oprogramowanie do rozpoznawania mowy dla systemu Linux?

Odpowiedzi: