Krótka wersja pytania: szukam oprogramowania do rozpoznawania mowy działającego w systemie Linux, mającego przyzwoitą dokładność i użyteczność. Każda licencja i cena jest w porządku. Nie powinno się ograniczać do poleceń głosowych, ponieważ chcę móc dyktować tekst.
Więcej szczegółów:
Niezadowalająco próbowałem:
- CMU Sphinx
- CVoiceControl
- Uszy
- Juliusz
- Kaldi (np. Serwer Kaldi GStreamer )
- IBM ViaVoice (kiedyś działał w systemie Linux, ale został wycofany wiele lat temu)
- Zestaw narzędzi NICO ANN
- OpenMindSpeech
- RWTH ASR
- krzyczeć
- silvius (zbudowany na zestawie narzędzi do rozpoznawania mowy Kaldi)
- Simon Listens
- ViaVoice / Xvoice
- Wine + Dragon NaturallySpeaking + NatLink + dragonfly + damselfly
- https://github.com/DragonComputer/Dragonfire : akceptuje tylko polecenia głosowe
Wszystkie wyżej wymienione natywne rozwiązania dla Linuksa mają zarówno słabą dokładność, jak i użyteczność (lub niektóre nie pozwalają na dyktowanie dowolnego tekstu, a jedynie polecenia głosowe). Przez niską dokładność rozumiem dokładność znacznie poniżej tej, którą oprogramowanie do rozpoznawania mowy, o której wspomniałem poniżej, ma dla innych platform. Jeśli chodzi o Wine + Dragon NaturallySpeaking, z mojego doświadczenia ciągle się zawiesza i nie wydaje mi się, że tylko ja mam takie problemy.
W systemie Microsoft Windows używam Dragon NaturallySpeaking, w Apple Mac OS XI korzystam z Apple Dictation i DragonDictate, na Androida używam rozpoznawania mowy Google, a na iOS używam wbudowanego rozpoznawania mowy Apple.
Baidu Badania wydany wczoraj ten kod do swojej biblioteki rozpoznawania mowy przy użyciu koneksjonistyczne Temporal Classification realizowany z palnika. Testy porównawcze z Gigaom są zachęcające, jak pokazano na zrzucie ekranu poniżej, ale nie jestem świadomy żadnego dobrego opakowania, które umożliwiłoby korzystanie z niego bez dość kodowania (i dużego zestawu danych treningowych):
Istnieje kilka bardzo otwartych projektów alfa:
- https://github.com/mozilla/DeepSpeech (część projektu Vaani Mozilli: http://vaani.io ( mirror ))
- https://github.com/pannous/tensorflow-speech-recognition
- Vox, system do sterowania systemem Linux za pomocą Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (do wydania przez Google, wspomniane na Interspeech 2018)
Jestem również świadomy tej próby śledzenia stanów sztuki i najnowszych wyników (bibliografii) dotyczących rozpoznawania mowy. a także ten test porównawczy istniejących interfejsów API rozpoznawania mowy .
Znam Aeneę , która umożliwia rozpoznawanie mowy za pośrednictwem Dragonfly na jednym komputerze w celu wysyłania zdarzeń do innego, ale wiąże się to z pewnym opóźnieniem:
Zdaję sobie również sprawę z tych dwóch rozmów eksplorujących opcję Linux do rozpoznawania mowy:
- 2016 - The Eleventh HOPE: Coding by Voice with Open Source Speech Recognition (David Williams-King)
- 2014 - Pycon: Używanie Pythona do kodowania za pomocą głosu (Tavis Rudd)
źródło
Odpowiedzi:
Obecnie eksperymentuję z użyciem połączenia KDE w połączeniu z rozpoznawaniem mowy Google na moim smartfonie z Androidem.
KDE Connect umożliwia korzystanie z urządzenia z Androidem jako urządzenia wejściowego dla komputera z systemem Linux (istnieją również inne funkcje). Musisz zainstalować aplikację KDE Connect ze sklepu Google Play na swoim smartfonie / tablecie i zainstalować zarówno kdeconnect, jak i wskaźnik-kdeconnect na komputerze z systemem Linux. W przypadku systemów Ubuntu instalacja przebiega następująco:
Minusem tej instalacji jest to, że instaluje kilka pakietów KDE, których nie potrzebujesz, jeśli nie korzystasz ze środowiska graficznego KDE.
Po sparowaniu urządzenia z systemem Android z komputerem (muszą znajdować się w tej samej sieci) możesz użyć klawiatury Androida, a następnie kliknąć / nacisnąć mikrofon, aby użyć rozpoznawania mowy Google. Podczas rozmowy tekst zacznie się pojawiać tam, gdzie kursor jest aktywny na komputerze z systemem Linux.
Jeśli chodzi o wyniki, są one dla mnie trochę mieszane, ponieważ obecnie piszę jakiś dokument dotyczący astrofizyki technicznej, a rozpoznawanie mowy Google walczy z żargonem, którego zwykle nie czytasz. Zapomnij również o tym, zastanawiając się nad interpunkcją lub poprawnym pisaniem wielkimi literami.
źródło
Na razie tylko notatnik głosowy działa w systemie Linux.
źródło
Gdy jeszcze jeden Linuxer szukał przydatnego programu konwersji tekstu na mowę (dyktowanie), zajrzałem do speechpad.pw:
Wady:
Tak więc speechpad.pw jest bardzo zastrzeżonym i zamkniętym źródłem, a także powiązanym z Google, który wszyscy znamy jako nieprzespane metadane, dane osobowe i kolekcjoner treści osobistych.
Te wady sprawiają, że jest to dla mnie aplikacja nie do przejścia, chociaż samo rozpoznawanie mowy działa bardzo dobrze - znacznie lepiej niż wszystko, co do tej pory widziałem.
źródło
Aplikacja Chrome „VoiceNote II” ( http://voicenote.in/ ) działa świetnie na moim komputerze Xubuntu 16.04. Nie jest wymagane szkolenie głosowe, a konfiguracja była prosta. Jedno wyszukiwanie, aby je znaleźć, jedno kliknięcie, aby zainstalować, jedno kliknięcie, aby utworzyć skrót i połączyć go z pulpitem.
źródło
Sugeruję użycie smoka na telefonie lub tablecie, a następnie wysłanie wiadomości e-mail do siebie. To opór, ale działa i jest bardzo dokładny. Jeśli nalegasz na użycie Linuksa do tego, uzyskanie drugiego wyświetlacza znacznie ułatwi kopiowanie i przechodzenie do przeszłości.
Nie próbowałem tego, ale możesz być w stanie użyć lub dostosować program do rozmowy Bluetooth w Pythonie ze smokiem na tablecie / telefonie. Mogą też istnieć aplikacje zdalnej klawiatury dla urządzeń mobilnych, które mogą obsługiwać wprowadzanie dyktanda.
Eksperymentuję i postaram się odpowiedzieć z czymś bardziej ostatecznym.
źródło
Korzystam z aplikacji KD Connect. działa całkiem skutecznie! Jestem w stanie nie odrywać wzroku od monitora podczas rozmowy z telefonem na biurku. Jedynym minusem jest to, że odbywa się to za pomocą klawiatury Google. nie jest ani darmowy, natywny ani otwarty. ten komentarz został opublikowany bez dokonywania jakichkolwiek poprawek
źródło
Możesz używać mowy na tekst w aplikacji Linux Ta aplikacja korzysta z Google Speech Api i binarnego modułu integracji dla systemu Linux 32 lub 64-bitowego. Możesz zobaczyć krótką prezentację użycia narzędzi speechpad.pw w Ubuntu
źródło