Czy istnieje jakieś przyzwoite oprogramowanie do rozpoznawania mowy dla systemu Linux?

49

Krótka wersja pytania: szukam oprogramowania do rozpoznawania mowy działającego w systemie Linux, mającego przyzwoitą dokładność i użyteczność. Każda licencja i cena jest w porządku. Nie powinno się ograniczać do poleceń głosowych, ponieważ chcę móc dyktować tekst.


Więcej szczegółów:

Niezadowalająco próbowałem:

Wszystkie wyżej wymienione natywne rozwiązania dla Linuksa mają zarówno słabą dokładność, jak i użyteczność (lub niektóre nie pozwalają na dyktowanie dowolnego tekstu, a jedynie polecenia głosowe). Przez niską dokładność rozumiem dokładność znacznie poniżej tej, którą oprogramowanie do rozpoznawania mowy, o której wspomniałem poniżej, ma dla innych platform. Jeśli chodzi o Wine + Dragon NaturallySpeaking, z mojego doświadczenia ciągle się zawiesza i nie wydaje mi się, że tylko ja mam takie problemy.

W systemie Microsoft Windows używam Dragon NaturallySpeaking, w Apple Mac OS XI korzystam z Apple Dictation i DragonDictate, na Androida używam rozpoznawania mowy Google, a na iOS używam wbudowanego rozpoznawania mowy Apple.

Baidu Badania wydany wczoraj ten kod do swojej biblioteki rozpoznawania mowy przy użyciu koneksjonistyczne Temporal Classification realizowany z palnika. Testy porównawcze z Gigaom są zachęcające, jak pokazano na zrzucie ekranu poniżej, ale nie jestem świadomy żadnego dobrego opakowania, które umożliwiłoby korzystanie z niego bez dość kodowania (i dużego zestawu danych treningowych):

wprowadź opis zdjęcia tutaj

Istnieje kilka bardzo otwartych projektów alfa:

Jestem również świadomy tej próby śledzenia stanów sztuki i najnowszych wyników (bibliografii) dotyczących rozpoznawania mowy. a także ten test porównawczy istniejących interfejsów API rozpoznawania mowy .


Znam Aeneę , która umożliwia rozpoznawanie mowy za pośrednictwem Dragonfly na jednym komputerze w celu wysyłania zdarzeń do innego, ale wiąże się to z pewnym opóźnieniem:

wprowadź opis zdjęcia tutaj

Zdaję sobie również sprawę z tych dwóch rozmów eksplorujących opcję Linux do rozpoznawania mowy:

Franck Dernoncourt
źródło
2
Niektóre szczegóły na temat tego, co uważasz za „niezadowalające”, mogą posunąć naprzód twój skądinąd interesujący, ale raczej ogólny temat publikowania. Na przykład: co konkretnie uważasz za niezadowalające w kombinacji „Wine + Dragon NaturallySpeaking”? (w jaki sposób nie udało się zreplikować systemu Windows?)
Theophrastus
1
@Theophrastus Zasadniczo wszystkie rodzime rozwiązania Linux mają zarówno słabą dokładność, jak i użyteczność. Przez niską dokładność rozumiem dokładność znacznie poniżej tej, którą wspomniałem oprogramowanie do rozpoznawania mowy dla innych platform. Jeśli chodzi o Wine + Dragon NaturallySpeaking, z mojego doświadczenia wynika, że ​​ciągle się zawiesza i nie wydaje mi się, że jako jedyny mam takie problemy ( appdb.winehq.org/... )
Franck Dernoncourt
1
Nie próbowałem tego, ale na wypadek, gdyby ktoś uznał to za przydatne: github.com/Uberi/speech_recognition i jasperproject.github.io i github.com/benoitfragit/google2ubuntu
Hatszepsut
Czy jest takie oprogramowanie, które ma narzędzie wiersza polecenia? Byłoby bardzo interesujące połączenie rozpoznawania mowy z narzędziem do naciskania klawiszy i myszy, takim jak xdotool ( github.com/jordansissel/xdotool ) lub xsendkey ( github.com/kyoto/sendkeys ).
baptx

Odpowiedzi:

13

Obecnie eksperymentuję z użyciem połączenia KDE w połączeniu z rozpoznawaniem mowy Google na moim smartfonie z Androidem.

KDE Connect umożliwia korzystanie z urządzenia z Androidem jako urządzenia wejściowego dla komputera z systemem Linux (istnieją również inne funkcje). Musisz zainstalować aplikację KDE Connect ze sklepu Google Play na swoim smartfonie / tablecie i zainstalować zarówno kdeconnect, jak i wskaźnik-kdeconnect na komputerze z systemem Linux. W przypadku systemów Ubuntu instalacja przebiega następująco:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Minusem tej instalacji jest to, że instaluje kilka pakietów KDE, których nie potrzebujesz, jeśli nie korzystasz ze środowiska graficznego KDE.

Po sparowaniu urządzenia z systemem Android z komputerem (muszą znajdować się w tej samej sieci) możesz użyć klawiatury Androida, a następnie kliknąć / nacisnąć mikrofon, aby użyć rozpoznawania mowy Google. Podczas rozmowy tekst zacznie się pojawiać tam, gdzie kursor jest aktywny na komputerze z systemem Linux.

Jeśli chodzi o wyniki, są one dla mnie trochę mieszane, ponieważ obecnie piszę jakiś dokument dotyczący astrofizyki technicznej, a rozpoznawanie mowy Google walczy z żargonem, którego zwykle nie czytasz. Zapomnij również o tym, zastanawiając się nad interpunkcją lub poprawnym pisaniem wielkimi literami.

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

Shockburner
źródło
4

Na razie tylko notatnik głosowy działa w systemie Linux.

Aleksiej
źródło
2
Dzięki, działa tylko w przeglądarce Chrome.
Franck Dernoncourt
3

Gdy jeszcze jeden Linuxer szukał przydatnego programu konwersji tekstu na mowę (dyktowanie), zajrzałem do speechpad.pw:

  • bardzo dobrze rozpoznaje mój język ojczysty
  • działa szybko i bardzo niezawodnie

Wady:

  • oczywiście jest to zastrzeżone i zamknięte oprogramowanie od Google
  • usługa Google będzie nasłuchiwać, przetwarzać i rzekomo przechowywać każde wypowiedziane słowo
  • dźwięk i tekst będą przetwarzane i oczywiście przechowywane przez Google
  • speechpad.pw wymaga miesięcznej / kwartalnej / rocznej opłaty abonamentowej
  • speechpad.pw działa tylko jako dodatek do przeglądarki Google Chrome - żadna inna przeglądarka

Tak więc speechpad.pw jest bardzo zastrzeżonym i zamkniętym źródłem, a także powiązanym z Google, który wszyscy znamy jako nieprzespane metadane, dane osobowe i kolekcjoner treści osobistych.

Te wady sprawiają, że jest to dla mnie aplikacja nie do przejścia, chociaż samo rozpoznawanie mowy działa bardzo dobrze - znacznie lepiej niż wszystko, co do tej pory widziałem.

też
źródło
Dzięki, tak, znaczące wady, tym bardziej, że działa tylko w przeglądarce Chrome.
Franck Dernoncourt
1
Możesz używać Dokumentów Google w Chrome i korzystać z ich opcji „Narzędzia” »„ Pisanie głosów ... ”. Prawdopodobnie dokładnie to samo oprogramowanie do rozpoznawania mowy, ale jest bezpłatne. Następnie skopiuj wklej wyniki z twojego dokumentu tam, gdzie potrzebujesz tekstu.
Alexis Wilke,
2

Aplikacja Chrome „VoiceNote II” ( http://voicenote.in/ ) działa świetnie na moim komputerze Xubuntu 16.04. Nie jest wymagane szkolenie głosowe, a konfiguracja była prosta. Jedno wyszukiwanie, aby je znaleźć, jedno kliknięcie, aby zainstalować, jedno kliknięcie, aby utworzyć skrót i połączyć go z pulpitem.

Poprawka Indy Tech
źródło
Dzięki, działa tylko w Google Chrome
Franck Dernoncourt
0

Sugeruję użycie smoka na telefonie lub tablecie, a następnie wysłanie wiadomości e-mail do siebie. To opór, ale działa i jest bardzo dokładny. Jeśli nalegasz na użycie Linuksa do tego, uzyskanie drugiego wyświetlacza znacznie ułatwi kopiowanie i przechodzenie do przeszłości.

Nie próbowałem tego, ale możesz być w stanie użyć lub dostosować program do rozmowy Bluetooth w Pythonie ze smokiem na tablecie / telefonie. Mogą też istnieć aplikacje zdalnej klawiatury dla urządzeń mobilnych, które mogą obsługiwać wprowadzanie dyktanda.

Eksperymentuję i postaram się odpowiedzieć z czymś bardziej ostatecznym.

użytkownik273470
źródło
0

Korzystam z aplikacji KD Connect. działa całkiem skutecznie! Jestem w stanie nie odrywać wzroku od monitora podczas rozmowy z telefonem na biurku. Jedynym minusem jest to, że odbywa się to za pomocą klawiatury Google. nie jest ani darmowy, natywny ani otwarty. ten komentarz został opublikowany bez dokonywania jakichkolwiek poprawek

Josh Levine
źródło