Aplikacja do rozpoznawania mowy do konwersji plików MP3 na tekst?

27

Czy ktoś wie o aplikacji, która może konwertować audio na tekst? Używam Ubuntu 12.04 LTS.

software-recommendation speech-recognition Kopano
źródło

Zakładam, że jest to tekst mówiony. W jakim języku jest ten tekst?

Martin Ueding,

Tekst mowy jest prosty w języku angielskim.

Kopano,

21

Oprogramowanie, którego możesz użyć to CMUSphinx . W przeciwieństwie do sugerowanej w innej odpowiedzi Julius nie jest odpowiedni, ponieważ wymaga modeli. Modele rozpoznawania mowy dużego słownictwa nie są dostępne dla Juliusa.

Możesz użyć pocketsphinx do konwersji pliku audio. Te dwa polecenia muszą wykonać pracę. Najpierw przekonwertuj plik do wymaganego formatu, a następnie rozpoznasz:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Run sfinks

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Wynik zostanie zapisany w pliku result.txt.

Nikolay Shmyrev
źródło

dodatkowo jako uzupełnienie tej odpowiedzi znajduje się tutaj fajne demo obu narzędzi speech recognitioni voice commandnarzędzi: youtube.com/…

Daithí

Jak dodać model akustyczny do systemu?

jarno

Wystarczy pobrać i rozpakować, nie ma czegoś takiego jak „dodaj do systemu”

Nikolay Shmyrev

@NikolayShmyrev Gdzie mam go rozpakować, aby Pocketsphinx_continuous go znalazł?

jarno

4

Cóż, zainstalowałem pakiety pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj i pocketsphinx-lm-en-hub4 w uniwersalnym repozytorium Ubuntu 14.04. Potem pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logpracował. Może nie są to optymalne pakiety, ale były to najlepsze dopasowania, jakie mogłem znaleźć w repozytoriach.

jarno

12

Wiem, że jest to stare, ale aby rozwinąć odpowiedź Nikolay i mam nadzieję, że w przyszłości zaoszczędzisz komuś trochę czasu, aby uzyskać aktualną wersję działającego Pocketsphinx, musisz go skompilować z repozytorium github lub sourceforge (nie jestem pewien który jest aktualizowany). Uwaga: -j8 oznacza równoległe uruchamianie 8 oddzielnych zadań, jeśli to możliwe; jeśli masz więcej rdzeni procesora, możesz zwiększyć liczbę.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Następnie z: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ pobierz najnowsze wersje cmusphinx-en-us-....tar.gzien-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Następnie możesz w końcu przejść do kroków z odpowiedzi Nikolaya:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sfinks działa dobrze. Nie polegałbym na tym, aby stworzyć czytelną wersję tekstu, ale wystarczy, że możesz go przeszukać, jeśli szukasz konkretnego cytatu. Działa to szczególnie dobrze, jeśli używasz algorytmu wyszukiwania, takiego jak Xapian ( http://www.lesbonscomptes.com/recoll/ ), który akceptuje symbole wieloznaczne i nie wymaga dokładnych wyrażeń wyszukiwania.

Mam nadzieję że to pomoże.

Jonathan Perry-Houts
źródło

4

wszystko działa jak urok, ale w moim przypadku musiałem uruchomić następujące polecenie, aby naprawić

pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory

-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig

Vijay Dohare

Jest to również zalecane w cmusphinx.github.io/wiki/tutorialpocketsphinx/…

andrybak

11

Jeśli chcesz przekonwertować mowę na tekst, możesz otworzyć Centrum oprogramowania Ubuntu i wyszukać Juliusa

Opis

„Julius” to wysokowydajne, dwuprzebiegowe oprogramowanie dekodujące do ciągłego rozpoznawania mowy (LVCSR) dla badaczy i programistów związanych z mową.

Lub inną opcją, której nie ma w Centrum oprogramowania, jest Simon

... to program do rozpoznawania mowy typu open source, zastępujący mysz i klawiaturę.

Linki referencyjne

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

CoalaWeb
źródło

1

Możesz użyć panelu transkrypcji speechpad.pw

Zobacz wideo z użyciem transkrypcji

Aleksiej
źródło

Wygląda to fajnie, choć nie sądzę, że odpowiada na pytanie, jak uzyskać transkrypcję istniejącego pliku. To powiedziawszy, właśnie wypróbowałem Sfinksa i to się nie udało ... transkrypcja była zła w 99,9%.

Alexis Wilke,

Aplikacja do rozpoznawania mowy do konwersji plików MP3 na tekst?

Odpowiedzi: