Aplikacja do rozpoznawania mowy do konwersji plików MP3 na tekst?

27

Czy ktoś wie o aplikacji, która może konwertować audio na tekst? Używam Ubuntu 12.04 LTS.

Kopano
źródło
Zakładam, że jest to tekst mówiony. W jakim języku jest ten tekst?
Martin Ueding,
Tekst mowy jest prosty w języku angielskim.
Kopano,

Odpowiedzi:

21

Oprogramowanie, którego możesz użyć to CMUSphinx . W przeciwieństwie do sugerowanej w innej odpowiedzi Julius nie jest odpowiedni, ponieważ wymaga modeli. Modele rozpoznawania mowy dużego słownictwa nie są dostępne dla Juliusa.

Możesz użyć pocketsphinx do konwersji pliku audio. Te dwa polecenia muszą wykonać pracę. Najpierw przekonwertuj plik do wymaganego formatu, a następnie rozpoznasz:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Run sfinks

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Wynik zostanie zapisany w pliku result.txt.

Nikolay Shmyrev
źródło
dodatkowo jako uzupełnienie tej odpowiedzi znajduje się tutaj fajne demo obu narzędzi speech recognitioni voice commandnarzędzi: youtube.com/…
Daithí
Jak dodać model akustyczny do systemu?
jarno
Wystarczy pobrać i rozpakować, nie ma czegoś takiego jak „dodaj do systemu”
Nikolay Shmyrev
@NikolayShmyrev Gdzie mam go rozpakować, aby Pocketsphinx_continuous go znalazł?
jarno
4
Cóż, zainstalowałem pakiety pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj i pocketsphinx-lm-en-hub4 w uniwersalnym repozytorium Ubuntu 14.04. Potem pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logpracował. Może nie są to optymalne pakiety, ale były to najlepsze dopasowania, jakie mogłem znaleźć w repozytoriach.
jarno
12

Wiem, że jest to stare, ale aby rozwinąć odpowiedź Nikolay i mam nadzieję, że w przyszłości zaoszczędzisz komuś trochę czasu, aby uzyskać aktualną wersję działającego Pocketsphinx, musisz go skompilować z repozytorium github lub sourceforge (nie jestem pewien który jest aktualizowany). Uwaga: -j8 oznacza równoległe uruchamianie 8 oddzielnych zadań, jeśli to możliwe; jeśli masz więcej rdzeni procesora, możesz zwiększyć liczbę.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Następnie z: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ pobierz najnowsze wersje cmusphinx-en-us-....tar.gzien-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Następnie możesz w końcu przejść do kroków z odpowiedzi Nikolaya:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sfinks działa dobrze. Nie polegałbym na tym, aby stworzyć czytelną wersję tekstu, ale wystarczy, że możesz go przeszukać, jeśli szukasz konkretnego cytatu. Działa to szczególnie dobrze, jeśli używasz algorytmu wyszukiwania, takiego jak Xapian ( http://www.lesbonscomptes.com/recoll/ ), który akceptuje symbole wieloznaczne i nie wymaga dokładnych wyrażeń wyszukiwania.

Mam nadzieję że to pomoże.

Jonathan Perry-Houts
źródło
4
wszystko działa jak urok, ale w moim przypadku musiałem uruchomić następujące polecenie, aby naprawić pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Vijay Dohare
Jest to również zalecane w cmusphinx.github.io/wiki/tutorialpocketsphinx/…
andrybak
11

Jeśli chcesz przekonwertować mowę na tekst, możesz otworzyć Centrum oprogramowania Ubuntu i wyszukać Juliusa

Opis

„Julius” to wysokowydajne, dwuprzebiegowe oprogramowanie dekodujące do ciągłego rozpoznawania mowy (LVCSR) dla badaczy i programistów związanych z mową.

Lub inną opcją, której nie ma w Centrum oprogramowania, jest Simon

... to program do rozpoznawania mowy typu open source, zastępujący mysz i klawiaturę.

Linki referencyjne

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

CoalaWeb
źródło
1

Możesz użyć panelu transkrypcji speechpad.pw

Zobacz wideo z użyciem transkrypcji

Aleksiej
źródło
Wygląda to fajnie, choć nie sądzę, że odpowiada na pytanie, jak uzyskać transkrypcję istniejącego pliku. To powiedziawszy, właśnie wypróbowałem Sfinksa i to się nie udało ... transkrypcja była zła w 99,9%.
Alexis Wilke,