Czy istnieje jakaś aplikacja do próbkowania czyjegoś głosu i używania go do modulowania innego głosu lub syntetyzowania tekstu przypominającego oryginalny?
Na przykład ta prezentacja zamiany tekstu na mowę AT&T pozwala wybrać głos i język ze wstępnych ustawień, które, jak sądzę, oparte są na próbce ludzkiego głosu.
Jak nazwać ten proces? Czy to modulacja głosu? Synteza głosu?
modulation
voice
clapas
źródło
źródło
Odpowiedzi:
Pierwsza uwaga: większość współczesnych systemów zamiany tekstu na mowę, takich jak AT&T, z którymi się połączyłeś, wykorzystuje łączoną syntezę mowy . Technika ta wykorzystuje dużą bazę nagrań głosu jednej osoby, wypowiadając długą kolekcję zdań - dobranych tak, aby obecna była jak największa liczba kombinacji fonemów. Synteza zdania można wykonać po prostu łącząc segmenty z tego korpusu - trudnym bitem jest połączenie ciągów w spójny i wyrazisty sposób.
Istnieją dwie duże przeszkody, jeśli chcesz użyć tej techniki, aby prezydent Obama powiedział zawstydzające słowa:
Twoja intuicja, że jest to możliwe rozwiązanie, jest ważna - pod warunkiem, że masz budżet na rozwiązanie tych dwóch problemów.
Na szczęście istnieją inne techniki, które mogą działać przy mniejszym nadzorze i mniejszej ilości danych. Dziedzina syntezy mowy zainteresowana „udawaniem” lub „naśladowaniem” jednego głosu z nagrania jest znana jako konwersja głosu . Masz nagranie A1 mówcy docelowego A mówiącego zdanie 1, i nagranie B2 źródłowego mówcy B mówiącego zdanie 2, masz na celu wyprodukowanie nagrania A2 mówcy A mówiącego zdanie 2, być może z dostępem do nagrania B1 mówcy B odtwarzającego jego głosem wypowiada się to samo co mówca docelowy.
Zarys systemu konwersji głosu jest następujący:
Nalegam na fakt, że działa to na znacznie niższym poziomie niż rozpoznawanie mowy na B2, a następnie robienie TTS przy użyciu głosu A1 jako korpusu.
W krokach 1 i 2 stosuje się różne techniki statystyczne - najczęściej stosowane są GMM lub VQ. W części 2 zastosowano różne algorytmy wyrównania - jest to najtrudniejsza część i oczywiście łatwiej jest wyrównać A1 vs B1, niż A1 vs B2. W prostszym przypadku do wyrównania można użyć metod takich jak dynamiczne dopasowanie czasowe. Podobnie jak w kroku 4, najczęstszą transformacją są transformaty liniowe (mnożenie macierzy) na wektorach cech. Bardziej złożone transformacje zapewniają bardziej realistyczne imitacje, ale problem regresji w celu znalezienia optymalnego odwzorowania jest bardziej skomplikowany do rozwiązania. Wreszcie, podobnie jak w kroku 5, jakość resyntezy jest ograniczona stosowanymi funkcjami. LPC są na ogół łatwiejsze w obsłudze z prostą metodą transformacji (weź ramkę sygnału -> oszacuj resztkowe i widmo LPC -> w razie potrzeby resztkowe przesunięcie tonu -> zastosować zmodyfikowane widmo LPC do zmodyfikowanej resztkowej). Kluczem jest tutaj użycie przedstawienia mowy, które można odwrócić z powrotem do dziedziny czasu i które zapewnia dobre oddzielenie prozody od fonemów! Wreszcie, pod warunkiem, że masz dostęp do wyrównanych nagrań mówców A i B mówiących to samo zdanie, istnieją modele statystyczne, które jednocześnie wykonują kroki 1, 2, 3 i 4 w ramach jednej procedury szacowania jednego modelu.
Może później wrócę z bibliografią, ale bardzo dobrym miejscem, aby zacząć wyczuwać problem, a ogólną strukturą zastosowaną do jego rozwiązania jest Stylianou, Moulines i Cappé „System konwersji głosu oparty na klasyfikacji probabilistycznej i harmonicznej plus model hałasu ”.
Według mojej wiedzy nie ma szeroko rozpowszechnionego oprogramowania wykonującego konwersję głosu - jedynie oprogramowanie modyfikujące właściwości głosu źródłowego - takie jak parametry wysokości tonu i długości dróg głosowych (na przykład transformator IRCAM TRAX) - z którymi musisz zadzierać w nadziei, że zrobisz swoje nagrywanie dźwięku bliżej głosu docelowego.
źródło
Możesz użyć czegoś takiego jak MorphVox . Oto demonstracja. Proces ten nazywa się morfingiem głosu lub konwersją. Jeśli interesują Cię aspekty techniczne, najnowszym artykułem, który możesz studiować, jest Konwersja głosu przy użyciu częściowej regresji częściowej najmniejszych kwadratów dynamicznego jądra .
źródło
Szukam tego samego, ale nie da się tego zrobić. W Szkocji istnieje firma o nazwie CereProc, która zajmuje się modelowaniem głosu, ale potrzebuje kogoś w swoim laboratorium nagrywającym godziny dźwięku, a koszt modelowania pojedynczego głosu wynosi około 30 000 USD.
źródło
To, czego szukasz, nazywa się vocoder.
Czy wypróbowałeś wokoder Audcity? Audacity można pobrać ze strony: http://audacity.sourceforge.net/download . Demo, jak go używać, można znaleźć na https://www.youtube.com/watch?v=J_rPEmJfwNs .
źródło