Czy istnieje sposób na pobranie automatycznie wygenerowanych transkrypcji z YouTube bez pobierania wideo?
Chciałbym sprawdzić wykłady TED, ale mam ograniczoną przepustowość i chciałbym wyeksportować automatyczne transkrypcje (znane również jako napisy lub napisy).
Odpowiedzi:
Użyj funkcji „Inspektora sieci” debuggera skryptów przeglądarki i znajdź drugie żądanie na stronie timedtext po włączeniu transkrypcji napisów, a następnie po prostu skopiuj wszystkie te żądania na pasek adresu, aby pobrać je w natywnym formacie xml YouTube.
Aby uzyskać wersję SRT, uruchom ten kod w konsoli debuggera dla tej strony xml:
Również tutaj jest skryptowa wersja skryptu:
źródło
Istnieje kilka sposobów na wyodrębnienie napisów z filmu na YouTube -
Określając język i VideoId w tym ogólnym adresie URL -
http://www.youtube.com/api/timedtext?lang={LANG}&v={VIDEOID}
możesz uzyskać.xml
plik zawierający napisy w wybranym języku dla wybranego filmu.Aby pozbyć się znaczników w tym pliku i po prostu mieć transkrypcję zwykłego tekstu , oto co musisz zrobić:
Alternatywnie istnieje narzędzie typu open source o nazwie Google2SRT, które pobiera wszystkie dostępne subskrybcje z filmu na YouTube za pomocą jednego kliknięcia i konwertuje je do
.srt
formatu, dzięki czemu można go używać w odtwarzaczach multimedialnych, takich jak VLC Media Player.Aktualizacja: Ted.com udostępnia teraz transkrypcje rozmów na swojej stronie.
źródło
http://video.google.com/timedtext?lang=english&v=b11AXknrsEI
ale to nie działa. Również przejście do narzędzi programistycznych nie pomaga. Jest tam mnóstwo zasobów i żaden z nich nie mówi timedtext.english
celuen
, aeng
jednak to nie to samo.Myślę, że ten skrypt użytkownika powinien działać dla Ciebie:
http://userscripts.org/scripts/show/50003/
źródło
Google2SRT 0.6 obsługuje ASR YouTube: http://sourceforge.net/projects/google2srt/
źródło
Jeśli to Twój film, możesz pobrać napisy z menedżera filmów. Iść do:
Menedżer filmów >> Edytuj (w wybranym wideo) >> Napisy >> (Kliknij ścieżkę, którą chcesz pobrać) >> Działania (menu rozwijane)
W chwili pisania tego tekstu dostępne są trzy typy plików:
Mają różne zastosowania w różnych aplikacjach, ale są bardzo podobne. SRT jest prawdopodobnie najczęstszym.
W przeciwnym razie, jeśli nie jest to Twój film, najlepszą metodą (jedyną metodą) jest pobranie pliku xml z narzędzi programistycznych.
Korzystając z Google Chrome w tym przykładzie, przejdź do filmu, a następnie wykonaj następujące kroki:
timedtext?
plus kilka zmiennych. Drugi to zazwyczaj ten, który chcesz. Zaczyna się tak:<transcript> <text start="4.14" dur="3.049">my name is doctor john rush</text> <text start="7.189" dur="3.731">I'm the CEO and president</text>
Ten plik XML jest przydatny, jeśli chcesz użyć transkrypcji na stronie internetowej. Poza tym nie sądzę, że można go używać w taki sam sposób, jak w przypadku pliku SRT. Jeśli jesteś dobry w programowaniu, możesz łatwo napisać program, który przekonwertuje go na SRT. Napisałem własny program C #, który wyodrębnia dane w innym celu i zajęło to mniej niż dwie godziny.
źródło