Muszę pobrać wszystkie ebooki Gutenberga, w formacie zwykłego tekstu (nie HTML) i tylko w języku angielskim.
Czy ktoś ma sugestie, jak je wszystkie pobrać z serwera Gutenberg?
Potrzebuję ich do przeprowadzenia badań językowych.
źródło
Muszę pobrać wszystkie ebooki Gutenberga, w formacie zwykłego tekstu (nie HTML) i tylko w języku angielskim.
Czy ktoś ma sugestie, jak je wszystkie pobrać z serwera Gutenberg?
Potrzebuję ich do przeprowadzenia badań językowych.
Zgodnie z informacjami o robotach Dostęp do naszych stron :
Dostęp robota do naszej witryny powinien pozostać ostatnim zasobem, gdy wszystko inne zawiedzie. Pamiętaj również, że strona internetowa projektu Gutenberg jest chroniona prawem autorskim.
Istnieje jednak nadzieja :
Lepsze alternatywy
- Pobierz wersję offline witryny internetowej Project Gutenberg.
- Pobierz wszystkie pliki ebook projektu Gutenberg.
- Uzyskaj dane katalogu projektu Gutenberg.
I:
[...] Możesz pobrać wszystkie nasze eBooki w spakowanych plikach, kierując robota na stronę http://www.gutenberg.org/robot/harvest
[...] Rozpakowanie plików zip da kolejne 70 000 plików.
To jest przykład, jak uzyskać wszystkie pliki za pomocą
wget
:wget -w 2 -m http://www.gutenberg.org/robot/harvest
[...] Jeśli chcesz tylko niektóre typy plików, powiedz:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt
[...] Jeśli chcesz tylko pliki w danym języku, powiedz:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de
Więc zapytałbym:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en
--level=0
. Ale myślę, że lepiej pozwolić na przerwanie i ponowne uruchomienie: spróbuj--level 9999 --no-clobber
, co pominie pliki, które już masz (zakładając, że nadal jesteś w tym samym folderze na dysku).--input-file
instrukcja .-c
opcji, ale nadal. Podałemoffset=xxx
adres URL, który ma być dublowany, ale nadal jest pobierany z pierwszej strony.Możesz pobrać całą kolekcję książek angielskich i innych języków Gutenberga w jednym pliku ZIM, który jest bardzo skompresowany, a następnie można go otworzyć za pomocą Kiwix zarówno na komputerze, jak i na Androidzie. Angielskie książki mają 40 GB.
źródło
Chociaż wybrana odpowiedź jest poprawna, potencjalnie spowoduje dwa problemy:
wget
polecenie zakończy się niepowodzeniem, to rekursywne kontrole pobierania plików z zewnętrznego lustra.Poniższe rozwiązanie rozwiązuje te problemy:
Możesz zmienić ciąg znaków strony odsyłającej i klienta użytkownika, aby zapewnić odrobinę losowości.
źródło
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso ma kilka dobrych opcji.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso to plik o pojemności 8 GB, który powinien wystarczyć dla Twoich potrzeb.
Więcej informacji tutaj:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP , daje wszystkie opcje pobierania archiwum, w tym FTP i BitTorrent.
źródło
Inną opcją jest świetne narzędzie na http://pgiso.pglaf.org/ .
źródło
Dlaczego nie wykorzystać wszystkich nadmiernie skomplikowanych i pokazanych powyżej umiejętności programowania i wiedzy, aby utworzyć prosty przycisk, który łączy wszystkie te działania i mówi „Pobierz wszystkie aktualne książki” - z zakładką opcji językowej po kliknięciu.
Jestem pewien, że większość użytkowników, którzy odwiedzają tę stronę, to kolekcjonerzy e-booków, a ręczne pobieranie niektórych książek na interesujące ich tematy jest w porządku dla 1 lub 2 książek. Ale ręczne tworzenie większej kolekcji jest męczące. Niemniej jednak, jeśli potrzebują tego do badań lub po prostu chcieliby posiadać ogromną cyfrową bibliotekę książek na własnym komputerze. Większość ludzi jest wyłączona i rozprasza się z dala od strony, gdy zdają sobie sprawę, że musi to być Kreator komputerowy, aby to zrobić. Tak więc przycisk „Pobierz wszystkie bieżące książki” przyniósłby korzyść stronie projektu i jej użytkownikom, a na pewno stworzy jeszcze więcej osób odwiedzających witrynę. W ten sposób wszyscy są szczęśliwi.
źródło