Automatyczne zapisywanie dużego dokumentu, który jest pofragmentowany na wielu stronach internetowych

0

Chciałbym kopię określonej instrukcji, która jest rozłożona na wielu stronach internetowych, takich jak ten duży dokument . Nie chcę zamawiać papierowej kopii i nie chcę klikać każdego łącza, aby uzyskać cały dokument. Jak najłatwiej umieścić kopię tego podręcznika na moim dysku twardym?

H2ONaCl
źródło
1
Możesz spróbować użyć wget --recursive.
Dariusz
Jeśli używasz Firefoksa, a nie przeszkadza epubalbo mobi, to ja zdecydowanie polecam GrabMyBooks wtyczki.
tydzień
Próbuję wget --recursiveteraz. Wygląda na to, że może istnieć nieskończona pętla. Użyłem --level=99, co może złagodzić, ale prawdopodobnie nie jest to idealne rozwiązanie problemu z pętlą.
H2ONaCl,
1
@Darius, niestety jest to najlepsza opcja i powinna być odpowiedź?
Dave
Używam go ponownie --level=9zamiast 99. Zobaczymy później, czy wynik jest rozsądny.
H2ONaCl,

Odpowiedzi:

0

To może odpowiedź (spróbuję tylko, jeśli sugestia Dariusza wgetnie zadziała) .... To zależy też od tego, ile masz szczęścia!

Możesz użyć czegoś takiego jak http://www.httrack.com/, który zapisze całą witrynę na dysku twardym.

Strony PDF, o których mówisz, są przewidywalne, ponieważ wszystkie znajdują się w katalogu http://www.state.gov/documents/organization/ , dlatego po zapisaniu witryny usuń wszystko inne niż organization/katalog

Problem polega na tym, że nie ma obietnicy, że w tym katalogu będą tylko strony, które chcesz zamieszkać (na przykład ten katalog może zawierać wszystkie pliki PDF witryny, a nie tylko te, które chcesz). W zależności od potrzeb może to, ale nie musi wystarczyć.

Dave
źródło
0

Właściwy zestaw opcji pozwoli uzyskać rozsądny wynik w rozsądnym czasie. Aby do tego dojść, przeprowadzono kilka prób.

wget --recursive --page-requisites --convert-links --timestamping 
--domains=www.state.gov --level=2 --accept htm,pdf 
--include /m/a/dir/regs/fam,/documents

Nie może to być ogólne rozwiązanie, ponieważ wybór - akceptowania niektórych typów plików jest specyficzny dla witryny. Wybór - uwzględnienie niektórych drzew zależy od strony internetowej. Podobnie wybór opcji - poziom jest specyficzny.

(@Darius może opublikować odpowiedź zamiast komentarza, w takim przypadku rozważałbym jej wybór).

H2ONaCl
źródło