Możliwy duplikat:
Jak mogę pobrać całą stronę internetową
Często spotykam strony internetowe, które oferują strony z instrukcjami lub inne informacje dostępne tylko za pośrednictwem spisu treści zawierającego łącza do poszczególnych rozdziałów lub akapitów. Często poszczególne strony liści składają się tylko z kilku wierszy, więc przemierzanie całego drzewa jest wyjątkowo kłopotliwe.
To, czego szukam, to narzędzie, które pozwoliłoby mi wyciągnąć i połączyć wszystkie strony, do których prowadzą łącza strony początkowej, w jeden połączony dokument HTML, tak że można np. Zapisać tę stronę i / lub liniowo przewijać wszystkie strony potomne bez konieczności klikania i cofania się 1000 razy. Pozwoliłoby to również wydrukować całą kolekcję, aby mieć instrukcję lub przeszukać ją za jednym razem itp.
Czy ktoś zna dobre narzędzie, aby to osiągnąć? Idealnie byłoby, gdyby takie narzędzie oferowało pewne kryteria wykluczenia (takie jak zignorowanie wszystkich linków „wstecz” lub linku do pomocy lub stron głównych, które można znaleźć na każdej stronie itp.).
źródło
Odpowiedzi:
Możesz użyć wget w trybie lustrzanym:
Odzwierciedla całą witrynę http://mymanuals.com/manuals/foobar .
Inną rzeczą, z której korzystałem całkiem nieźle, jest HTTrack, który ponownie odzwierciedla twoją stronę internetową, ale z ładnym interfejsem GUI.
źródło
wget
aby uzyskać wszystkie strony. Możesz użyć xhtml2pdf i pdftk, aby utworzyć pojedynczy dokument.źródło