Użyłem wget, aby pobrać pliki HTML, gdzie są przechowywane obrazy w pliku?

15

Firefox wgetładował się bardzo wolno, więc postanowiłem zapisać pliki HTML. Użyłem następującego polecenia,

wget http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Pliki zostały zapisane w moim katalogu domowym, ale nie wiem, gdzie są przechowywane obrazy. Potrzebuję ich do użycia Anki.

Gdzie są przechowywane obrazy?

zarejestrowany użytkownik
źródło
W tym artykule wyjaśniono opcje i ich przydatność.
Wilf

Odpowiedzi:

34

Wolę używać --page-requisites( -pw skrócie) zamiast -rtutaj, ponieważ pobiera wszystko, co strona musi wyświetlić, ale nie ma innych stron i nie muszę myśleć o tym, jakiego rodzaju plików chcę.

Właściwie zwykle używam czegoś takiego

wget -E -H -k -p http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

To znaczy:

  • -E: Dołącz .htmldo nazwy pliku, jeśli jest to plik HTML, ale nie kończy się w .htmlpodobny sposób
  • -H: Pobieraj pliki również z innych hostów
  • -k: Po pobraniu przekonwertuj dowolny link, aby wskazywał na pobrane pliki
  • -p: Pobierz wszystko, czego potrzebuje strona do poprawnego przeglądania w trybie offline
Florian Diesch
źródło
Przyjechałem tu szuka -H, i był zadowolony, aby poznać -Ei -kzbyt. Dzięki!
Charles Clayton
2

użycie parametru -r powinno umożliwić wget pobranie całego folderu, w tym obrazów.

wget -r http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter
vegard torvund
źródło
2

Pobieranie plików graficznych również osobno

Myślę, że to polecenie może zacząć.

 wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Pozwala określić lokalizację, w której mają być zapisywane obrazy i jakie typy plików chcesz. Może pobieranie obrazów jako takich jest łatwiejsze.

Źródło :

-r umożliwia rekurencyjne pobieranie. Aby uzyskać więcej informacji, zobacz Pobieranie rekurencyjne.

-P ustawia prefiks katalogu, w którym zapisywane są wszystkie pliki i katalogi.

-A ustawia białą listę do pobierania tylko niektórych typów plików. Ciągi znaków i wzorce są akceptowane i oba mogą być używane na liście oddzielonej przecinkami (jak pokazano powyżej). Aby uzyskać więcej informacji, zobacz Typy plików.

Kopiowanie plików obrazów z folderu

Zauważyłem, że strona korzysta z plików obrazów PNG. Możesz po prostu skopiować je ze swojego folderu. To powinno być uruchomione w folderze, w którym zapisałeś stronę.

find . -name "*.png" -exec cp '{}' ./some_dir/somewhere/ \;
don.joey
źródło
1

Wget po prostu pobiera plik HTML strony, a nie obrazy na stronie, ponieważ obrazy w pliku HTML strony są zapisywane jako adresy URL. Aby zrobić to, co chcesz, użyj -R(rekurencyjnego), -Aopcji z przyrostkami pliku obrazu, --no-parentopcji, aby nie wznosiła się, oraz --levelopcji z 1.

konkretnie wget -R -A .jpg,.png,.gif --no-parent --level <url>

Co więcej, większość przeglądarek ma metody zapisywania stron do przeglądania w trybie offline .

Ramchandra Apte
źródło