Muszę zgrać witrynę przez HTTP. Muszę pobrać obrazy, HTML, CSS i JavaScript, a także uporządkować je w systemie plików.
Czy ktoś wie jak to zrobić?
html
javascript
css
ripping
Damon
źródło
źródło
Odpowiedzi:
To działa w konsoli.
spowoduje to złapanie witryny, odczekanie 3 sekund między żądaniami, ograniczenie szybkości pobierania, aby witryna nie została zabita, i zamaskowanie się w sposób, który sprawia, że wygląda ona tylko na przeglądarkę, dzięki czemu strona Cię nie odcina za pomocą mechanizmu przeciw pijawce.
Zwróć uwagę na
-A
parametr wskazujący listę typów plików, które chcesz pobrać.Możesz także użyć innego znacznika,
-D domain1.com,domain2.com
aby wskazać serię domen, które chcesz pobrać, jeśli mają one inny serwer lub cokolwiek innego do przechowywania różnego rodzaju plików. Nie ma bezpiecznego sposobu na zautomatyzowanie tego we wszystkich przypadkach, jeśli nie otrzymasz plików.wget
jest powszechnie instalowany w systemie Linux, ale można go w prosty sposób skompilować dla innych systemów uniksowych lub łatwo pobrać dla systemu Windows: GNUwin32 WGETUżywaj tego dla dobra, a nie zła.
źródło
Dobre, bezpłatne rozwiązanie: HTTrack
źródło
W systemach Linux „wget” robi to właściwie.
Został również przeniesiony na kilka innych platform, jak wspomniano w kilku innych odpowiedziach.
źródło
Oczywiście WGet został wspomniany kilka razy. Najlepszy interfejs użytkownika, jaki znalazłem, to
Istnieje kilka innych interfejsów użytkownika dla WG. Niektóre z nich są kandydatami na najgorsze pytanie dotyczące interfejsu użytkownika
źródło
Spójrz na rozszerzenie Notatnika dla firefox. Wykonuje w tym niesamowitą robotę, a także integruje się z firebugiem i pozwala usunąć elementy z DOM przed zapisaniem, jeśli chcesz.
źródło
Musisz użyć wget - który jest dostępny na większość platform. curl nie zażąda rekurencyjnie dokumentów, co jest jedną z głównych zalet wget.
Linux: (zwykle dołączony do dystrybucji) http://www.gnu.org/software/wget/
Windows: http://gnuwin32.sourceforge.net/packages/wget.htm
Mac: http: //www.geekology. co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/
PROSZĘ upewnić się, że nie hamujesz witryny - ustaw odpowiednie opóźnienia między żądaniami i upewnij się, że jest to zgodne z warunkami korzystania z witryny.
-Adam
źródło
Właściwie, śledząc mój komentarz w poście GWLlosy, przypomniałem sobie, że mam zainstalowany GnuWin32 i na pewno zawiera on port wget dla systemu Windows.
http://sourceforge.net/projects/gnuwin32/
źródło
Użyłem tego kilka lat temu i działało dobrze. Tylko Windows. Kiedyś był oprogramowaniem reklamowym, ale już nie:
http://www.webreaper.net/
źródło
wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com
źródło
-c
(lub--continue
), gdy coś pójdzie nie tak i muszę ponownie uruchomić proces.Myślę, że grabber strony IDM jest najlepszym rozwiązaniem, jest też Teleport pro
źródło
Darmowy menedżer pobierania może również pobierać kompletne strony internetowe.
Tylko Windows myślę.
źródło