Jak mogę pobrać całą stronę internetową?

81

Chcę pobrać całą stronę internetową (z podstronami). Czy jest na to jakieś narzędzie?

UAdapter
źródło
1
co dokładnie próbujesz osiągnąć? tytuł i treść pytania nie są powiązane, a treść nie jest szczegółowa.
RolandiXor
Uwaga: tylko następujące linki (np. Użycie --convert-linkswget) nie ujawnią witryn, które są ujawniane tylko poprzez przesłanie formularza, między innymi.
Steven

Odpowiedzi:

140

Wypróbuj przykład 10 stąd :

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
  • –mirror : włącz opcje odpowiednie dla kopii lustrzanej.

  • -p : pobierz wszystkie pliki niezbędne do prawidłowego wyświetlenia danej strony HTML.

  • --convert-links : po pobraniu przekonwertuj łącza w dokumencie do lokalnego przeglądania.

  • -P ./LOCAL-DIR : zapisz wszystkie pliki i katalogi w określonym katalogu.
shellholic
źródło
czy jest jakiś sposób, aby pobrać tylko niektóre strony (na przykład kilka części artykułów rozłożonych na kilka dokumentów HTML)?
don.joey
@Prywatne Tak, chociaż prawdopodobnie łatwiej jest użyć Pythona lub czegoś, aby uzyskać strony (w zależności od układu / adresu URL). Jeśli URL stron różni się stale rosnącą liczbą lub masz listę stron, prawdopodobnie możesz użyć wget w skrypcie bash.
Vreality
2
Możesz rozważyć użycie --wait=secondsargumentu, jeśli chcesz być bardziej przyjazny dla strony; odczeka określoną liczbę sekund między pobraniem.
belacqua
powyższe działa, ale dla joomla sparametryzowany adres URL tworzy pliki, które nie są połączone lokalnie. Ten, który zadziałał dla mnie, to wget -m -k -K -E twoja_domena.com stąd: vaasa.hacklab.fi/2013/11/28/…
M.Hefny
1
Również, --no-parentaby „nigdy nie wchodzić do katalogu nadrzędnego” pobranego stąd .
Daniel
38

HTTrack dla systemu Linux kopiuje strony internetowe w trybie offline

httrack to narzędzie, którego szukasz.

HTTrack umożliwia pobieranie witryny sieci Web z Internetu do lokalnego katalogu, rekurencyjne budowanie wszystkich katalogów, pobieranie HTML, obrazów i innych plików z serwera na komputer. HTTrack porządkuje względną strukturę linków oryginalnej strony.

Sid
źródło
7

Ponieważ wgetmożesz pobrać całą witrynę, użyj -rprzełącznika do pobierania rekurencyjnego . Na przykład,

wget -r http://www.google.com
Arthur Knopper
źródło
6

WEBHTTRACK WEBSITE COPIER to przydatne narzędzie do pobierania całej witryny na dysk twardy w celu przeglądania w trybie offline. Uruchom centrum oprogramowania Ubuntu i wpisz „webhttrack website copier” bez cudzysłowów w polu wyszukiwania. wybierz i pobierz go z centrum oprogramowania na swój system. uruchom webHTTrack z menu Laucher lub Start, z którego możesz zacząć korzystać z tego wspaniałego narzędzia do pobierania witryny

frizeR
źródło
3

Nie wiem o subdomenach, tj. Podstronach, ale wget może być użyty do pobrania kompletnej strony. Spójrz na pytanie tego superużytkownika . Mówi, że można użyć -D domain1.com,domain2.comdo pobrania różnych domen w pojedynczym skrypcie. Myślę, że możesz użyć tej opcji do pobrania subdomen, tj-D site1.somesite.com,site2.somesite.com

binW
źródło
1

Używam Burp - narzędzie pająka jest znacznie bardziej inteligentne niż wget i można je skonfigurować tak, aby w razie potrzeby unikało sekcji. Sam pakiet Burp to potężny zestaw narzędzi pomocnych w testowaniu, ale narzędzie pająka jest bardzo skuteczne.

Rory Alsop
źródło
1
Czy nie jest tylko Burp Windows? Umowa licencyjna o zamkniętym źródle dla Burp jest również dość trudna. Nie wspominając już o cenie 299,00 $:
Kat Amsterdam
z licencji: OSTRZEŻENIE: BEZPŁATNA EDYCJA APLIKACJI BURP JEST PRZEZNACZONA DO BADANIA USTEREK BEZPIECZEŃSTWA I MOŻE USZKODZIĆ SYSTEMY DOCELOWE ZE WZGLĘDU NA NATURĘ JEGO FUNKCJONALNOŚCI. TESTOWANIE USTEREK BEZPIECZEŃSTWA NIEZWŁOCZNIE ZAANGAŻUJE SIĘ W CELE NIESTANDARDOWYCH, KTÓRE MOGĄ SPOWODOWAĆ PROBLEMY W NIEKTÓRYCH WRAŻLIWYCH CELACH. NALEŻY ODPOWIEDZIEĆ UWAGĘ PODCZAS KORZYSTANIA Z OPROGRAMOWANIA, NALEŻY PRZECZYTAĆ WSZYSTKĄ DOKUMENTACJĘ PRZED UŻYCIEM, NALEŻY PRZED ROZPOCZĘCIEM KOPIOWAĆ SYSTEMY DOCELOWE. .
Kat Amsterdam,
Za to, co robi, cena jest niesamowicie tania - polecam kupienie go do szerokiego zakresu testów bezpieczeństwa. I bardzo łatwo go skonfigurować, aby testował dokładnie tak, jak chcesz - w niektórych przypadkach bezpieczniejszy niż AppScan :-)
Rory Alsop
1
@KatAmsterdam Jeśli chodzi o pytanie dotyczące zgodności: Według Wikipedii Burp Suite jest aplikacją Java, więc powinna działać poprawnie na Ubuntu.
Eliah Kagan
Kat - działa dobrze na różnych odmianach Linuksa. Ostrzeżenie na licencji jest takie samo, jak każde narzędzie, którego można użyć do oceny bezpieczeństwa.
Rory Alsop
1

Możesz pobrać całe polecenie witryny:

wget -r -l 0 website

Przykład:

wget -r -l 0 http://google.com
Harish Kotikalapudi
źródło
Czy możesz wyjaśnić, jak działa to polecenie? Co to robi?
Kaz Wolfe
0

Jeśli problemem jest szybkość (a nie dobre samopoczucie serwera), możesz wypróbować puf , który działa jak wget, ale może pobierać kilka stron równolegle. Nie jest to jednak produkt gotowy, nieobsługiwany i strasznie nieudokumentowany. Mimo to, aby pobrać stronę internetową z dużą ilością małych plików, może to być dobra opcja.

Loevborg
źródło