+1 dla -e robots=off! To w końcu rozwiązało mój problem! :) Dzięki
NHDaly
12
--random-waitOpcja jest geniuszem;)
poitroae
2
@izilotti Czy właściciel witryny może dowiedzieć się, czy WGOTUJESZ pliki ich witryn za pomocą tej metody?
Elias7
1
@whatIsperfect To zdecydowanie możliwe.
Jack
1
@JackNicholsonn Skąd będzie wiedział właściciel witryny? Używanym agentem była Mozilla, co oznacza, że wszystkie nagłówki zostaną wprowadzone jako przeglądarka Mozilla, a zatem wykrycie wget jako używanego nie będzie możliwe? Popraw, jeśli się mylę. dzięki
KhoPhi
63
wget -m -p -E -k -K -np http://site/path/
strona man powie ci, co robią te opcje.
wgetbędzie podążał tylko za linkami, jeśli nie ma linku do pliku ze strony indeksu, wgetnie będzie wiedział o jego istnieniu, a tym samym go nie pobierze. to znaczy. dobrze jest, jeśli wszystkie pliki są połączone na stronach internetowych lub w indeksach katalogów.
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A: akceptuje tylko pliki zip
-r: recurse
-l 1: jeden poziom w głąb (tzn. tylko pliki bezpośrednio linkowane z tej strony)
-nd: nie twórz struktury katalogów, po prostu pobierz wszystkie pliki do tego katalogu.
Wszystkie odpowiedzi z -k, -K, -Eetc opcje chyba nie bardzo rozumie pytanie, jak te za przepisywanie stron HTML, aby lokalną strukturę, zmienianie nazw .phpplików i tak dalej. Nieistotne.
Aby dosłownie pobrać wszystkie pliki z wyjątkiem.html itp:
wget --spider
najpierw sprawdzaj u siebie i zawsze dodawaj-w 1
(lub więcej-w 5
), aby nie zalać serwera drugiej osoby.Odpowiedzi:
Aby filtrować według określonych rozszerzeń plików:
Lub, jeśli wolisz długie nazwy opcji:
Spowoduje to odbicie witryny, ale pliki bez
jpg
pdf
rozszerzenia lub rozszerzenia zostaną automatycznie usunięte.źródło
--accept
rozróżniana jest--accept pdf,jpg,PDF,JPG
wget
ale musisz określić--progress
typ, np.--progress=dot
--ignore-case
flagi, aby nie--accept
rozróżniać wielkości liter.Spowodowało to pobranie całej witryny dla mnie:
źródło
-e robots=off
! To w końcu rozwiązało mój problem! :) Dzięki--random-wait
Opcja jest geniuszem;)strona man powie ci, co robią te opcje.
wget
będzie podążał tylko za linkami, jeśli nie ma linku do pliku ze strony indeksu,wget
nie będzie wiedział o jego istnieniu, a tym samym go nie pobierze. to znaczy. dobrze jest, jeśli wszystkie pliki są połączone na stronach internetowych lub w indeksach katalogów.źródło
Próbowałem pobrać pliki zip, do których linki znajdują się na stronie z motywami Omeki - całkiem podobne zadanie. To zadziałało dla mnie:
-A
: akceptuje tylko pliki zip-r
: recurse-l 1
: jeden poziom w głąb (tzn. tylko pliki bezpośrednio linkowane z tej strony)-nd
: nie twórz struktury katalogów, po prostu pobierz wszystkie pliki do tego katalogu.Wszystkie odpowiedzi z
-k
,-K
,-E
etc opcje chyba nie bardzo rozumie pytanie, jak te za przepisywanie stron HTML, aby lokalną strukturę, zmienianie nazw.php
plików i tak dalej. Nieistotne.Aby dosłownie pobrać wszystkie pliki z wyjątkiem
.html
itp:źródło
-A
jest rozróżniana-A zip,ZIP
Możesz spróbować:
Możesz również dodać:
zaakceptować określone rozszerzenia lub odrzucić tylko określone rozszerzenia:
lub aby wykluczyć określone obszary:
Jeśli pliki są ignorowane dla robotów (np. Wyszukiwarek), musisz dodać również:
-e robots=off
źródło
Spróbuj tego. U mnie to zawsze działa
źródło
spowoduje to pobranie wszystkich typów plików lokalnie i wskaże je z pliku html i zignoruje plik robots
źródło
W systemach Windows, aby uzyskać wget możesz
źródło