Jak mam pobrać listę plików z serwera plików takiego jak ten http://www.apache.org/dist/httpd/binaries/ ?
Przypuszczam, że mógłbym użyć wget, ale potem próbuje uzyskać wszystkie linki i plik HTML. Czy istnieje lepsze narzędzie do osiągnięcia tego?
download
apache-http-server
wget
BinaryMisfit
źródło
źródło
Odpowiedzi:
Możesz określić, jakie rozszerzenia plików
wget
będą pobierane podczas indeksowania stron:to wykona rekurencyjnego wyszukiwania i tylko pobierać pliki z
.zip
,.rpm
i.tar.gz
rozszerzeń.źródło
załóżmy, że naprawdę chcesz tylko listę plików na serwerze bez ich pobierania (jeszcze):
podczas gdy „filter.awk” wygląda tak
wtedy prawdopodobnie będziesz musiał odfiltrować niektóre wpisy, takie jak
źródło
Patrz: http://blog.incognitech.in/download-files-from-apache-server-listing-directory/
Możesz użyć następującego polecenia:
Objaśnienie każdej opcji
wget
: Proste polecenie, aby wysłać żądanie CURL i pobrać zdalne pliki na nasz komputer lokalny.--execute="robots = off"
: To zignoruje plik robots.txt podczas przeszukiwania stron. Jest to pomocne, jeśli nie otrzymujesz wszystkich plików.--mirror
: Ta opcja będzie zasadniczo odzwierciedlać strukturę katalogów dla podanego adresu URL. Jest to skrót,-N -r -l inf --no-remove-listing
który oznacza:-N
: nie pobieraj ponownie plików, chyba że nowsze niż lokalne-r
: określ pobieranie rekurencyjne-l inf
: maksymalna głębokość rekurencji (inf lub 0 dla nieskończoności)--no-remove-listing
: nie usuwaj plików „.listing”--convert-links
: twórz linki w pobranym HTML lub CSS wskazują na pliki lokalne--no-parent
: nie wchodź do katalogu nadrzędnego--wait=5
: poczekaj 5 sekund między pobraniem. Abyśmy nie przerzucili serwera.<website-url>
: To jest adres strony internetowej, z której można pobrać pliki.Happy Download: buźka:
źródło