Jak sprawić, by wget nie zawierał pewnych plików?

0

Jak zrobić wget IGNOROWAĆ niektóre pliki? Pytam, ponieważ pobiera je i usuwa je później, ponieważ nie są wymagane (są wykluczone). Ale czy istnieje opcja IGNOROWAĆ im PRZED nawet zaczynasz je pobierać?

Również robi -X stosować się także do plików, tak jak do katalogów?

Przykład:

wget -A pdf -r -l 1 -X /ABC/,/index.html -i log.txt

Albo pobrałby już plik i uruchomił go -c pominąć to?

Samuel Shifterovich
źródło
możesz spróbować --reject jpg, png --accept html, pdf
arana
@arana Nie, nie chcę przechowywać 30 000 plików HTML z log.txt. Chcę przechowywać 30 000 plików PDF, ale nie html. Jedyne pliki html, które chcę przechowywać, to te, które się powtarzają, a to /index.html. Pozostałe 30 000 pojedynczych plików html powinno zostać pobranych, zaindeksowanych za pomocą -r, a następnie usunięte.
Samuel Shifterovich
Zamierzałem użyć przełącznika --reject, który był przykładem, możesz odrzucić dowolny wzór, a jeśli użyjesz --rejectregex, możesz odrzucić pliki określające wyrażenie regularne.
arana
--rejectregex służy do odrzucania plików według nazwy, a nie rozszerzenia.
Samuel Shifterovich
nie, możesz użyć -reject, aby wykluczyć według nazwy, po prostu podaj listę nazw, których nie chcesz, reject-regexp jest dla bardziej złożonych wzorców.
arana