To trochę nie na temat, ale mam nadzieję, że mi pomożecie. Znalazłem witrynę pełną artykułów, których potrzebuję, ale są one mieszane z wieloma bezużytecznymi plikami (głównie jpg).
Chciałbym wiedzieć, czy istnieje sposób, aby znaleźć ( nie pobrać ) wszystkie pliki PDF na serwerze, aby utworzyć listę łączy. Zasadniczo chciałbym po prostu odfiltrować wszystko, co nie jest plikiem PDF, aby uzyskać lepszy widok tego, co należy pobrać, a co nie.
Odpowiedzi:
Przegląd
Ok, no to dajesz. To jest programowe rozwiązanie w postaci skryptu:
Instalacja
Będziesz musiał mieć
wget
ilynx
zainstalować:Stosowanie
Skrypt pobierze listę wszystkich
.pdf
plików na stronie i zrzuci ją do wyjścia wiersza poleceń i pliku tekstowego w katalogu roboczym. Jeśli skomentujesz polecenie „opcjonalne”,wget
skrypt przejdzie do pobierania wszystkich plików do nowego katalogu.Przykład
źródło
"$(pwd)/pdflinks.txt"
zamiastpdflinks.txt
?prosty fragment javascript może rozwiązać ten problem: (UWAGA : Zakładam, że wszystkie pliki pdf mają rozszerzenie .pdf w linku).
otwórz konsolę javascript przeglądarki, skopiuj poniższy kod i wklej go do konsoli js, gotowe!
źródło
lu
Funkcja musiała być:lu.endsWith (".pdf") == 1
, to załatwił mi tylko linki PDF, nie wszystkie linki z „* .pdf *” w nich, co jest, co mam z kodem jak pisał. FWIW.