Jak wyodrębnić wszystkie zewnętrzne linki strony internetowej i zapisać je w pliku?

11

Jak wyodrębnić wszystkie zewnętrzne linki strony internetowej i zapisać je w pliku?

Jeśli masz jakieś narzędzia wiersza polecenia, które byłyby świetne.

RogerioO
źródło

Odpowiedzi:

18

Będziesz potrzebował 2 narzędzi, rysia i awk , spróbuj tego:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Jeśli potrzebujesz linii numeracyjnych, użyj polecenia nl , spróbuj tego:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt
Ielton
źródło
Nie sądzę, żeby to zadziałało dla względnych adresów URL
Sridhar Sarnobat
8

Oto poprawka w odpowiedzi Leltona: wcale nie potrzebujesz awk, bo rysie ma kilka przydatnych opcji.

lynx -listonly -nonumbers -dump http://www.google.com.br

jeśli chcesz liczb

lynx -listonly -dump http://www.google.com.br
Max
źródło
0
  1. Użyj Pięknej zupy, aby pobrać dane strony internetowe.
  2. Użyj awk, aby znaleźć wszystkie adresy URL, które nie wskazują Twojej domeny

Polecam piękną zupę zamiast technik zgarniania ekranu.

Wesley
źródło
0

jeśli linia poleceń nie jest siłą, możesz użyć rozszerzenia Kopiuj wszystkie linki Firefox.

Majid Azimi
źródło