Istnieją dwie strony internetowe.
1) www.aa.com
2) www.bb.com
Obecnie istnieje wiele linków do aa.com i jej stron internetowych na bb.com lubić
aa.com/blhahhaa.html
aa.com/beautifulday.html
aa.com
więc chcę się dowiedzieć tej listy.
Czy jest do tego dostępny jakiś skrypt lub narzędzie? jakikolwiek pomysł, jak stworzyć takie narzędzie?
To jest coś, co google indeksuje całą witrynę, ale tutaj chcę zaindeksować tylko jedną witrynę.
website
url
web-crawler
Jeegar Patel
źródło
źródło
Odpowiedzi:
Jeśli używasz Linuksa, używałbym strony do czytania skryptów Bash wget i parsowanie go w poszukiwaniu linków, a następnie indeksowanie linków Używaj do tego Google, jest mnóstwo gotowych skryptów.
Jeśli w systemie Windows użyłbym twojego preferowanego języka kędzior rozszerzenie, aby uzyskać zawartość strony zamiast
wget
. Jeśli czytasz stronę wiki, strona „Zobacz także” nawet się kierujewget
. Wykop to.PS To twoje pytanie wydaje się mało leniwe.
źródło