Pająk sieciowy dla Ubuntu

11

Szukam pająka internetowego dla Ubuntu, takiego jak Webripper - oprogramowanie Calluna . Możesz pobrać całą witrynę tak, jak możesz

wget -r -m example.com

ale funkcja, której szukam, polega na tym, że możesz wpisać wyszukiwane hasło, takie jak „Linux”, który przeszukuje Internet i pobiera je. Czy są takie programy na Ubuntu?

zeitue
źródło

Odpowiedzi:

4

Możesz użyć Google Alerts, aby utworzyć rodzaj strony wyszukiwania dostarczanej do kanału, a następnie użyć czytnika RSS lub Thunderbirda, aby je odczytać.

Używam Thunderbirda do RSS. Nie wiem, czy są jakieś czytniki RSS, które mogłyby wyeksportować kanał do prostego HTML.

Do zrobienia
źródło
3

Możesz wypróbować program ripper http .

Oto niektóre funkcje zamieszczone na stronie:

Free Software (GPL 3)
Generic (works with almost every website)
Runs on GNU/Linux and Windows
Nearly undetectable / blockable by servers
Built with python and pygtk

http://29a.ch/httpripper/screenshots/2.png Zrzut ekranu

Obejrzyj samouczek od samego twórcy httpripper:

Link do pobrania:

Działa dla mnie pod Ubuntu 11.10 x64

blade19899
źródło
-1

Istnieją odpowiednie moduły w CPAN Perla. Potrzebujesz tylko trochę skryptów w Perlu.

W szczególności spójrz na WWW: moduł Mechanize na WWW: moduł Mechanize .

Chris
źródło