zdobądź każdą stronę pod stroną internetową

0

Potrzebuję programu, aby uzyskać wszystkie strony pod stroną internetową. Strona jest chińska, chcę wydobyć wszystkie angielskie słowa. Następnie mogę wyodrębnić wszystkie potrzebne informacje. Jakieś pomysły na to? Czy istnieje jakieś oprogramowanie do tego celu?

Jeśli NIE, chciałbym napisać jeden. Jakieś sugestie?

Dzięki wielkie.

Ryan
źródło
4
gnu.org/software/wget
jeffamaphone
spidersoft.com, jeśli nie jest dostępny wget
DFectuoso

Odpowiedzi:

10

Użyj np. wget -r http://site.to.copy.comDo rekurencyjnego pobierania wszystkich stron internetowych na komputer lokalny (mam nadzieję, że nie jest zbyt duży ...), a następnie możesz wyszukać lub zrobić cokolwiek z plikami.


źródło
Co chciałem zasugerować. Po co zawracać sobie głowę budowaniem kolejnej pułapki na myszy?
Carl Smotricz
2
Możesz również rozważyć użycie flagi „--convert-links”, aby móc przeglądać lokalnie ...
AJ.
W zależności od liczby stron, które zamierzasz pobrać, możesz również określić opcję --limit-rate, aby uniknąć przeciążenia serwera.
3

wget( manpage tutaj ) może również służyć jako robot indeksujący, spójrz na jego --recursiveopcję.

Wim
źródło
3

Twoje opisy robota sieciowego (coś, co zajmuje stronę, szuka wszystkich linków, podąża za nimi itp.). Istnieją już implementacje przeszukiwacza, narzędzie, które działa jak przeszukiwacze (takie jak wget), oraz pytania dotyczące ich tutaj w przepełnieniu stosu. Na przykład...

https://stackoverflow.com/questions/102631/how-to-write-a-crawler

Gdy już znajdziesz coś, co może odwiedzić każdą stronę, potrzebujesz kodu, który przeanalizuje stronę i poszuka interesującego cię tekstu.

Martin Peck
źródło
1

Nie jest to rozwiązanie PHP, ale możesz użyć tekstowej przeglądarki Lynx z opcjami -crawli, -dumpaby odwiedzić wszystkie strony w witrynie i zrzucić je jako pliki tekstowe. Następnie możesz użyć skryptu, aby wyodrębnić z nich potrzebne informacje.

Ken Keenan
źródło