Potrzebuję programu, aby uzyskać wszystkie strony pod stroną internetową. Strona jest chińska, chcę wydobyć wszystkie angielskie słowa. Następnie mogę wyodrębnić wszystkie potrzebne informacje. Jakieś pomysły na to? Czy istnieje jakieś oprogramowanie do tego celu?
Jeśli NIE, chciałbym napisać jeden. Jakieś sugestie?
Dzięki wielkie.
Odpowiedzi:
Użyj np.
wget -r http://site.to.copy.com
Do rekurencyjnego pobierania wszystkich stron internetowych na komputer lokalny (mam nadzieję, że nie jest zbyt duży ...), a następnie możesz wyszukać lub zrobić cokolwiek z plikami.źródło
wget
( manpage tutaj ) może również służyć jako robot indeksujący, spójrz na jego--recursive
opcję.źródło
Twoje opisy robota sieciowego (coś, co zajmuje stronę, szuka wszystkich linków, podąża za nimi itp.). Istnieją już implementacje przeszukiwacza, narzędzie, które działa jak przeszukiwacze (takie jak wget), oraz pytania dotyczące ich tutaj w przepełnieniu stosu. Na przykład...
https://stackoverflow.com/questions/102631/how-to-write-a-crawler
Gdy już znajdziesz coś, co może odwiedzić każdą stronę, potrzebujesz kodu, który przeanalizuje stronę i poszuka interesującego cię tekstu.
źródło
Nie jest to rozwiązanie PHP, ale możesz użyć tekstowej przeglądarki Lynx z opcjami
-crawl
i,-dump
aby odwiedzić wszystkie strony w witrynie i zrzucić je jako pliki tekstowe. Następnie możesz użyć skryptu, aby wyodrębnić z nich potrzebne informacje.źródło