Szukam programu do spideringu strony internetowej * i pobrania zawartości na dysk. Mam jednak następujące wymagania, które wydają się wyzwalać programy, które próbowałem:
- Proces logowania do witryny jest rozłożony na wiele stron, więc muszę mieć możliwość ręcznego rozpoczęcia sesji za pomocą przeglądarki internetowej, uwierzytelnienia, a następnie uruchomienia pająka i umożliwienia mu dostępu do plików cookie.
- Wiele linków uruchamia Javascript, a następnie zwraca treść.
- Wiele linków zwraca dokumenty PDF (niektóre pająki to obsługują).
Jak dotąd nie jestem w stanie znaleźć pająka, który poradziłby sobie z numerami 1 i 2.
* Strona jest usługą płatności rachunków i ma moją historię rachunków. Chcę przestać korzystać z usługi, ale chcę zachować historię.
browser
web-crawler
Matt
źródło
źródło