Jak znaleźć rozmiar strony internetowej? [Zamknięte]

2

Załóżmy, że chcę pobrać stronę wiki. Wygląda na to, że zawiera tylko 2000 artykułów - ale z technologią wiki - przechowują kilka wersji każdego artykułu ... Więc wciąż mogą być terabajty!

Więc moje pytanie brzmi - w jaki sposób można znaleźć rozmiar danej strony internetowej - BEZ POBIERANIA WITRYNY?

Cegła suszona na słońcu
źródło
Nie możesz To tak, jakby zapytać: „Jak długa jest lina?”. Odpowiedź brzmi: „To zależy”.
TFM,
BTW: Można zgadywać: „szacunkowa liczba bajtów na stronę” x „liczba stron” x „szacunkowa liczba zmian na stronie”. Ale co ze zdjęciami?
TFM,
Zależy to całkowicie od danej witryny, a więc jest zbyt szerokie. Rozmiar będzie znany tylko wtedy, gdy w pełni (rekurencyjnie) pobierzesz każdą dostępną stronę, a następnie spojrzysz na rozmiar. Nawiasem mówiąc: niektóre Wiki pozwalają na pobieranie treści w jednym wielkim zrzutu.
slhck,
Nie pytam „jak długa jest lina” - pytam niejako „jak znaleźć daną długość liny”.
Adobe,

Odpowiedzi:

1

Większość stron wiki przechowuje swoje dane w bazie danych. Nie są to proste strony, które można pobrać z serwera WWW, są tworzone dynamicznie w momencie, gdy o nie poprosisz, przy użyciu szeregu zapytań do tej bazy danych.

Ustalenie rozmiaru byłoby trudne ... Potrzebny byłby całkowity rozmiar bazy danych plus wszystkie pliki pomocnicze w katalogu dostępnym w Internecie.

Podejrzewam, że jeśli chcesz pobrać wszystkie 2000 artykułów w ich obecnym stanie, możesz napisać skrypt, który zapyta bazę danych dla każdego artykułu i załaduje go na twój komputer. Ale aby przejść do wersji każdego artykułu i uzyskać dostęp do prawdopodobnie usuniętych artykułów, musisz zrozumieć schemat URL danego oprogramowania wiki. Następnie możesz zmierzyć rozmiar wszystkich tych plików .... Ale to może nie dać ci dokładnego wyobrażenia o rozmiarze, gdy wszystkie są przechowywane na stronach internetowych i serwerach baz danych.

TheWellington
źródło
W pewnym stopniu znam Pythona i Perla ... Ale nie mogę nawet zobrazować skryptu, który zapytałby bazy danych wiki dla każdego artykułu - i pobrać go. Obecnie próbuję pobrać za scholarpedia.compomocą wget - i wydaje się, że to baza danych zamiast artykułów. Czy możesz mi podpowiedzieć o skrypcie, o którym wspominałeś?
Adobe,
Zadałem pytanie na temat przepływu stosu dla takiego skryptu.
Adobe,
Przepraszam ... Powinienem sprawdzać częściej ... Nie .. Nie mogę podać przykładu skryptu ... To był bardzo hipotetyczny "Przypuszczam ..." Jak w "Prawdopodobnie nie jest dobry pomysł ... ”
TheWellington,