Załóżmy, że chcę pobrać stronę wiki. Wygląda na to, że zawiera tylko 2000 artykułów - ale z technologią wiki - przechowują kilka wersji każdego artykułu ... Więc wciąż mogą być terabajty!
Więc moje pytanie brzmi - w jaki sposób można znaleźć rozmiar danej strony internetowej - BEZ POBIERANIA WITRYNY?
Odpowiedzi:
Większość stron wiki przechowuje swoje dane w bazie danych. Nie są to proste strony, które można pobrać z serwera WWW, są tworzone dynamicznie w momencie, gdy o nie poprosisz, przy użyciu szeregu zapytań do tej bazy danych.
Ustalenie rozmiaru byłoby trudne ... Potrzebny byłby całkowity rozmiar bazy danych plus wszystkie pliki pomocnicze w katalogu dostępnym w Internecie.
Podejrzewam, że jeśli chcesz pobrać wszystkie 2000 artykułów w ich obecnym stanie, możesz napisać skrypt, który zapyta bazę danych dla każdego artykułu i załaduje go na twój komputer. Ale aby przejść do wersji każdego artykułu i uzyskać dostęp do prawdopodobnie usuniętych artykułów, musisz zrozumieć schemat URL danego oprogramowania wiki. Następnie możesz zmierzyć rozmiar wszystkich tych plików .... Ale to może nie dać ci dokładnego wyobrażenia o rozmiarze, gdy wszystkie są przechowywane na stronach internetowych i serwerach baz danych.
źródło
scholarpedia.com
pomocą wget - i wydaje się, że to baza danych zamiast artykułów. Czy możesz mi podpowiedzieć o skrypcie, o którym wspominałeś?