Chcę uzyskać wszystkie pliki dla danej witryny w Archive.org. Przyczyny mogą obejmować:
- oryginalny autor nie zarchiwizował własnej strony internetowej i jest teraz offline, chcę z niej zrobić publiczną pamięć podręczną
- Jestem oryginalnym autorem niektórych stron i straciłem trochę treści. Chcę to odzyskać
- ...
W jaki sposób mogę to zrobić ?
Biorąc pod uwagę, że maszyna wayback archive.org jest bardzo wyjątkowa: linki do stron internetowych nie wskazują samego archiwum, ale strony internetowej, której już nie ma. JavaScript jest używany po stronie klienta do aktualizacji linków, ale sztuczka taka jak rekursywny wget nie działa.
gem install wayback_machine_downloader
. Uruchom wayback_machine_downloader z podstawowym adresem URL strony, którą chcesz pobrać jako parametr:wayback_machine_downloader http://example.com
Więcej informacji: github.com/hartator/wayback_machine_downloaderOdpowiedzi:
Próbowałem różnych sposobów, aby pobrać witrynę i wreszcie znalazłem narzędzie do pobierania maszyny powrotnej - o którym wspomniał wcześniej Hartator (więc proszę, wszystkie kredyty należą się do niego), ale po prostu nie zauważyłem jego komentarza do pytania. Aby zaoszczędzić Twój czas, postanowiłem dodać klejnot wayback_machine_downloader jako osobną odpowiedź tutaj.
Witryna http://www.archiveteam.org/index.php?title=Restoring zawiera listę tych sposobów pobierania z archive.org:
źródło
Można to zrobić za pomocą skryptu powłoki bash w połączeniu z
wget
.Chodzi o to, aby skorzystać z niektórych funkcji adresu URL maszyny do powrotu:
http://web.archive.org/web/*/http://domain/*
wyświetli listę wszystkich zapisanych stron zhttp://domain/
rekurencyjnie. Można go użyć do utworzenia indeksu stron do pobrania i uniknięcia heurystyki w celu wykrycia linków na stronach internetowych. Dla każdego linku jest także data pierwszej wersji i ostatniej wersji.http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page
wyświetli wszystkie wersje zhttp://domain/page
roku RRRR. Na tej stronie można znaleźć konkretne linki do wersji (z dokładnym znacznikiem czasu)http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page
zwróci niezmodyfikowaną stronęhttp://domain/page
o podanym znaczniku czasu. Zwróć uwagę na token id_ .To są podstawy do zbudowania skryptu do pobierania wszystkiego z danej domeny.
źródło
http://web.archive.org/web/19981202230410/http://www.google.com/
) i dodajid_
na końcu „numerów dat”. Wtedy dostaniesz coś takiegohttp://web.archive.org/web/19981202230410id_/http://www.google.com/
.Istnieje narzędzie zaprojektowane specjalnie do tego celu, Warrick: https://code.google.com/p/warrick/
Opiera się na protokole Memento.
źródło
Możesz to zrobić z łatwością
wget
.Gdzie
ROOT
jest główny adres URL witryny iSTART
początkowy adres URL. Na przykład:Pamiętaj, że należy pominąć ramkę zawijania archiwum internetowego dla
START
adresu URL. W większości przeglądarek możesz kliknąć stronę prawym przyciskiem myszy i wybrać „Pokaż tylko tę ramkę”.źródło