Czy istnieją jakieś mechanizmy kontrolujące, co archiwum archiwum internetowego w witrynie? Wiem, że nie zezwalam na dodawanie wszystkich stron :
User-agent: ia_archiver
Disallow: /
Czy mogę powiedzieć botowi, że chcę, aby indeksowali moją witrynę raz w miesiącu lub raz w roku?
Mam witrynę / strony, które nie są / nie są poprawnie archiwizowane z powodu nieodebrania zasobów. Czy istnieje sposób, aby powiedzieć botowi Archiwum internetowego, jakich zasobów potrzebuje, aby przejąć witrynę?
cache
internet-archive
artlung
źródło
źródło
Odpowiedzi:
Uwaga : ta odpowiedź jest coraz bardziej nieaktualna.
Największym wkładem do kolekcji internetowej Archiwum internetowego była Alexa Internet. Materiał, który Alexa indeksuje dla swoich celów, został przekazany IA kilka miesięcy później. Dodanie wspomnianej w pytaniu reguły nie zezwalającej nie wpływa na te czołgi, ale Wayback „z mocą wsteczną” je uhonoruje (odmawiając dostępu, materiał nadal będzie w archiwum - należy wykluczyć robota Alexy, jeśli naprawdę chcesz ukryć swój materiał archiwum internetowego).
Mogą istnieć sposoby wpływania na czołgi Alexy, ale nie znam tego.
Odkąd IA opracowała własnego robota (Heritrix), zaczęły robić swoje własne roboty, ale zwykle są to roboty indeksowane (robią wybory do Biblioteki Kongresu i robią indeksy krajowe dla Francji i Australii itp.). Nie angażują się w trwałe indeksowanie na skalę światową, które prowadzą Google i Alexa. Największe indeksowanie IA było specjalnym projektem, który zaindeksował 2 miliardy stron.
Ponieważ te indeksuje są eksploatowane na harmonogramy, które wynikają z czynników konkretnego projektu, nie mogą wpływać na jak często odwiedzają witrynę lub jeśli oni odwiedzić witrynę.
Jedynym sposobem, aby bezpośrednio wpłynąć na sposób i czas indeksowania witryny przez IA, jest skorzystanie z usługi Archive-It . Ta usługa umożliwia określenie niestandardowych indeksowań. Dane wynikowe zostaną (ostatecznie) włączone do kolekcji internetowej IA. Jest to jednak płatna usługa subskrypcji.
źródło
Większość wyszukiwarek obsługuje dyrektywę „Opóźnienie indeksowania”, ale nie wiem, czy IA to robi. Możesz jednak spróbować:
Ograniczyłoby to opóźnienie między żądaniami do 3600 sekund (tj. 1 godziny) lub ~ 700 żądań na miesiąc.
Nie sądzę, aby # 2 było możliwe - bot IA chwyta zasoby, kiedy tylko uzna to za stosowne. Może mieć limit rozmiaru pliku, aby uniknąć użycia zbyt dużej ilości pamięci.
źródło