Kontrola nad archiwum internetowym oprócz „Disallow /”?

13

Czy istnieją jakieś mechanizmy kontrolujące, co archiwum archiwum internetowego w witrynie? Wiem, że nie zezwalam na dodawanie wszystkich stron :

User-agent: ia_archiver
Disallow: /
  1. Czy mogę powiedzieć botowi, że chcę, aby indeksowali moją witrynę raz w miesiącu lub raz w roku?

  2. Mam witrynę / strony, które nie są / nie są poprawnie archiwizowane z powodu nieodebrania zasobów. Czy istnieje sposób, aby powiedzieć botowi Archiwum internetowego, jakich zasobów potrzebuje, aby przejąć witrynę?

artlung
źródło
Jestem również bardzo zainteresowany odpowiedziami na to pytanie. +1 :)
Tim Post

Odpowiedzi:

8

Uwaga : ta odpowiedź jest coraz bardziej nieaktualna.

Największym wkładem do kolekcji internetowej Archiwum internetowego była Alexa Internet. Materiał, który Alexa indeksuje dla swoich celów, został przekazany IA kilka miesięcy później. Dodanie wspomnianej w pytaniu reguły nie zezwalającej nie wpływa na te czołgi, ale Wayback „z mocą wsteczną” je uhonoruje (odmawiając dostępu, materiał nadal będzie w archiwum - należy wykluczyć robota Alexy, jeśli naprawdę chcesz ukryć swój materiał archiwum internetowego).

Mogą istnieć sposoby wpływania na czołgi Alexy, ale nie znam tego.

Odkąd IA opracowała własnego robota (Heritrix), zaczęły robić swoje własne roboty, ale zwykle są to roboty indeksowane (robią wybory do Biblioteki Kongresu i robią indeksy krajowe dla Francji i Australii itp.). Nie angażują się w trwałe indeksowanie na skalę światową, które prowadzą Google i Alexa. Największe indeksowanie IA było specjalnym projektem, który zaindeksował 2 miliardy stron.

Ponieważ te indeksuje są eksploatowane na harmonogramy, które wynikają z czynników konkretnego projektu, nie mogą wpływać na jak często odwiedzają witrynę lub jeśli oni odwiedzić witrynę.

Jedynym sposobem, aby bezpośrednio wpłynąć na sposób i czas indeksowania witryny przez IA, jest skorzystanie z usługi Archive-It . Ta usługa umożliwia określenie niestandardowych indeksowań. Dane wynikowe zostaną (ostatecznie) włączone do kolekcji internetowej IA. Jest to jednak płatna usługa subskrypcji.

Kris
źródło
3
Twój komentarz na temat IA przeprowadzającego własne indeksowanie był prawdziwy w 2011 roku i nie jest już prawdziwy w 2016 roku: teraz dużo indeksujemy.
Greg Lindahl,
@GregLindahl zapraszamy do dodania zaktualizowanej odpowiedzi na to pytanie
Stephen Ostermiller
2

Większość wyszukiwarek obsługuje dyrektywę „Opóźnienie indeksowania”, ale nie wiem, czy IA to robi. Możesz jednak spróbować:

User-agent: ia_archiver
Crawl-delay: 3600

Ograniczyłoby to opóźnienie między żądaniami do 3600 sekund (tj. 1 godziny) lub ~ 700 żądań na miesiąc.

Nie sądzę, aby # 2 było możliwe - bot IA chwyta zasoby, kiedy tylko uzna to za stosowne. Może mieć limit rozmiaru pliku, aby uniknąć użycia zbyt dużej ilości pamięci.

DisgruntledGoat
źródło
@Kris: Ustawienie opóźnienia indeksowania powinno to zrobić przez serwer proxy. Jeśli masz 30 stron i każesz robotowi, aby trafiał tylko raz dziennie, każda strona będzie odświeżana mniej więcej co 30 dni. (Oczywiście, że nie jest to gwarancja.)
Niezadowolony Pójdź
Teoretycznie tak, jeśli jednak przeszukujesz archiwum, nigdy nie przestrzegałbyś takiej zasady. Przeszukiwanie witryny dziennie dokument oznacza, że ​​nie można uzyskać dobrego przechwytywania witryny w określonym momencie. Jeśli ten atrybut miałby być przestrzegany, miałby górny limit 1-5 minut podczas dowolnego indeksowania archiwalnego .
Kris,
Ach OK, rozumiem twój punkt widzenia.
Disgruntled Goo
Właśnie patrzyłem na niedawno wydaną wersję Heritrix 3 i widzę, że dodali obsługę dyrektywy o opóźnieniu indeksowania, ale domyślnie przestrzega ona maksymalnie 300 sekund (5 minut).
Kris,