Mam stronę internetową, w której przeważnie nie chcę być indeksowana przez wyszukiwarki, ale chcę ją zachować na wieczność na archive.org. Więc robots.txt
zaczynam od tego:
User-agent: *
Disallow: /
Dzisiaj, zgodnie z archive.org, muszę dodać następujące w moim, robots.txt
aby pozwolić ich botom:
User-agent: ia_archiver
Disallow:
Ale już zrobiłem to, co wskazali kilka lat temu, przynajmniej dodałem następujące:
User-agent: archive.org_bot
Disallow:
Jest też inne źródło, w którym twierdzisz, że musisz dodać dwa powyższe Disallow
s, plus jeszcze jedno:
User-agent: ia_archiver-web.archive.org
Disallow:
Pamiętaj, że musisz Disallow: /
to zrobić , jeśli nie chcesz, aby bot archiwizował twoją stronę.
Czy nastąpiła zmiana w bocie IA? Jeśli tak, to kiedy?
Jaki jest zalecany sposób? Czy powinienem na razie pozwolić wszystkim trzem i mieć nadzieję, że IA nie zmieni swojej nazwy bota w przyszłości?
Odpowiedzi:
Aktualizacja : Jak zauważa @KevinFegan w komentarzach, ich dokumentacja uległa zmianie. Poniższa część opisuje, jak archiwum internetowe radziło sobie z tym w przeszłości (przynajmniej w 2014 r.).
Często zadawane pytania Jak mogę wykluczyć strony mojej witryny z Wayback Machine? odnosi się do usuwania dokumentów z Wayback Machine , które dokumentuje, że ich bot jest nazywany
ia_archiver
.Ten zapis powinien pozwolić robotowi na zindeksowanie całej witryny:
źródło
*
Mecze grupowe tylko wtedy, gdy żadna inna grupa dopasowane.Naprawdę są tutaj 2 problemy:
robots.txt
w Twojej witrynie nie zezwolisz (zablokujesz) Wayback na indeksowanie witryny.Dla punktu 1:
Jak powiedzieli inni, poprawny wpis dla pliku robots.txt to:
Pamiętaj, że może to trochę potrwać (być może długo), aby Wayback zauważył wszelkie zmiany wprowadzone w pliku robots.txt.
Aby sprawdzić, czy w
robots.txt
witrynie zezwala Wayback na indeksowanie witryny:"Browse History"
przycisk."Save Page"
przycisk.W tym momencie powinieneś zobaczyć 1 z 3 rzeczy:
A teraz punkt 2:
Czy Wayback zaindeksuje Twoją witrynę?
Tylko dlatego, że Pozwól Wayback do indeksowania witryny, nie oznacza, że będą one (kiedykolwiek) indeksowania witryny.
Zgodnie z Wayback FAQ (wyróżnienie dodane):
Aktualizacja: 09 maja 2017 r
Inni zostawili komentarze / odpowiedzi wskazujące, że Archive.org nie honoruje już robots.txt. Być może jest to „praca w toku” i ostatecznie tak będzie, ale nie widziałem jeszcze tego nowego zachowania.
Przyczyna tego wydaje się wynikać z tego artykułu : Robots.txt: ROBOTS.TXT JEST UWAGĄ NA samobójstwo autorstwa
archiveteam.org
. Chociaż ta strona ma niewiele, jeśli cokolwiek dobrego do powiedzenia na temat „Robots.txt”, nigdzie nie wspomina, że Archive.org nie będzie dłużej honorować robots.txt.Warto również zauważyć: ten artykuł jest hostowany
archiveteam.org
, co zdecydowanie nie jestarchive.org
, i nie jestem pewien, czy istnieje (oficjalny) związek międzyarchive.org
iarchiveteam.org
.W rzeczywistości ta strona o zespole archiwalnym wydaje się zawierać rozróżnienie między i (podkreślenie dodane):
archive.org
archive.org
archiveteam.org
W każdym razie postanowiłem spróbować i odkryłem, że przynajmniej w tym momencie Archive.org STILL honoruje plik robots.txt:
archive.org
oznacza to, że „Strona nie może zostać wyświetlona z powodu pliku robots.txt”.Więc w tej chwili nie jestem przekonany, ale chciałbym, aby udowodniono, że się mylę ... byłoby wspaniale, gdyby to była prawda.
źródło
Aktualizacja 2017
Archiwum bota teraz nie dba o plik robots.txt.
Jeśli naprawdę chcesz to zablokować, wyślij im wiadomość e-mail zgodnie z tą stroną lub zablokuj ich adres IP przez htaccess.
źródło
Plik robots.txt ia_archiver Disallow (z „/”) powinien być odpowiedni do opisanej potrzeby („zachować na wieczność”, ale jeszcze nie publicznie).
Właśnie zrobiłem szybki test, komentując pozycję ia_archiver Disallow dla witryny, która miała ją przez co najmniej 10 lat. Potem przejrzałem stronę na archive.org/web i pokazałem, że zebrałem ją w 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 i 2017! Oznacza to, że Archive.org nigdy nie przestrzegało ściśle tego, co inni uważali za oświadczenie „nie archiwizuj” w tych latach, po prostu nie ujawniało zarchiwizowanych kopii.
źródło
źródło
Wypróbowałem tę
robots.txt
metodę i nie zadziałała. Więc skontaktowałem się z witryną na ich adres e-mail [email protected]:I otrzymałem następującą odpowiedź:
Utworzyłem
wayback-removal-request.html
z następującą zawartością (nawet niepoprawny HTML):Przesłałem go i odpowiedziałem na swój adres e-mail, pod którym URL był dostępny, a później otrzymałem następującą odpowiedź:
Gdy sprawdziłem kilka godzin później, moja witryna została usunięta.
źródło