Jeśli nie chcę ustawiać żadnego specjalnego zachowania, czy jest w porządku, jeśli nie przejmuję się plikiem robots.txt?

29

Jeśli nie chcę ustawiać żadnego specjalnego zachowania, czy jest w porządku, jeśli nie przejmuję się plikiem robots.txt?

A może brak jednego może być szkodliwy?

Dan Dumitru
źródło

Odpowiedzi:

30

Brak pliku robots.txt nie będzie szkodliwy. Ze strony internetowej robotstxt.org :

Aby umożliwić wszystkim robotom pełny dostęp

Klient użytkownika: *
Zabroń:

(lub po prostu utwórz pusty plik „/robots.txt” lub nie używaj go wcale)

Jednak nawet jeśli nie podajesz niczego w pliku robots.txt, jest to dobry sposób na poinformowanie wyszukiwarek o lokalizacji mapy witryny XML . Możesz to zrobić, dodając wiersz u góry pliku robots.txt, który wygląda mniej więcej tak:

Mapa strony: http://www.example.com/sitemap-host1.xml

Należy również pamiętać, że jego brak spowoduje utworzenie 404 wpisów w dziennikach internetowych.

JasonBirch
źródło
+1 - dobre podsumowanie, choć naprawdę chciałbym podkreślić to, co Kinopiko już poprawnie podkreślił : po prostu stwórz najbardziej podstawowy lub nawet pusty, aby uniknąć tych 404 i (w zależności od obsługi stron 404 twoich stron) potencjalnie dość ruchu / przepustowości , ponieważ wyszukiwarki zastosują odpowiednią kontrolę pamięci podręcznej HTTP, aby pominąć pobieranie pliku, jeśli nie zostanie zmieniony, czy będzie pusty, czy nie.
Steffen Opel
Oznaczone jako wiki, edytuj według własnego uznania.
JasonBirch,
21

Jeśli nie masz pliku „robots.txt”, w dzienniku błędów pojawi się 404 plików, co może być pewnego rodzaju irytacją, podobnie jak w przypadku braku favicon.


źródło
1
doskonały punkt ..
Jeff Atwood
1
+1 - Chciałbym dodać, że nie tylko oszczędzasz się przed większymi i hałaśliwymi plikami dziennika, ale możesz (w zależności od obsługi stron 404 stron) uniknąć potencjalnie całkiem pewnego ruchu / przepustowości, ponieważ większość 404 stron jest większy niż zwykły robots.txtplik, który dodatkowo będzie rzadziej pobierany z powodu wyszukiwarek stosujących odpowiednią kontrolę pamięci podręcznej HTTP .
Steffen Opel
6

Myślę, że to ma być OK, w przeciwnym razie ogromne połacie internecie byłoby un-indeksowane przez roboty internetowe.

Nie robots.txtjest robots.txtprawie tak samo jak „zezwalaj na indeksowanie przez wszystkich” prawie z definicji.

Jeff Atwood
źródło
2

Brak pliku robots.txt pozostawia robotowi podjęcie decyzji, co może, a czego nie może zrobić. Ponieważ uniknięcie niejasności zajmuje tylko kilka sekund, dlaczego nie stworzyć takiej, która pozwoli wszystkim agentom na dostęp do wszystkiego?

Tim Post
źródło
0

Cóż, ponieważ robots.txtzawiera adres mapy witryny , brak jej jest potencjalnie szkodliwy.

Thomas Bonini
źródło
mapy witryn są przydatne tylko dla niektórych rodzajów stron internetowych, IMO
Jeff Atwood
Widziałem także roboty indeksujące (w szczególności Google) szukające plików /sitemap.xml lub /sitemap.gz w przypadku braku pliku robots.txt
Tim Post
Nie musisz mieć mapy witryny w pliku robots.txt, możesz mimo to przesłać ją do Google / Yahoo / Bing. Zdecydowanie nie jest to „potencjalnie szkodliwe”.
DisgruntledGoat
0

W zależności od treści nie powinno być problemów z brakiem pliku robota, o ile wszystkie strony w Twojej witrynie są indeksowane przez wyszukiwarki.

Seanl
źródło