Używam następującego pliku robots.txt dla witryny: Celem jest umożliwienie googlebotowi i bingbotowi dostępu do witryny z wyjątkiem strony /bedven/bedrijf/*
i zablokowanie indeksowania witryny przez inne boty.
User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: *
Disallow: /
Czy ostatnia reguła User-agent: * Disallow: /
zabrania wszystkim robotom indeksowania wszystkich stron w witrynie?
web-crawlers
robots.txt
Konsole
źródło
źródło
robots.txt
tak czy inaczejrobots.txt
, a przynajmniejDisallow: /
zasady. Jeśli twoja osobista strona internetowa wbija się w ziemię, ponieważ programista botów nigdy nie pomyślał, że serwer może być Raspberry Pi na niewłaściwym końcu połączenia 256 kbit, przydatne jest takie ogólne wyłączenie.Odpowiedzi:
Po ostatnim rekordzie (rozpoczętym przez
User-agent: *
) wszystkie uprzejme boty, które nie będą się identyfikować jako „googlebot”, „google”, „bingbot” lub „bing”.I tak, oznacza to, że nie wolno im się czołgać.
Może chcesz pominąć
*
in/bedven/bedrijf/*
.W oryginalnej specyfikacji robots.txt
*
nie ma żadnego specjalnego znaczenia, jest to po prostu znak jak każdy inny. Pozwoliłoby to tylko na indeksowanie stron, które dosłownie mają znak*
w adresie URL.Chociaż Google nie przestrzega specyfikacji robots.txt w tym względzie, ponieważ używają one
*
jako symbolu wieloznacznego dla „dowolnej sekwencji znaków”, w tym przypadku nie jest to potrzebne :/bedven/bedrijf/*
i/bedven/bedrijf/
oznaczałoby dokładnie to samo: blokuj wszystkie adresy URL, których ścieżka zaczyna się od/bedven/bedrijf/
.I wreszcie, możesz zredukować plik robots.txt do dwóch rekordów, ponieważ rekord może zawierać wiele
User-agent
wierszy :źródło
Boty, szczególnie te złe, mogą ignorować plik robots.txt. Więc bez względu na to, co tam jest napisane, niektóre boty mogą zaindeksować twoją stronę.
źródło