Jakie boty są naprawdę warte wpuszczenia na stronę?

11

Po napisaniu wielu botów i zobaczeniu ogromnej liczby losowych botów, które zdołały zaindeksować witrynę, zastanawiam się, jako webmaster, jakie boty naprawdę warto wpuścić na witrynę?

Moją pierwszą myślą jest to, że zezwalanie botom na witrynę może potencjalnie przynieść prawdziwy ruch. Czy istnieje jakiś powód, aby zezwolić botom, o których nie wiadomo, że wysyłają prawdziwy ruch do witryny, i jak rozpoznać te „dobre” boty?

błędy
źródło
1
+1: dobre pytanie; jednak trudno odpowiedzieć na twoje pytanie, ponieważ jest tak wiele botów.
Zistoloen,
@Zistoloen: Tak, wiem, że to trudne pytanie; w rzeczywistości powodem, dla którego zapytałem, jest to, że znana mi wyszukiwarka, która zaindeksowała miliardy stron, narzekała na to, że nie byli w stanie uzyskać dostępu do dużej ilości stron internetowych, ponieważ strony próbowały blokować inne, mniejsze wyszukiwarki.
błąka się
1
Powiązane: en.wikipedia.org/wiki/Spider_trap
Mooing Duck
@blunders Dziękujemy za poświęcenie czasu. Zrobiłbym to sam, gdybym mógł przeanalizować pytanie :)
DisgruntledGoat
@DisgruntledGoat: Nie ma problemu, dziękuję za zmiany!
błąka się

Odpowiedzi:

11

W sferze normalnych botów wszystko zależy od tego, co cenisz i tylko Ty możesz to zdecydować. Oczywiście jest Google, Bing / MSN / Yahoo !, Baidu i Yandex. Są to główne wyszukiwarki. Istnieją również różne strony SEO i linki zwrotne. Dobrze czy źle, pozwalam kilku dużym na dostęp do mojej witryny, ale ogólnie są to strony bezużyteczne. Blokuję archive.org nie tylko w pliku robots.txt, ale według nazwy domeny i adresu IP. To dlatego, że ignorują robots.txt przez długi czas! Jest to coś, co musisz poczuć. Nie daj się zwieść nazwiskom agentów. Często są wykute przez złych ludzi. Teraz otrzymuję tysiące żądań stron ze źródeł podających się za Baidu, ale nie są. Poznaj tych pająków według nazw domen i bloków adresów IP i naucz się radzić sobie z nimi na tym poziomie. Ci dobrzy stosują się do pliku robots.txt.

Ale muszę cię ostrzec, istnieje mnóstwo botów ukrytych, nieuczciwych botów, skrobaków i tak dalej, że będziesz chciał często przeszukiwać analizę logów i blokować. To 5uck5! Ale trzeba to zrobić. Największe zagrożenie ze strony tych dni to niskiej jakości linki do Twojej witryny. Mój zaktualizowany kod zabezpieczający przed botami, który wdrożyłem w tym roku, automatycznie zrzucił 7700 linków niskiej jakości. Oczywiście mój kod wciąż wymaga pracy, ale rozumiesz. Złe boty wciąż kradną potencjał strony.

Nie potrwa długo, zanim się zorientujesz.

closetnoc
źródło
1

Miałem problemy z botami Baidu spowalniającymi mój serwer, gdy wyszukiwarka prawie nie wysyłała ruchu. Boty te nie szanują pliku robots.txt, więc aby zablokować boty Baidu, wystarczy wkleić następujące elementy do pliku htccess.

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

Miałem również problemy z zbyt szybkim indeksowaniem pająków Bing / Microsoft, w przeciwieństwie do Baidu, szanują plik robots.txt, więc;

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
Chaoley
źródło