Po napisaniu wielu botów i zobaczeniu ogromnej liczby losowych botów, które zdołały zaindeksować witrynę, zastanawiam się, jako webmaster, jakie boty naprawdę warto wpuścić na witrynę?
Moją pierwszą myślą jest to, że zezwalanie botom na witrynę może potencjalnie przynieść prawdziwy ruch. Czy istnieje jakiś powód, aby zezwolić botom, o których nie wiadomo, że wysyłają prawdziwy ruch do witryny, i jak rozpoznać te „dobre” boty?
Odpowiedzi:
W sferze normalnych botów wszystko zależy od tego, co cenisz i tylko Ty możesz to zdecydować. Oczywiście jest Google, Bing / MSN / Yahoo !, Baidu i Yandex. Są to główne wyszukiwarki. Istnieją również różne strony SEO i linki zwrotne. Dobrze czy źle, pozwalam kilku dużym na dostęp do mojej witryny, ale ogólnie są to strony bezużyteczne. Blokuję archive.org nie tylko w pliku robots.txt, ale według nazwy domeny i adresu IP. To dlatego, że ignorują robots.txt przez długi czas! Jest to coś, co musisz poczuć. Nie daj się zwieść nazwiskom agentów. Często są wykute przez złych ludzi. Teraz otrzymuję tysiące żądań stron ze źródeł podających się za Baidu, ale nie są. Poznaj tych pająków według nazw domen i bloków adresów IP i naucz się radzić sobie z nimi na tym poziomie. Ci dobrzy stosują się do pliku robots.txt.
Ale muszę cię ostrzec, istnieje mnóstwo botów ukrytych, nieuczciwych botów, skrobaków i tak dalej, że będziesz chciał często przeszukiwać analizę logów i blokować. To 5uck5! Ale trzeba to zrobić. Największe zagrożenie ze strony tych dni to niskiej jakości linki do Twojej witryny. Mój zaktualizowany kod zabezpieczający przed botami, który wdrożyłem w tym roku, automatycznie zrzucił 7700 linków niskiej jakości. Oczywiście mój kod wciąż wymaga pracy, ale rozumiesz. Złe boty wciąż kradną potencjał strony.
Nie potrwa długo, zanim się zorientujesz.
źródło
Miałem problemy z botami Baidu spowalniającymi mój serwer, gdy wyszukiwarka prawie nie wysyłała ruchu. Boty te nie szanują pliku robots.txt, więc aby zablokować boty Baidu, wystarczy wkleić następujące elementy do pliku htccess.
Miałem również problemy z zbyt szybkim indeksowaniem pająków Bing / Microsoft, w przeciwieństwie do Baidu, szanują plik robots.txt, więc;
źródło