Świetne pytanie, a jednym z wielu webmasterów może być zainteresowany, ponieważ pająk Baidu jest niezwykle agresywny i może usuwać zasoby z serwerów ...
Jak wskazano w wiadomościach wyszukiwarki internetowej Baidu, pająk Baidu nie obsługuje ustawienia powiadamiania o opóźnieniu indeksowania , a zamiast tego wymaga rejestracji i weryfikacji witryny za pomocą platformy Narzędzi dla webmasterów Baidu, jak podano tutaj na tej stronie. To wydaje się być jedyną opcją do kontrolowania częstotliwości czołgania bezpośrednio w Baidu.
Problem polega na tym, że inne roboty spamujące używają aplikacji klienckich Baidu (wymienionych tutaj pod numerem 2) do spider-owania twojej witryny, jak wskazano w ich często zadawanych pytaniach tutaj pod numerem 4. Dlatego żądanie wolniejszego indeksowania w Baidu może nie rozwiązać wszystkiego.
Dlatego jeśli zdecydujesz się na użycie Narzędzi dla webmasterów Baidu, rozsądne może być również porównanie swoich programów klienckich z adresami IP, o których wiadomo, że są z nimi powiązane, przy użyciu zasobów takich jak Baza Bots vs. Przeglądarki lub odwrotne wyszukiwanie DNS
Jedynymi innymi opcjami są albo blokowanie wszystkich klientów użytkownika Baidu, a tym samym poświęcenie potencjalnego ruchu z Baidu, lub próba ograniczenia nadmiernych żądań przy użyciu czegoś takiego jak mod_qos dla Apache, który twierdzi, że zarządza:
- Maksymalna liczba jednoczesnych żądań do lokalizacji / zasobu (URL) lub hosta wirtualnego.
- Ograniczenie przepustowości, takie jak maksymalna dozwolona liczba żądań na sekundę do adresu URL lub maksymalna / minimalna liczba pobranych kilobajtów na sekundę.
- Ogranicza liczbę zdarzeń żądania na sekundę (specjalne warunki żądania).
- Może także „wykrywać” bardzo ważne osoby (VIP), które mogą uzyskać dostęp do serwera internetowego bez ograniczeń lub z mniejszymi ograniczeniami.
- Ogólny wiersz żądania i filtr nagłówka, aby odmówić nieautoryzowanym operacjom. Żądaj ograniczenia danych i filtrowania (wymaga mod_parp).
- Ograniczenia na poziomie połączenia TCP, np. Maksymalna liczba dozwolonych połączeń z jednego adresu źródłowego IP lub dynamiczna kontrola utrzymywania aktywności.
- Preferuje znane adresy IP, gdy na serwerze brakuje wolnych połączeń TCP.
Nie znalazłem zgłaszanych doświadczeń z Narzędziami dla webmasterów Baidu, które ładują się powoli i mają problemy z tłumaczeniem (nie ma też wersji angielskiej). To może być pomocne, ale oczywiście oparte na opiniach.
Po wielu badaniach i eksperymentach z tym w końcu ugryzłem kulę i założyłem konto Narzędzi dla webmasterów Baidu. Jest dość prosty w użyciu, gdy jest uzbrojony w Tłumacz Google w innym oknie. Może być konieczne włączenie firebuga, aby móc kopiować i wklejać chiński tekst z przycisków, których nie można przechwycić w normalnym trybie przeglądarki.
Po skonfigurowaniu musisz poczekać kilka dni, aż pojawi się indeksowanie danych, a następnie możesz dostosować szybkość indeksowania. Pojawia się w sekcji o nazwie „Ciśnienie”, do której powinieneś być w stanie dotrzeć za pomocą tego adresu URL:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Pamiętaj, że będziesz mógł korzystać z tego adresu URL tylko wtedy, gdy masz konto Baidu Webmaster Tools i powiązałeś adres URL swojej witryny z kontem dla danej witryny). Tutaj zobaczysz suwak z bieżącą szybkością indeksowania w środku (w moim przypadku 12676 żądań dziennie. Przesuń go w lewo, aby zmniejszyć szybkość indeksowania.
Nie mam jeszcze pojęcia, czy rzeczywiście spełnia twoje żądanie. Daje ostrzeżenie, które mówi coś takiego. „Zalecamy korzystanie z domyślnej szybkości indeksowania witryny Baidu. Tylko w przypadku problemów z indeksowaniem witryny skorzystaj z tego narzędzia, aby ją dostosować. Aby utrzymać normalne indeksowanie witryny, Baidu weźmie pod uwagę dostosowanie szybkości indeksowania z faktycznym warunki witryny i dlatego nie możemy zagwarantować dostosowania zgodnie z twoją prośbą. ”
źródło
Tak, możesz użyć
Crawl-delay
parametru w pliku robots.txt, aby ustawić liczbę sekund oczekiwania między kolejnymi żądaniami do tego samego serwera.Pierwszy wiersz mówi tylko robotowi internetowemu Baidu, aby honorował polecenie. Drugi wiersz to czas oczekiwania w sekundach między żądaniami do serwera. Możesz dodać dowolne opóźnienie czasowe dla swoich potrzeb.
Będziesz musiał dodać te polecenia do istniejącego pliku robots.txt . Jeśli nie masz jeszcze pliku robots.txt , dodaj powyższy kod do pliku tekstowego, zapisz plik jako robots.txt i prześlij go do folderu głównego swojej witryny, aby pojawił się pod poniższym adresem:
źródło