Czy można spowolnić częstotliwość indeksowania Baiduspider?

18

Wiele zrobiono z częstotliwości czołgania się pająków Baidu. To prawda: „Baiduspider czołga się jak szalony”.

Doświadczyłem tego zjawiska w witrynach, z którymi pracuję. W co najmniej jednym przypadku odkryłem, że Baiduspider indeksuje się z mniej więcej taką samą częstotliwością jak Googlebot, pomimo faktu, że Baidu zapewnia około .1% więcej ruchu niż Google.

Chciałbym zachować te odwiedziny na mojej stronie, jak najmniej (być może pewnego dnia będą rosły?), Ale nie mogę usprawiedliwić tak dużego obciążenia mojego serwera.

Przyjęta odpowiedź na powyższe pytanie sugeruje, że Baidu Webmaster Tools oferuje możliwość ograniczenia szybkości indeksowania, ale waham się przed otwarciem tej (tylko chińskiej) paczki robaków.

Czy ktoś ma jakieś doświadczenie w ograniczaniu szybkości indeksowania Baiduspider w BWT? Czy istnieje inny sposób ograniczenia tego obciążenia?

samthebrand
źródło

Odpowiedzi:

11

Świetne pytanie, a jednym z wielu webmasterów może być zainteresowany, ponieważ pająk Baidu jest niezwykle agresywny i może usuwać zasoby z serwerów ...

Jak wskazano w wiadomościach wyszukiwarki internetowej Baidu, pająk Baidu nie obsługuje ustawienia powiadamiania o opóźnieniu indeksowania , a zamiast tego wymaga rejestracji i weryfikacji witryny za pomocą platformy Narzędzi dla webmasterów Baidu, jak podano tutaj na tej stronie. To wydaje się być jedyną opcją do kontrolowania częstotliwości czołgania bezpośrednio w Baidu.

Problem polega na tym, że inne roboty spamujące używają aplikacji klienckich Baidu (wymienionych tutaj pod numerem 2) do spider-owania twojej witryny, jak wskazano w ich często zadawanych pytaniach tutaj pod numerem 4. Dlatego żądanie wolniejszego indeksowania w Baidu może nie rozwiązać wszystkiego.

Dlatego jeśli zdecydujesz się na użycie Narzędzi dla webmasterów Baidu, rozsądne może być również porównanie swoich programów klienckich z adresami IP, o których wiadomo, że są z nimi powiązane, przy użyciu zasobów takich jak Baza Bots vs. Przeglądarki lub odwrotne wyszukiwanie DNS

Jedynymi innymi opcjami są albo blokowanie wszystkich klientów użytkownika Baidu, a tym samym poświęcenie potencjalnego ruchu z Baidu, lub próba ograniczenia nadmiernych żądań przy użyciu czegoś takiego jak mod_qos dla Apache, który twierdzi, że zarządza:

  • Maksymalna liczba jednoczesnych żądań do lokalizacji / zasobu (URL) lub hosta wirtualnego.
  • Ograniczenie przepustowości, takie jak maksymalna dozwolona liczba żądań na sekundę do adresu URL lub maksymalna / minimalna liczba pobranych kilobajtów na sekundę.
  • Ogranicza liczbę zdarzeń żądania na sekundę (specjalne warunki żądania).
  • Może także „wykrywać” bardzo ważne osoby (VIP), które mogą uzyskać dostęp do serwera internetowego bez ograniczeń lub z mniejszymi ograniczeniami.
  • Ogólny wiersz żądania i filtr nagłówka, aby odmówić nieautoryzowanym operacjom. Żądaj ograniczenia danych i filtrowania (wymaga mod_parp).
  • Ograniczenia na poziomie połączenia TCP, np. Maksymalna liczba dozwolonych połączeń z jednego adresu źródłowego IP lub dynamiczna kontrola utrzymywania aktywności.
  • Preferuje znane adresy IP, gdy na serwerze brakuje wolnych połączeń TCP.

Nie znalazłem zgłaszanych doświadczeń z Narzędziami dla webmasterów Baidu, które ładują się powoli i mają problemy z tłumaczeniem (nie ma też wersji angielskiej). To może być pomocne, ale oczywiście oparte na opiniach.

dan
źródło
1
To jest naprawdę pomocne @Dan. Wypróbowanie kilku z tych rozwiązań (Baidu Webmaster Tools to prawdziwy ból.) Zgłosi się.
samthebrand,
1
Dzięki! Świetnie - zaktualizuję to, jeśli znajdę też inne opcje. To pytanie odzwierciedla frustrację webmasterów związaną z agresywnymi botami i obawy związane z interakcją z nimi (np. Baidu Webmaster Tools). Mamy nadzieję, że uzasadnione boty wezmą to pod uwagę, a lepsze narzędzia / opcje staną się dostępne.
dan
@samthebrand i dan - zgłoś się! Czy znalazłeś jakieś inne rozwiązania, które możesz polecić?
lazysoundsystem
5

Po wielu badaniach i eksperymentach z tym w końcu ugryzłem kulę i założyłem konto Narzędzi dla webmasterów Baidu. Jest dość prosty w użyciu, gdy jest uzbrojony w Tłumacz Google w innym oknie. Może być konieczne włączenie firebuga, aby móc kopiować i wklejać chiński tekst z przycisków, których nie można przechwycić w normalnym trybie przeglądarki.

Po skonfigurowaniu musisz poczekać kilka dni, aż pojawi się indeksowanie danych, a następnie możesz dostosować szybkość indeksowania. Pojawia się w sekcji o nazwie „Ciśnienie”, do której powinieneś być w stanie dotrzeć za pomocą tego adresu URL:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Pamiętaj, że będziesz mógł korzystać z tego adresu URL tylko wtedy, gdy masz konto Baidu Webmaster Tools i powiązałeś adres URL swojej witryny z kontem dla danej witryny). Tutaj zobaczysz suwak z bieżącą szybkością indeksowania w środku (w moim przypadku 12676 żądań dziennie. Przesuń go w lewo, aby zmniejszyć szybkość indeksowania.

Nie mam jeszcze pojęcia, czy rzeczywiście spełnia twoje żądanie. Daje ostrzeżenie, które mówi coś takiego. „Zalecamy korzystanie z domyślnej szybkości indeksowania witryny Baidu. Tylko w przypadku problemów z indeksowaniem witryny skorzystaj z tego narzędzia, aby ją dostosować. Aby utrzymać normalne indeksowanie witryny, Baidu weźmie pod uwagę dostosowanie szybkości indeksowania z faktycznym warunki witryny i dlatego nie możemy zagwarantować dostosowania zgodnie z twoją prośbą. ”

użytkownik35703
źródło
1
Jestem pewien, że nie jestem jedyną osobą, która doceniłaby aktualizację w tym zakresie - czy spełnia to żądanie? Czy doradziłbyś utworzenie konta?
lazysoundsystem
Właśnie zaktualizowałem bezpośredni adres URL strony dostosowania częstotliwości indeksowania, ponieważ został on teraz głębiej ukryty w Narzędziach dla webmasterów (już nie w menu). Tłumacz Google bardzo utrudnia znalezienie ze względu na mylące tłumaczenia ;-)
odony
-1

Tak, możesz użyć Crawl-delayparametru w pliku robots.txt, aby ustawić liczbę sekund oczekiwania między kolejnymi żądaniami do tego samego serwera.

User-agent: Baiduspider
Crawl-delay: 100

Pierwszy wiersz mówi tylko robotowi internetowemu Baidu, aby honorował polecenie. Drugi wiersz to czas oczekiwania w sekundach między żądaniami do serwera. Możesz dodać dowolne opóźnienie czasowe dla swoich potrzeb.

Będziesz musiał dodać te polecenia do istniejącego pliku robots.txt . Jeśli nie masz jeszcze pliku robots.txt , dodaj powyższy kod do pliku tekstowego, zapisz plik jako robots.txt i prześlij go do folderu głównego swojej witryny, aby pojawił się pod poniższym adresem:

www.examplesite.com/robots.txt
Max
źródło
2
Baiduspider nie obsługuje Opóźnienia indeksowania. Zobacz tutaj .
samthebrand,
Ups, widziałem go w pliku robots.txt z kilku stron, więc zakładam, że tak! Jak to się mówi ?!
Max.