Googlebot przesyła tysiące wniosków do naszego lokalizatora map i zużywa limit API

10

Na stronie naszego klienta znajduje się strona lokalizatora sklepu. Użytkownik końcowy wprowadza swój kod pocztowy i promień wyszukiwania, a my wyświetlamy wyniki na mapie Google.

Ostatnio zaczęliśmy zauważać, że strona osiąga limit bezpłatnego wyszukiwania mapy (około 25 000 na 24 godziny) bez zauważalnego wzrostu ogólnego ruchu. Włączyłem dodatkowe rejestrowanie, aby znaleźć przyczynę problemu.

Okazuje się, że Googlebot przeprowadza tysiące wyszukiwań na tej mapie. To jest mała próbka:

2017-07-09 23: 56: 22,719 [7] INFO ShopLanding - [Wątek 41] Mapy Google: wyszukiwane G23 otrzymało OK od 66.249.66.221
2017-07-09 23: 56: 35,469 [7] INFO ShopLanding - [Wątek 10] Mapy Google: wyszukiwarka CA6 otrzymała OK od 66.249.66.221
2017-07-09 23: 57: 24 563 [7] INFO ShopLanding - [Wątek 48] Mapy Google: wyszukiwanie BN14 otrzymało OK od 66.249.66.223
2017-07-09 23: 58: 00,970 [7] INFO ShopLanding - [Wątek 42] Mapy Google: wyszukiwanie CB4 otrzymało OK od 66.249.66.221
2017-07-09 23: 58: 13,064 [7] INFO ShopLanding - [Wątek 54] Mapy Google: wyszukiwanie DY9 otrzymało OK od 66.249.66.221
2017-07-09 23: 59: 18,722 [7] INFO ShopLanding - [Wątek 59] Mapy Google: wyszukiwanie TS3 otrzymał OK od 66.249.66.223
2017-07-09 23: 59: 53,223 [7] INFO ShopLanding - [Wątek 49] Mapy Google: wyszukiwanie S45 otrzymało OK od 66.249.66.221

Czy jest jakiś sposób, aby powstrzymać Google przed wysyłaniem tak wielu żądań? To zjada znaczną część darmowego dodatku. Uzasadnione wyszukiwania wydają się być poniżej około 200 dziennie.

EDYTOWAĆ

Witryna jest zbudowana na C # ASP.NET. Wyszukiwanie w sklepie używa POST, adres URL nie zmienia się po przesłaniu. Mogę opublikować próbkę dzienników IIS jutro rano, aby potwierdzić to zachowanie.

Burgi
źródło
Czy elementy, których szuka Googlebot, mają jakieś znaczenie? „G23” i „CA6” nic dla mnie nie znaczą. Googlebot zazwyczaj nie przesyła losowych danych do formularzy. Zwykle przeszukuje tylko rozwijane opcje, wstępnie wypełnione dane lub linki zapytań. Czy te wartości w witrynie są gdzieś w postaci listy? A także, jak wyglądają Twoje adresy URL dla tych żądań?
Stephen Ostermiller
@StephenOstermiller to częściowe kody pocztowe w Wielkiej Brytanii, w szczególności identyfikator dzielnicy. Powinny to być POSTprośby o AJAX, sprawdzę jednak logi IIS.
Burgi
Poza tym: co to jest „bezpłatne wyszukiwanie mapy”?
MrWhite
1
@SamWeaver adres IP jest rozpoznawany jako bot Google, a odpowiedni wpis dziennika IIS ma Googlebot UserAgent. Wprawdzie oba można sfałszować.
Burgi
1
Czy lokalizator sklepu używa ciągu zapytania (żądanie GET)? Jaka jest szorstka struktura adresu URL strony lokalizatora sklepu, czy zmienia się (ciąg zapytania) podczas wyszukiwania użytkownika? Jeśli możesz bardziej szczegółowo wyjaśnić stronę funkcjonalną / techniczną, możesz na nie odpowiedzieć w bardziej skuteczny sposób.
TopQnA,

Odpowiedzi:

11

Aby powstrzymać googlebota od przeszukiwania za pomocą Google Maps, umieść plik o nazwie robots.txtw katalogu głównym swojej domeny. np. https://www.wikipedia.org/robots.txt

Przykładowy plik robots.txt:

User-agent: Googlebot
Disallow: /search-store/

Gdzie / search-store / to strona, która wysyła żądanie do Google Maps.

Jeśli zdarzy się, że jest to coś innego niż Googlebot, możesz spróbować wyłączyć wszystkie indeksowanie do tej strony za pomocą:

User-agent: *
Disallow: /search-store/

Pamiętaj, że nie powstrzyma to źle działających skryptów ignorujących plik robots.txt.

satibel
źródło
10
Pamiętaj, że i tak nie chcesz, aby Google i inne wyszukiwarki przeszukiwały te strony!
Ari Davidow,
1
Nie jestem pewien, czy zablokowanie całego magazynu wyszukiwania jest właściwą opcją, może być konieczne zrozumienie ciągu zapytania itp. Oznacza to, że Google może czytać, ale nie wysyła zbyt wielu żądań. Zablokowanie całego sklepu wyszukiwania powinno być ostatnią opcją.
TopQnA,
Innym rozwiązaniem może być wyszukiwanie z ograniczeniem stawek, powiedzmy, że po 25 wyszukiwań trzeba odczekać godzinę między kolejnymi wyszukiwaniem. Powstrzymałoby to botów i nikczemnych ludzi, ale nie zwykłych użytkowników.
satibel
Jeśli strona służy tylko do przeszukiwania lokalizacji sklepu, wątpię, czy przydałoby się jej indeksowanie. Zależy to od struktury strony. Również plik robots.txt jest łatwiejszy / szybszy (a więc tańszy) do wdrożenia jako szybka poprawka niż zajmowanie kilku godzin w celu ograniczenia stawki. @TopQnA
satibel
Lokalizacja sklepu jest bardzo ważna dla użytkownika i większość osób szuka sklepu w odniesieniu do lokalizacji w Google, a jeśli lokalizator sklepu może wygenerować mapę z przydatnymi informacjami z unikalnym adresem URL dla każdego sklepu, byłoby to znacznie bardziej przydatne dla użytkownik. I dlatego blokowanie powinno być ostatnią opcją.
TopQnA,