Od około połowy sierpnia 2014 r. Kilka serwerów Google pobiera wszystkie (bardzo) duże pliki binarne z mojej witryny internetowej, mniej więcej raz w tygodniu. Wszystkie adresy IP są własnością Google i wyglądają następująco: google-proxy-66-249-88-199.google.com. Są to żądania GET, które mają duży wpływ na ruch na moim serwerze.
Wcześniej nie widziałem żadnego ruchu z tych adresów IP proxy Google, więc wydaje się, że jest to coś stosunkowo nowego. Widzę wszelkiego rodzaju ruch z innych adresów IP Google, wszystkie tylko żądania googlebot i HEAD.
Nie martwiłbym się tym, z wyjątkiem tego, że Google pobiera wszystkie te pliki mniej więcej co tydzień. Wykorzystana przepustowość zaczyna być nadmierna.
Spekulowałem, że ponieważ wiele z tych plików to pliki wykonywalne systemu Windows, być może Google pobiera je w celu przeprowadzenia skanowania w poszukiwaniu złośliwego oprogramowania. Nawet jeśli to prawda, czy to naprawdę musi zdarzać się co tydzień?
Przykładowy ruch z adresów IP serwerów proxy Google w listopadzie do tej pory:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
Aktualizacja nr 1: Zapomniałem wspomnieć, że dane pliki znajdują się już w pliku robots.txt witryny. Aby pozwać, że konfiguracja robots.txt działa poprawnie, użyłem również testera robots.txt w Narzędziach Google dla webmasterów, co pokazuje, że pliki są zdecydowanie blokowane dla wszystkich botów Google, z jednym wyjątkiem: Adsbot-Google. Nie jestem pewien, o co chodzi. ORAZ szukałem w Google niektórych plików i NIE pojawiają się one w wynikach wyszukiwania.
Aktualizacja nr 2: Przykład: między 5:12 a 5:18 PST 17 listopada około pół tuzina adresów IP (wszystkie google-proxy) dostało się na wszystkie omawiane pliki binarne, w sumie 27. 4 listopada między 14:09 a 14:15 PST te same adresy IP zrobiły w zasadzie to samo.
Aktualizacja nr 3: W tym momencie wydaje się jasne, że chociaż są to prawidłowe adresy IP Google, są one częścią usługi proxy Google, a nie częścią systemu indeksowania Google. Ponieważ są to adresy proxy, nie można ustalić, skąd faktycznie pochodzą żądania GET ani czy pochodzą one z jednego miejsca, czy z wielu. Biorąc pod uwagę sporadyczną naturę GET, nie wydaje się, aby działo się coś złego; prawdopodobnie ktoś decyduje się na pobranie wszystkich plików binarnych podczas korzystania z usługi proxy Google. Niestety usługa ta wydaje się być całkowicie nieudokumentowana, co nie pomaga. Z punktu widzenia administratora strony proxy są dość irytujące. Nie chcę ich blokować, ponieważ mają legalne zastosowania. Ale mogą być również niewłaściwie wykorzystywane.
Odpowiedzi:
Zrobiłem badania dla tego pytania i znalazłem kilka interesujących pomysłów, takich jak:
1. Czy to fałszywy robot? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c
Wniosek od użytkownika:
Wiemy, że podgląd na żywo nie pobiera plików, więc przejdźmy do pytania 2.
2. Czy jest to część usług Google? -> Czy ten serwer proxy Google to fałszywy robot: google-proxy-66-249-81-131.google.com?
Wniosek:
Domyślam się, że jest to to samo co powyżej. Ktoś próbuje użyć usługi Google, aby uzyskać dostęp do twoich plików, na przykład tłumacz.
Jeśli, jak mówisz, pliki są już blokowane przez plik robots.txt, może to być tylko ręczne żądanie.
EDYCJA: Aby szeroko odpowiedzieć na komentarz do OP:
Czy roboty mogą zignorować plik robots.txt? Tak. Oto lista , ale nie sądzę, że Google to robi, co oznacza, że mogą to być inne roboty korzystające z serwerów proxy Google.
Czy to może być zły bot? Tak i do tego polecam:
.htac banowanie:
Ten kod może blokować adresy IP lub agenta użytkownika.
Lub skorzystaj z Pułapki Pająka, opisanej tutaj
Podtrzymuję opinię, że jest to ręczne żądanie.
źródło