Jak witryny wykrywają boty za serwerami proxy lub sieciami firmowymi

Jak duże witryny (np. Wikipedia) radzą sobie z botami, które stoją za innym maskowaniem adresów IP? Na przykład na moim uniwersytecie wszyscy przeszukują Wikipedię, co powoduje znaczne obciążenie. Ale, o ile mi wiadomo, Wikipedia może znać tylko adres IP routera uniwersyteckiego, więc jeśli skonfiguruję „uwolnionego” bota (z niewielkim opóźnieniem między żądaniami), czy Wikipedia może zbanować mojego bota bez banowania całej organizacji? czy strona faktycznie może zablokować adres IP poza siecią organizacyjną?

web-crawler użytkownik4052054
źródło

Dzień, w którym Wikipedia zbanowała Katar .

isanae

@isanae Powiązane: superuser.com/q/1013630/326546

kasperd

Lepiej spraw, aby Twój bot był nie do odróżnienia od legalnych użytkowników

Hagen von Eitzen

Odpowiedzi:

Nie, zablokują publiczny adres IP, a każdy, kto ma NAT do tego adresu, również zostanie zbanowany.

Chociaż przynajmniej na stosie, jeśli uważamy, że mamy zamiar zakazać college'u lub czegoś podobnego, skontaktujemy się z nimi w sprawie nadużycia, aby zmusić ich do wyśledzenia sprawcy i zatrzymania problemu.

Zypher
źródło

Co powiedział Zypher. Mówiąc jak ktoś, kto śledził skargi przesłane na adres [email protected], zwykle bardzo chętnie znajdowaliśmy osobę odpowiedzialną za odblokowanie publicznego adresu IP. (Studenci uwielbiają dzielić się muzyką w sieci peer-to-peer. RIAA uwielbia kontaktować się w tej sprawie z adresem [email protected].)

Katherine Villyard

... chyba że w twoim bocie jest coś jednoznacznie identyfikowalnego, na przykład przekazanie tokena dostępu lub unikalnego identyfikatora przeglądarki.

simpleuser 18.04.16

To nie odpowiada na rzeczywiste pytanie dotyczące tego, jak te strony wykrywają boty. W rzeczywistości wydaje się, że jeśli spowolnisz swojego bota w wystarczającym stopniu (co nie byłoby dużo), w rzeczywistości byłoby to nie do odróżnienia od prawidłowego użycia przez całą grupę studentów.

Wildcard

Aby rozszerzyć komentarz na @ KatherineVillyard. Formalnie nadzorując sieć instytucji, jeśli nikt nie skontaktował się z nami przed zablokowaniem, a zasoby, z których byliśmy blokowani, były regularnie wykorzystywane, skontaktowalibyśmy się z nimi, aby rozwiązać problem. Zwykle byli skłonni nas odblokować, jeśli rozwiązalibyśmy to od samego końca. Oznaczało to poszukiwanie źródła nadużyć. Będąc Wikipedią, nawet jeśli nie skontaktują się z Twoją instytucją, Twoja instytucja prawdopodobnie przyjrzy się jej, gdy zorientuje się, że została na czarnej liście. Ten pozornie nieszkodliwy zakaz może szybko przerodzić się w wydalenie.

Bacon Brad

@Wildcard FWIW większość miejsc nie powie ci, jak wykrywają boty po prostu dlatego, że po prostu złapią one autorów botów, których łapią, aby coś zmienić. To powiedziawszy, istnieje wiele innych sygnałów oprócz prędkości żądań wykrywania botów. Ale w większości miejsc nie będzie to aż tak bardzo obchodzić, jeśli grasz dobrze, nie robiąc czegoś gównianego lub obciążając zasoby. Po prostu nie warto ścigać każdego małego bota.

Zypher 19.04.16

Witryna nie może bezpośrednio zablokować adresu IP, który stoi za NAT. Może działać na adresy IP przekazywane przez anonimowe serwery proxy HTTP - gdy taki serwer proxy przesyła dalej żądanie, zwykle dołącza ten adres do nagłówka X-Forwarded-For, więc jeśli dostęp z Twojej sieci prywatnej musi faktycznie przejść przez taki proxy może zostać ujawnione wewnętrzne IP; jednak większość stron (w tym wikipedia) i tak nie ufałaby informacjom w tym nagłówku, ponieważ łatwo jest sfałszować domniemane niewinne adresy IP lub uniknąć zakazów.

Istnieją jednak inne techniki, które próbują jednoznacznie zidentyfikować użytkowników niezależnie od adresu IP. Możesz zapytać przeglądarkę internetową o wiele informacji na jej temat oraz o systemie, na którym działa, na przykład o kliencie użytkownika, rozdzielczości ekranu, liście wtyczek itp. - patrz https://github.com/carlo/jquery- odcisk palca przeglądarkina przykład w praktyce. Możesz użyć takich odcisków palców do kontrolowania dostępu, choć w zależności od projektu witryny możesz z nim współpracować bez angażowania się w proces pobierania odcisków palców, a nawet jeśli nie możesz, bot może dostarczyć fałszywych i losowych danych, aby uniknąć posiadania spójny odcisk palca, jeśli zdajesz sobie sprawę, że istnieje taka ochrona. Ta metoda kontroli stwarza również ryzyko fałszywych alarmów, szczególnie w przypadku urządzeń mobilnych, na których prawdopodobnie będzie duża liczba klientów obsługujących identycznych klientów giełdowych na identycznym magazynie sprzętowym (większość osób na konkretnym modelu iPhone'a z określoną wersją systemu iOS , na przykład prawdopodobnie otrzymałby ten sam odcisk palca).

Carcer
źródło

To wcale nie jest mało prawdopodobne; wiele uniwersytetów i co najmniej jeden cały kraj, proxy sieci połączeń i dodać X-Forwarded-For.

Michael Hampton

Ciekawy. Byłbym osobiście zaskoczony, gdyby firma skonfigurowała swoje serwery proxy w tym celu, ponieważ ujawnia niektóre (co prawda banalne) informacje o twojej sieci wewnętrznej, ale myślę, że zależy to od organizacji.

Carcer,

@Carcer, nie musi to być prawdziwy wewnętrzny adres IP, tylko coś spójnego dla każdego użytkownika proxy.

Ian Ringrose

Zasadniczo adres IP nie wystarcza do prawidłowego zablokowania. Tak więc zaawansowane sieci działają wysoko na stosie sieci.

Atak typu „odmowa usługi” (DoS), o który martwisz się tworzeniem go, jest zwykle obsługiwany przez ograniczenie prędkości początkowej konfiguracji połączenia TCP. Oznacza to, że legalni użytkownicy, którzy są gotowi czekać, przejdą, podczas gdy ci, którzy tylko próbują wykorzystać zasoby serwera, są spowolnieni do tego stopnia, że stają się nieszkodliwi. To właśnie wtedy DoS przekształciło się w atak Distributed DoS (DDoS).

Po nawiązaniu połączenia z serwerem możesz wykonać dowolną liczbę żądań, administracja serwera WWW może skonfigurować liczbę żądań do obsłużenia.

Serwer sieci prawdopodobnie i tak może obsłużyć większą pojemność niż brama sieci lokalnej, prawdopodobnie jest to czynnik ograniczający w twoim przypadku użycia. Założę się, że twoi administratorzy sieci uniwersyteckiej pukają do twoich drzwi, zanim zrobi to Wikipedia.

Ważne jest, aby być dobrym obywatelem Internetu, więc dodałem kod bota do bota.

Należy również zauważyć, że Wikipedia oferuje zrzuty danych, więc przeszukiwanie strony nie jest tak naprawdę konieczne.

Phil Hannent
źródło