Mam witrynę, która ze względów prawnych może nie być indeksowana lub wyszukiwana automatycznie. Oznacza to, że musimy trzymać wszystkie roboty z daleka i zapobiegać pająkowi witryny.
Oczywiście mieliśmy plik robots.txt, który od samego początku uniemożliwia. Jednak obserwowanie pliku robots.txt jest czymś, co robią tylko dobrze wychowane roboty. Ostatnio mieliśmy problemy z robotami gorzej wychowanymi. Skonfigurowałem Apache, aby zablokował kilka programów użytkownika, ale dość łatwo to obejść.
Pytanie brzmi: czy istnieje jakiś sposób na skonfigurowanie Apache (być może poprzez zainstalowanie jakiegoś modułu?) W celu wykrycia działania robota i odpowiedzi? Jakieś inne pomysły?
W tej chwili wszystko, co mogę zrobić, to zablokować adresy IP na podstawie ręcznej kontroli dzienników, a to po prostu nie jest opłacalna strategia długoterminowa.
Odpowiedzi:
Możesz utworzyć link do ukrytej strony, która po odwiedzeniu przechwytuje identyfikator użytkownika i adres IP bota, a następnie dołącza jeden lub oba do pliku .htaccess, który blokuje je na stałe. Jest zautomatyzowany, więc nie musisz nic robić, aby go utrzymać.
źródło
Możesz najechać na pracę innych osób przy identyfikowaniu złych adresów IP za pomocą modułu Apache, który współpracuje z czarną listą adresów IP projektu Honeypot . Jeśli robisz to na dużą skalę, prawdopodobnie uprzejmie byłoby zaoferować uruchomienie honeypot.
źródło
Jak wspomniał Gisle Hannemyr w komentarzu , najlepszym sposobem na to jest wymaganie logowania wszystkich użytkowników i nie udostępnianie zastrzeżonych treści osobom, które nie są zalogowane.
Jeśli z jakiegoś powodu nie możesz wymagać logowania, nadal możesz skorzystać z kilku metod zastępczych (wyłączenie odpowiedzialności: oba są częściowo lub całkowicie moją winą):
OWASP ModSecurity Rdzeń Rule Set zawiera szereg przepisów mających na celu wykrycie automatyzację, nawet gdy bot podjęła kroki w celu ukrycia się w przeglądarce (np Fałszowanie jego User-Agent string). Jeśli masz pełną kontrolę nad swoim serwerem, takim jak VPS, serwer dedykowany lub coś większego, możesz użyć tych reguł w ModSecurity .
Ten zestaw reguł zawiera także inne reguły mające na celu powstrzymanie szeregu niewłaściwych działań; jeśli na to nie spojrzałeś, zdecydowanie powinieneś.
Jeśli nie masz pełnej kontroli nad serwerem (tzn. Korzystasz z hostingu współdzielonego), a Twój host nie pozwala ci korzystać z własnych reguł ModSecurity, możesz wypróbować coś na poziomie aplikacji, na przykład moją własną Złą zachowanie . Rozpocząłem ten projekt w 2005 roku, aby zwalczać spam na blogach i narzędzia do usuwania treści, takie jak te, które Cię dotyczą. Można go dodać do dowolnej strony internetowej opartej na PHP.
Powinienem również zauważyć, że wiele zasad Bad Behavior zostało włączonych do Podstawowego zestawu reguł ModSecurity, więc dopóki te reguły są włączone, ich działanie byłoby raczej zbędne. Reguły te są opatrzone adnotacjami w Podstawowym zestawie reguł jako pochodzące od złego zachowania.
źródło