Które boty i pająki należy zablokować w pliku robots.txt?

14

W celu:

  1. Zwiększ bezpieczeństwo mojej strony
  2. Zmniejsz wymagania dotyczące przepustowości
  3. Zapobiegaj gromadzeniu adresów e-mail
DaveC
źródło

Odpowiedzi:

17

Żaden bot, który zbiera wiadomości e-mail lub testuje witrynę pod kątem luk, nie będzie szanował pliku robots.txt. W rzeczywistości te złośliwe boty patrzą na plik robots.txt, aby lepiej zmapować witrynę. Jeśli masz jakiś punkt, Disallow:zostanie to wykorzystane do lepszego zaatakowania Twojej witryny. Haker, który ręcznie przegląda Twoją witrynę, powinien poświęcić dodatkowy czas na sprawdzenie plików / katalogów, które próbujesz odrzucić.

Wieża
źródło
3
Ciekawy punkt Zastanawiam się, czy sensowne jest dodanie fałszywej strony do listy Disallow, której jedynym celem jest złapanie takich botów podczas działania, aby mogły zostać automatycznie zablokowane.
Steven Sudit,
5
@Steven Sudit, który nie jest złym pomysłem. Nosi to nazwę garnka z miodem.
Rook
Tak, dokładnie tak, chociaż myślałem bardziej o standardowej sztuczce kompilatorów katalogów (książki telefoniczne itp.) Dodawania niewielkiej liczby fałszywych wpisów, aby wykryć kradzież hurtową.
Steven Sudit,
Jeśli użyjesz tego plastra miodu jako tarpit, zdenerwuje to również nielegalnych indeksujących. To w rzeczywistości dość powszechne w przypadku spamerów - pozostaw indeksowany adres e-mail typu honeypot, który prowadzi do serwera e-mail Tarpit.
Mark Henderson
@Farseeker Nie widzę problemu z karaniem tych, którzy łamią zasady. Chociaż oszukiwanie spamerów przy użyciu złych danych jest ciekawym zwrotem akcji.
Gawron
4

Plik robots.txt nie zwiększy bezpieczeństwa Twojej witryny ani nie zapobiegnie gromadzeniu adresów e-mail. plik robots.txt jest przewodnikiem dla wyszukiwarek, które pomijają poszczególne sekcje witryny. Nie zostaną one zindeksowane i należy ich używać w sekcjach, których nie chcesz wyświetlać w publicznych wyszukiwarkach.

Jednak w żaden sposób nie uniemożliwi to żadnym innym botom pobierania całej witryny w celu zwiększenia bezpieczeństwa lub zapobiegania gromadzeniu wiadomości e-mail. Aby zwiększyć bezpieczeństwo, musisz dodać uwierzytelnianie i zezwalać tylko uwierzytelnionym użytkownikom poza zabezpieczonymi sekcjami. Aby zapobiec gromadzeniu adresów e-mail, nie umieszczaj wiadomości e-mail w postaci zwykłego tekstu (lub tekstu łatwego do odczytania) na stronie internetowej.

Sam
źródło
1

Plik robots.txt nie pomoże Ci w bezpieczeństwie. Każdy bot, który chce zrobić coś podejrzanego, i tak to zignoruje.

Promień
źródło
0

Plik robots.txt służy jedynie jako prośba, aby boty i pająki pozostawiły określone elementy w spokoju; nie może faktycznie uniemożliwić im dostępu. „Dobre” boty będą go szanować, ale te „złe” (prawdopodobnie te, które chcesz zablokować) zignorują go i przejdą dalej.

derekerdmann
źródło
-1

Zamiast pliku robots.txt może być konieczne użycie kodów CAPTCHA.

Steven Sudit
źródło
Kody CAPTCHA nie mają nic wspólnego z robotami indeksującymi (takie adresy robots.txt).
user48838,
To była błędna opinia. Chodzi o to, że robot może zignorować plik robots.txt, ale kody CAPTCHA przynajmniej go spowolnią, jeśli nie zablokują go całkowicie. Dziękuję, że się mylisz.
Steven Sudit