Jaki klient użytkownika powinienem ustawić?

18

Istnieje bot bot, który ustawia ten nagłówek:

Mozilla/2.0 (compatible; Ask Jeeves/Teoma) 

Biorąc to pod uwagę, mam następujące pytania:

  • Jeśli piszę przeszukiwacz sieciowy o nazwie Goofy, jakiego klienta użytkownika powinienem użyć?
  • Jaka jest różnica, jeśli wstawię Mozilla/2.0lub Mozilla/5.0?

Wszelkie inne sugestie dotyczące tego, jak sformatować mojego agenta użytkownika, aby były zgodne z aktualnymi standardami, są mile widziane.

Nicu Surdu
źródło

Odpowiedzi:

32

Jestem głównym projektantem i autorem dość dużego robota sieciowego (patrz metadatalabs.com/mlbot (zarchiwizowany link) ). To, o co pytasz, dotyczy bardzo ważnego dla nas tematu - być może najważniejszej części prowadzenia robota: grzeczności.

Po pierwsze: powodem „Mozilli” jest poinformowanie strony o swoich możliwościach przeglądarki. Jeśli Twój bot nie próbuje zachowywać się jak przeglądarka, nie ma konkretnego powodu, dla którego musisz dołączyć rzecz „Mozilla”.

Jeśli chodzi o ciąg agenta użytkownika i inne elementy związane z uprzejmością:

  1. Wybierz nazwę, o której wiesz, że nikt inny jej nie używa. Podejrzewam, że jeśli użyjesz „Goofybot”, wszystko będzie dobrze. Ale sprawdziłbym to na pewno.

  2. Łańcuch agenta użytkownika powinien zawierać link do dodatkowych informacji o bocie. Na przykład nasz ciąg brzmi „MLBot (www.metadatalabs.com/mlbot)”.

  3. Upewnij się, że jeśli ktoś wyszukuje hasło „Goofybot”, ta strona jest wysoko (najlepiej pierwsza) w wynikach wyszukiwania.

  4. Twoja strona na temat bota powinna zawierać informację o tym, z czego korzystasz, jakie adresy IP indeksujesz, a także podać sposób skontaktowania się z tobą w sprawie problemów z botem.

  5. Powinieneś szybko odpowiadać na wszelkie pytania lub skargi, stosując filozofię „klient ma zawsze rację”. Pamiętaj, że jeśli twój bot spowodował problem, na który narzeka ta osoba, prawdopodobnie spowodował problemy w kilkunastu innych witrynach, na które nikt nie narzekał. Albo nie widzieli problemów, albo po prostu zablokowali twój adres IP.

  6. Powinieneś wbudować narzędzie, aby uniemożliwić twojemu botowi dostęp do konkretnej nazwy domeny. Niektóre osoby nie chcą, abyś się czołgał i nie ma dostępu ani możliwości technicznych do utworzenia pliku robots.txt ani zablokowania go w pliku .htaccess. Odkryliśmy, że ta umiejętność pozwala komuś powiedzieć: „Przykro nam, że MLBot spowodował problem. Poinstruowaliśmy go, aby nigdy więcej nie indeksował Twojej witryny”. Być może nic dziwnego, że bardzo szybko uspokaja ludzi.

  7. Jeśli nie szanujesz już pliku robots.txt, zrób to. Nic nie przyniesie ci złej reputacji szybciej niż ignorowanie pliku robots.txt.

Łał. Trwało to dłużej niż się spodziewałem. W ciągu ostatnich czterech lat popełniłem każdy z tych błędów, o których wspomniałem powyżej, i inne poza tym. Stwierdziliśmy jednak, że jeśli jesteśmy otwarci na to, co robimy i uczciwie się komunikujemy (w tym publikujemy informacje o błędach przed otrzymaniem skargi), większość webmasterów uważa nas za dobrego obywatela Internetu.

Jim Mischel
źródło
Ten przykładowy link powyżej ( metadatalabs.com/mlbot ) Po prostu pokazuje („W budowie”) ....
starbeamrainbowlabs
2
@starbeamrainbowlabs Ta odpowiedź została napisana w 2010 r. Metadata Labs została zamknięta w 2012 r.
Jim Mischel
Czy w ogóle istnieje alternatywa?
starbeamrainbowlabs
@starbeamrainbowlabs alternatywa dla czego?
Jim Mischel
Do cokolwiek, do czego link był wyświetlany na tej stronie laboratorium metadanych. Ponieważ tego nie widzę, nie mogę zaproponować alternatywy: P
starbeamrainbowlabs
8

Mozilla / 2.0 i Mozilla / 5.0 to odniesienia do przeglądarki Mozilla. Stało się to w dużej mierze bez znaczenia, ponieważ korzysta z niego wiele robotów, ale powinno nakazać witrynie potraktowanie robota tak, jak każdego przypadkowego użytkownika przeglądającego zwykłą przeglądarkę.

Jednak dobrą etykietą jest umieszczenie adresu URL prowadzącego do strony o tym, kim jesteś i dlaczego indeksujesz w poniższej sekcji. Zapytaj Jeeves może uciec tylko z nazwą, ale powinieneś podać adres URL.

Na przykład

Mozilla/5.0 (compatible; http://example.org/)

Pozwoli to administratorom internetowym dowiedzieć się, dlaczego indeksujesz ich witrynę, a także skontaktować się z Tobą, jeśli wystąpi problem z zachowaniem robota.

Kris
źródło