Co to jest „artykuł z 2001 roku” na temat blokowania „automatycznych programów do pobierania”, do którego odwołuje się strona man wget?

11

wgetStrona człowiek stwierdza to, w sekcji dla --random-waitparametru:

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

Chcę uzyskać kopię tego artykułu do czytania i próbowałem wielu wyszukiwań w Internecie, aby ustalić artykuł. Jednak wszystko, co mogę znaleźć dzięki tym wyszukiwaniom, to strona podręcznika użytkownika wgethostowana na różnych stronach internetowych; i niektóre inne prace badawcze, które nie mają żadnego związku z tym tematem.

Czy ktoś wie, do którego artykułu się odwołuje i gdzie mogę uzyskać kopię?

user2064000
źródło
Kopałem
7171u

Odpowiedzi:

15

Chociaż nie jest to bezpośrednia odpowiedź, git blamei git logujawniam, że sekcja ta została wprowadzona w zatwierdzeniu 2c41d783 przez dzwoniącego hniksic, który okazuje się być Hrvoje Niksic. Jego adres e-mail można znaleźć w ChangeLogpliku wget (nie podam go tutaj z oczywistych powodów). Sugerowałbym, aby zapytać go bezpośrednio, ponieważ może on najlepiej udzielić bardziej adekwatnej odpowiedzi. Będąc przy tym, możesz zastanowić się, czy nie zapytać go, czy miałby coś przeciwko aktualizacji strony podręcznika. ;)

Andreas Wiese
źródło
4

Myślę, że może to być ten artykuł:

Tworzenie znaczących danych z dzienników sieciowych przy użyciu podstawowego SAS

Jest akapit omawiający blokowanie zakresów klasy C:

Po rozdzieleniu adresu IP na jego części filtrowanie zakresów adresów IP jest proste. Filtr klasy B jest wykonywany względem pierwszych dwóch oktetów, np. 168.126.xx.xx. Jest to zmienna Onetwo w powyższym przykładzie kodu. Zakresy klasy C są częściej stosowane, ponieważ są ukierunkowane na całe serwery i wykorzystują trzy z czterech oktetów, np. 168.126.56.xx. W powyższym przykładzie kodu jest to pole Trzy, biorąc pod uwagę, że Usrhost jest wartością adresu TCP / IP dziennika sieci.

I jedna wzmianka o wgetblokowaniu ciągów agenta użytkownika:

Nasza preferowana metoda identyfikacji ciągów agenta użytkownika wykorzystuje funkcję dopasowania wzorca indeksu. Na przykład:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

Był to piąty wynik Googlinga za „wget analizy logów” za rok 2001 .

muru
źródło