Interpretacja pustego klienta użytkownika

12

Jak mam interpretować pustego klienta użytkownika? Mam jakiś niestandardowy kod analityczny, który musi analizować tylko ruch ludzki. Mam działającą listę programów klienckich oznaczających ruch ludzi i botów, ale pusty agent użytkownika okazuje się problematyczny. Dostaję duży ruch z pustym klientem użytkownika, około 10%.

Dodatkowo, stworzyłem listę agentów ruchu ludzkiego w porównaniu do listy agentów użytkowników ruchu botów, analizując moje bieżące dzienniki. W związku z tym może brakować tam wielu wpisów. Czy istnieje dobrze utrzymana lista programów klienckich oznaczających ruch botów lub, odwrotnie, lista programów klienckich oznaczających ruch ludzi?

Amit Agrawal
źródło
1
Lista możliwych programów użytkownika jest niesamowicie długa. Na przykład spójrz na listę aplikacji klienckich przeznaczonych
Max Vernon
Pusty klient użytkownika jest dość rzadki - jakiego oprogramowania serwerowego używasz? Jak pozyskujesz klienta użytkownika? Czy jesteś pewien, że tak naprawdę jest pusty, czy też w twoim systemie kolekcji jest jakiś błąd, który tworzy puste aplikacje klienckie?
Max Vernon
@Max - sam jestem zaskoczony pustym klientem użytkownika. Używam stosu LAMP. Zbieram klienta użytkownika za pośrednictwem PHP jako $ _SERVER ['HTTP_USER_AGENT']. Kod jest prosty; chociaż nie mogę całkowicie zlekceważyć możliwości istnienia klienta użytkownika, ale mój kod go nie gromadzi lub baza danych odmawia jego przechowywania, wątpię, że tak jest.
1
Jeśli masz dostęp do dzienników dostępu Apache: czy zalogowani klienci użytkownika też są pusti?
może masz skrobak uzyskujący dostęp do swojej witryny? To może być jeden ze sposobów, w jaki odwiedzający wydają się nie mieć USER_AGENT
Max Vernon

Odpowiedzi:

5

Jeśli chcesz analizować tylko „ruch ludzki”, nie liczę tych z pustym lub brakującym łańcuchem agenta użytkownika. Z mojego doświadczenia wynika, że ​​prawie każda przeglądarka zawsze je wyśle. Nawet większość wtyczek lub rozszerzeń dotyczących prywatności jest raczej fałszywa (obejmuje inne nazwy systemu operacyjnego lub klienta) lub „normalizuje” (np. Brak numerów wersji) lub losowo (np. Czasami FF, czasem IE) ciągi UA, ale nie usuwa ich całkowicie (ponieważ może to powodować problemy z niektórymi witrynami, które na nim polegają, nawet jeśli nie jest to dobry pomysł).

Proste zapytanie bez UA można wykonać w następujący sposób:

wget --user-agent="" www.example.com

Jak widzisz, możesz dodać wszystko, co chcesz. Witryny, które przechowują i publikują UA znalezione „na wolności”, nie są zbyt przydatne, ponieważ znajdują mnóstwo badziewia.

Może ktoś tylko rekurencyjnie ściągnął twoje treści. Lub użyłeś jakiegoś narzędzia SEO do analizy witryny (niektóre pozwalają użytkownikom ręcznie zmieniać nagłówek, inne z zamiarem zignorowania linii robots.txt). Rzeczy takie jak te. W takich sytuacjach nagłówek UA jest często sfałszowany, aby ukryć klienta i cel.

Jeśli te żądania będą się utrzymywać, pomocne może być dalsze przeanalizowanie nagłówków (proxy?) Lub adresów IP (pewien blok? Ochrona danych dotyczy firmy / proxy?)

początkowo
źródło
2

Pracuję dla firmy ochroniarskiej i między innymi monitorujemy ruch Bad Bot.

Z mojego doświadczenia wynika, że ​​odwiedziny ludzi z pustymi danymi klienta użytkownika wskazują na próby skrobania / spamowania (zwykle skrobanie) przez boty „bezgłowej przeglądarki”.

Ci goście mogą czasem wykonać JS, więc pojawią się w GA - wciąż ta dawka nie czyni ich ludźmi :)

Przepraszamy za „wtyczkę”, ale pamiętaj, że w razie potrzeby oferujemy bezpłatne usługi ochrony Bad Bot - w połączeniu z przyspieszeniem CDN i innymi dodatkami.

W tym konkretnym przypadku nasz system rozpoznałby tę wizytę jako „podejrzaną”, zweryfikował ją pod kątem znanych wektorów ataków i - jeśli nadal nie jest pewien - przeprowadził dalsze testy i wyzwania. Wyzwania te są wykonywane płynnie, bez powodowania opóźnień w sesji.

Igal Zeifman
źródło
0

Każde oprogramowanie, które uzyskuje dostęp do Internetu, nie jest w magiczny sposób obsługiwane przez użytkownika. Twórcy oprogramowania muszą zaprogramować tę funkcjonalność w swoim oprogramowaniu. Twój pusty agent użytkownika oznacza po prostu, że programista zapomniał dodać agenta użytkownika do swojego oprogramowania.


źródło
Lub że użytkownik przeglądarki usunął / zablokował ciąg UA.
Unor
5
To jest źle. Powiedzenie „po prostu znaczy” oznacza, że ​​jest to zazwyczaj lub przynajmniej często powód. Niewiele osób korzysta z oprogramowania http, którego twórca pominąłby UA z lenistwa. Jeśli cokolwiek, prawie zawsze oznacza to, że źródło ruchu nie chce być zidentyfikowane i jest głęboko związane ze złośliwym lub wyzyskującym ruchem. Niestety niektóre duże firmy (Facebook) używały w przeszłości pustych ciągów agenta użytkownika, więc nie jest rozsądnie całkowicie je blokować.
jerclarke
1
@jeremyclarke +1 Tego rodzaju zachowanie nigdy nie powinno zostać przeoczone! I wstyd na Facebooku! Jeśli legalny bot lub przeglądarka musi zajrzeć na stronę, zawsze powinien mieć identyfikator. W końcu wchodzą do czyjejś własności. Brak klienta użytkownika jest jak włamywacz wkradający się z maską, aby ukryć swoją tożsamość.
białobrody
2
To tak, jakby ktoś z zakrytą twarzą chodził tam iz powrotem po chodniku przed domem. Niekoniecznie nielegalne, ale jeśli nie otworzysz drzwi, nie powinni zakładać, że jesteś wariatem.
jerclarke
0

W odpowiedziach na to pytanie widzę kilka komentarzy porównujących User-Agent do ukrywania twojej tożsamości lub bycia człowiekiem. To absurdalne porównanie. User-Agent nie ma nic wspólnego z tożsamością lub istotą ludzką.

Pomyśl o tym jak o obuwiu. Zanim wpuścisz ich do domu, pytasz odwiedzających, jaki rodzaj obuwia mają na sobie. Najczęstszym zastosowaniem tego jest wiedzieć, jaki rodzaj dywanu trzeba rozwinąć, ładny czerwony dywan do czystych butów, brzydka wycieraczka do błotnistej buty i brak dywanu dla alergików.

Gdy odwiedzający nie chcą powiedzieć, jakie mają obuwie (np. Pusty User-Agent), ignorujesz je.

Tak, istnieje wiele dobrych praktyk, które próbują zakładać różne rzeczy na temat żądania internetowego na podstawie User-Agent i innych informacji nagłówka żądania. Mogą działać w 99% przypadków, ale podobnie jak w przypadku wielu innych podobnych praktyk, są podatni na fałszywe alarmy i tym samym szkodzą zwykłym nieświadomym użytkownikom.

Natknąwszy się na problem przypadkowego użycia pustego User-Agent, zdecydowanie mogę powiedzieć, że nie jest fajnie, gdy serwis internetowy traktuje Cię inaczej, ponieważ nie pomyślałeś o tym, aby powiedzieć o twoim obuwiu.

Deantwo
źródło