Standardowy stosunek plików cookie do „odwiedzających”?

31

Jak zauważono w ostatnim poście na blogu , widzimy dużą rozbieżność między „odwiedzającymi” Google Analytics a „odwiedzającymi” Quantcast.

Ponadto z powodów, których nigdy nie odkryliśmy, Google Analytics otrzymuje tylko większe liczby niż Quantcast. Obecnie GA pokazuje więcej odwiedzających (15 milionów) na samym stackoverflow.com niż Quantcast w całej sieci (14 milionów):

Czemu? Nie wiem Google Analytics czasami traci pliki cookie lub Quantcast tęskni za odwiedzającymi. Liczenie jest niedokładną nauką.

Uważamy, że dzieje się tak, ponieważ Quantcast stosuje bardziej konserwatywny stosunek liczby plików cookie do liczby odwiedzających . Podczas gdy Google Analytics może traktować każdy plik cookie jako „odwiedzający”, Quantcast będzie traktować tylko każde 1,24 pliki cookie jako „odwiedzający”. Ma to dla mnie sens, ponieważ ludzie mogą uzyskiwać dostęp do naszych witryn z wielu komputerów, wielu przeglądarek itp.

Mam dwa ściśle powiązane pytania:

  1. Czy istnieje akceptowany standardowy stosunek plików cookie do liczby odwiedzających? Jest to oczywiście niedokładna nauka, ale czy istnieje jakaś wyłaniająca się zasada?

  2. Czy istnieje bardziej dokładny sposób liczenia „odwiedzających” na stronie internetowej niż poleganie na plikach cookie przeglądarki? A może to zawsze będzie jakaś próba oszacowania najlepszego wysiłku, bez względu na to, jak to zmierzysz?

Jeff Atwood
źródło
Quantcast zdecydowanie używa plików cookie, prawda? Nie korzystają tylko z adresu IP czy coś takiego?
DisgruntledGoat
@disgruntledgoat Właśnie sprawdziłem witrynę: „Quantcast zapewnia dane dotyczące odbiorców zarówno dla liczby unikalnych plików cookie, jak i dla osób”.
Matthew Brookes,
@DisgruntledGoat sprawdź tę samą stronę. Ma ciasteczka z quantserve.com.
Yahel,

Odpowiedzi:

14

Quantcast wysłał mi e-mail:

Wspomniałeś, że między liczbami GA a liczbami QC istniała dość duża różnica. Chociaż nie zdarza się to często, zdarza się i istnieje kilka powodów, dla których może się to zdarzyć. Na przykład uwzględniamy pliki cookie i automatyczne odświeżanie stron trzecich, a GA nie. Prosimy również wydawców o umieszczenie naszego tagu w dolnej części strony, aby zachować zgodność ze standardami MRC i IAB. Jeśli inne tagi pomiarowe znajdują się wyżej na stronie, mogą zostać uruchomione, gdy nie działa Quantcast. (Jesteśmy jedyną akredytowaną przez MRC usługą pomiaru ruchu). Ponadto liczby nigdy nie będą dokładnie takie same z uwagi na względy dotyczące strefy czasowej - używamy funkcji normalizującej, a GA są ustalone.

Jeśli chcesz dowiedzieć się więcej o tym, jak określamy nasze liczby, sprawdź: http://www.quantcast.com/how-we-do-it . Mamy również oficjalne dokumenty na temat naszych danych odbiorców skorygowanych o pliki cookie i naszej metodologii tutaj.

Czytając białe księgi, widzę, że faktycznie robią to, co sugeruje Jeff: przekręcając „oficjalne” liczby, aby uzyskać coś, co ich zdaniem jest bliższe prawdziwej liczbie ludzi. Mają białą księgę dotyczącą poprawionych plików cookie (link PDF), co sugeruje, że ich system jest dość skomplikowany, a nie tak prosty jak zwykłe dzielenie przez magiczną liczbę:

Program Quantcast Quantified Publisher rejestruje co miesiąc ponad 75 miliardów zdarzeń związanych z konsumpcją mediów, generowanych przez ponad 1,4 miliarda plików cookie (dane z czerwca 2008 r.). Co więcej, wielu naszych partnerów Quantified Publisher udostępnia nam anonimowe identyfikatory niezależne od plików cookie. Nasz model zawiera również kilka paneli, które zapewniają punkty odniesienia oparte na ludziach i kalibrację, które są wolne od usuwania plików cookie. Triangulujemy w tej masie danych z różnymi procesami gromadzenia, stronniczościami i problemami. Nasze modele uwzględniają częstotliwość odwiedzin, przedziały czasowe, prawdopodobieństwo wykorzystania wielu komputerów, a nawet wpływ wielu osób korzystających z tego samego komputera w celu dostarczenia szacunków opartych na ludziach. Nasz model tłumaczenia unikalnych plików cookie na ludzi został sprawdzony przy użyciu wstrzymanych próbek i niezależnych zestawów danych. Co więcej, nasz model jest dynamiczny i na bieżąco rekalibrowany, aby odzwierciedlić zmieniający się charakter wzorców ruchu internetowego.

Joel Spolsky
źródło
2
Ciekawy. Ten ostatni fragment jest bardziej pouczający (i przekonujący) niż pierwszy. GA nie musi uwzględniać plików cookie stron trzecich, ponieważ korzysta z plików cookie stron trzecich. Tak, różnice stref czasowych zmienią precyzyjne liczby, ale w ciągu miesięcznych przedziałów bardzo mało prawdopodobne jest, aby uwzględnić znaczne różnice w pomiarach.
Yahel,
27

Istnieje jeszcze jeden czynnik związany z niedocenianiem Quantcast: używają plików cookie stron trzecich (pliki cookie dostarczane z .quantserve.comdomeny), podczas gdy Google Analytics korzysta z plików cookie innych firm ( stackexchange.comitp.)

Jest to bardzo ważne, ponieważ niektóre przeglądarki (zwłaszcza Safari, ale ostatnio Firefox i Chrome) wyłączają pliki cookie innych firm jako ustawienie domyślne, a wiele innych może indywidualnie wybrać ustawienia prywatności, które blokują pliki cookie innych firm. Oznacza to, że istnieje podgrupa populacji, która nigdy nie będzie śledzona przez pliki cookie QuantCast. Z natury oznacza to, że Google Analytics zawsze zwraca większą liczbę odwiedzających.

Powiedziałbym, że nie ma ogólnej zasady. Jako specjalista od analizy powiedziałbym, że poszukiwanie „prawdziwej” liczby odwiedzających jest beznadziejne i zamiast tego skupiam się na samych wizytach. Na przykład na twoje konto Google Analytics mam co najmniej 8 różnych użytkowników, którzy uzyskali dostęp do StackOverflow z Chrome, Safari i Firefox na moim laptopie służbowym, laptopie osobistym, telefonie i iPadzie. Usługi analityczne liczą się na różne sposoby, a zatem wszystkie zwracają znacząco różne liczby.

Nawet przy doskonałej implementacji Google Analytics prawie zawsze będzie wyświetlać mniejszą liczbę odwiedzin niż system analityczny oparty na dzienniku serwera, ale pokaże większą liczbę odwiedzin niż system oparty na plikach cookie innych firm, taki jak Quantcast. Ważne jest, aby nie patrzeć na surowe sumy, ale na trendy, które każda metoda pokazuje w swoich mocnych stronach. Dlatego nigdy nie porównuj liczb Quantcast z numerami Google Analytics; zamiast tego użyj liczb w kontekstach, w których zostały zebrane.

Innym problemem może być to, że implementacja Google Analytics jest niepoprawna, ponieważ skonfigurowanie jej pod kątem konfiguracji z wieloma domenami i subdomenami może być koszmarem, jeśli nie zostanie wykonane poprawnie i rygorystycznie, co może prowadzić do liczenia pojedynczej przeglądarki jako wielu odwiedzających, co samo zawyża twoją liczbę. Nie jest to nigdy problemem dla Quantcast, ponieważ wszystkie pliki cookie są ustawione w jednej domenie strony trzeciej.

Yahel
źródło
Google Chrome również domyślnie blokuje pliki cookie innych firm.
MrWhite
7

Stosunek plików cookie do unikalnych użytkowników wynosi zwykle od 1,3 do 1,7 w przypadku witryn z ponad milionem odwiedzin.

Chociaż yc01 ma rację, że GA korzysta z własnych plików cookie w porównaniu do plików cookie innych firm, my w RealSelf.com korzystamy z usług dwóch zewnętrznych dostawców usług analitycznych (GA i Comscore Direct), a GA nadal pokazuje 30% więcej niepowtarzalnych unikalnych użytkowników niż unikalnych odwiedzających Comscore.

Comscore pokazuje tylko unikalnych użytkowników według kraju, więc aby porównać GA do Comscore, musimy obliczyć liczbę absolutnie unikalnych odwiedzających z USA w następujący sposób:

Wizyty w USA / wizyty globalne * Absolutni unikalni użytkownicy

(1 150,110 / 1 650 979) * 1 273 059 = 886 842 Unikalnych użytkowników z USA

Dla kontrastu, Comscore zgłasza 680,900 unikalnych użytkowników z USA. GA pokazuje więc o 30,2% więcej.

Comscore zbudował swoją firmę, starając się być dokładnym, a GA to przede wszystkim darmowy sposób śledzenia i optymalizacji witryn korzystających z AdWords i AdSense. Comscore ma panel osób, których używają również do szacowania ruchu, i używają tego panelu do określania średniej liczby plików cookie na osobę. Przy większej liczbie osób korzystających z urządzeń mobilnych (nasze użycie mobilne wynosi 15%), sensowne jest, że unikalne pliki cookie zawyżają liczbę unikalnych osób.

Eric K.
źródło
„Stosunek plików cookie do unikalnych użytkowników wynosi zwykle od 1,3 do 1,7 w przypadku witryn z ponad milionem odwiedzin”. Czy to liczba opublikowana przez Comscore?
Ciaran
jest to dla nas zaskakująco dokładne; Pobiegłem do UserSessionstatystyk tabeli na kilku stronach i wahają się od 2,0 (przepełnienie stosu) do 1,46 (webapps.se) z wszystkiego pomiędzy. 1.6 wydaje się bardzo rozsądną wartością domyślną dla witryn zorientowanych na technologię.
Jeff Atwood
4

Oto ostatnie (4 maja 2011 r. - wczoraj, kiedy to piszę) badanie przeprowadzone przez MediaMind z „Mnożnikami inflacji plików cookie” dla różnych rynków:

Ich wyliczony współczynnik inflacji wynosi od 2,2 dla Niemiec do 3,0 dla USA.

Theo
źródło
to jest doskonałe - dokładnie taki rodzaj odniesienia, którego szukałem
Jeff Atwood
2

Może liczba odwiedzających GA jest bardziej zawyżona niż normalna strona z powodu bardziej technicznego charakteru jej odbiorców? Na przykład programiści, a zwłaszcza programiści internetowi, częściej używają różnych przeglądarek, a tym samym zwiększają liczbę plików cookie.

W przypadku pytania pierwszego wydaje mi się, że podobnie jak w przypadku wielu wskaźników, lepiej jest korzystać z danych z własnej witryny, zamiast szukać globalnych standardów, ponieważ agregacje mogą wprowadzać w błąd. Jednym ze sposobów na uzyskanie rzeczywistej liczby plików cookie może być policzenie, ile plików cookie widzisz od każdego zarejestrowanego użytkownika, a następnie wyprowadzenie z tego numeru.

Jeśli chodzi o numer 2, teoretycznie najlepszym sposobem na policzenie prawdziwych odwiedzających byłoby zmuszenie wszystkich do zarejestrowania konta. Ponieważ to oczywiście nie jest dobry pomysł, możesz spojrzeć na normalizację. Na przykład możesz użyć średnich plików cookie dla metryk zarejestrowanych użytkowników, które zasugerowałem powyżej, i zastosować je do liczb użytkowników zgłaszanych przez GA.

Ewan Heming
źródło
to jest WIELKI punkt. Na przepełnieniu stosu mamy obecnie 531 484 sesji, z których 261 547 wskazuje na unikalnych użytkowników - czyli w zasadzie 2 pliki cookie na 1 użytkownika.
Jeff Atwood
-1

Myślę, że IP jest godny zaufania ... kiedy tworzę system statystyczny taki jak GA z pythonem, używam takiej metody

  • wyślij plik cookie do przeglądarki i pobierz wszystkie dane agenta do bazy danych
  • łatwy sposób, jeśli nowa wizyta ma plik cookie, nie jest to nowa wizyta, więc zapisuję ją jako nową wizytę (także wyznaczyłem datę i czas opóźnienia znalezienia nowej wizyty, jeśli użytkownik ponownie odwiedza witrynę po 2 godzinach)
  • zapisz adres IP użytkownika i jakiś identyfikator dla tego użytkownika oraz adres IP i plik cookie (jego zapis także w pliku cookie)
  • nowy użytkownik przychodzi i nie ma żadnych plików cookie ... czy to IP jest nowe? tak? OK, nowy użytkownik pobiera tylko agenta użytkownika i adres IP / nie? ile razy ten użytkownik przychodzi? więcej niż limit? naprawdę nowa wizyta, nie więcej z tym agentem użytkownika? OK, to jest nowe ...: D

ta metoda zawiera błędy, ale nie złe i bliskie prawidłowych danych ... (zależy to również od czasu opóźnienia znalezienia nowego użytkownika (opóźnienie między 2 wizytami) i czasu próby dla użytkowników bez plików cookie)

Mohammad Efazati
źródło
5
Jak poradziłaby sobie na przykład firma z wieloma różnymi programistami uzyskującymi dostęp do StackOverflow zza NAT? Czy wszyscy byliby liczeni jako jeden gość?
Svish
3
Aspekt IP tego jest naprawdę wadliwy. Adres IP nie jest unikalnym identyfikatorem.
Yahel,
jest na to czas ... sprawdzamy agenta i inne rzeczy i możemy dodać jeden
adres