Załóżmy, że mam uporządkowany wektor, w którym pierwszy element to liczba odwiedzin witryny internetowej w danym okresie przez unikalny adres IP o największej liczbie odwiedzin, drugi element to liczba odwiedzin przez niepowtarzalny adres IP z drugim najwyższa liczba odwiedzin i tak dalej. Rozumiem, że mogą istnieć różne odmiany witryny, ale czy ogólnie istnieje założony wzorzec kształtu tego wektora? Czy na przykład podlega rozkładowi prawa władzy?
14
Odpowiedzi:
Nie, unikalni odwiedzający stronę internetową nie przestrzegają prawa dotyczącego mocy.
W ciągu ostatnich kilku lat coraz bardziej rygorystycznie badano roszczenia z zakresu prawa energetycznego (np. Clauset, Shalizi i Newman 2009). Najwyraźniej przeszłe twierdzenia często nie były dobrze sprawdzone i często wykreślano dane w skali logarytmicznej i polegano na „teście gałki ocznej” w celu wykazania linii prostej. Teraz, gdy formalne testy są bardziej powszechne, wiele dystrybucji okazuje się nieprzestrzegać praw dotyczących władzy.
Dwa najlepsze znane mi źródła, które badają wizyty użytkowników w Internecie, to Ali i Scarr (2007) oraz Clauset, Shalizi i Newman (2009).
Ali i Scarr (2007) przejrzeli losową próbkę kliknięć użytkownika na stronie Yahoo i doszli do wniosku:
Oto histogram kliknięć poszczególnych użytkowników w ciągu miesiąca i tych samych danych na wykresie dziennika, z różnymi modelami, które porównali. Dane najwyraźniej nie znajdują się w prostej linii log-log oczekiwanej od dystrybucji mocy bez skalowania.
Clauset, Shalizi i Newman (2009) porównali objaśnienia dotyczące prawa mocy z alternatywnymi hipotezami, stosując testy współczynnika prawdopodobieństwa, i doszli do wniosku, że zarówno trafienia do sieci, jak i linki „nie można uznać za zgodne z prawem władzy”. Ich dane dla tych pierwszych były hitami internetowymi klientów usługi internetowej America Online w ciągu jednego dnia, a dla tych ostatnich były linkami do stron internetowych znalezionych podczas indeksowania około 1997 milionów stron internetowych w 1997 roku. Poniższe obrazy przedstawiają funkcje rozkładu skumulowanego P (x) i ich maksymalne prawdopodobieństwo mocy-prawa.
W przypadku obu tych zestawów danych Clauset, Shalizi i Newman stwierdzili, że rozkłady mocy z wykładniczymi odcięciami w celu zmodyfikowania skrajnego ogona rozkładu były wyraźnie lepsze niż rozkłady czystej energii mocy, a rozkłady logarytmiczno-normalne również były dobre. (Patrzyli także na wykładnicze i rozciągnięte wykładnicze hipotezy).
Jeśli masz zestaw danych w dłoni i nie jesteś bezczynnie ciekawy, powinieneś dopasować go do różnych modeli i porównać je (w R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1, niższy. tail = FALSE)). Przyznaję, że nie mam pojęcia, jak modelować model ZM skorygowany o zero. Ron Pearson napisał na blogu o dystrybucjach ZM i najwyraźniej istnieje pakiet R zipfR. Ja prawdopodobnie zacznę od negatywnego modelu dwumianowego, ale nie jestem prawdziwym statystykiem (i bardzo bym chciał ich opinii).
(Chciałbym też dodać drugiego komentatora @richiemorrisroe powyżej, który wskazuje, że na dane prawdopodobnie wpływają czynniki niezwiązane z indywidualnym zachowaniem człowieka, takie jak programy indeksujące sieć i adresy IP reprezentujące komputery wielu ludzi).
Wspomniane dokumenty:
Clauset, Aaron, Cosma Rohilla Shalizi i Mark EJ Newman. „Rozkłady mocy w danych empirycznych”. Przegląd SIAM 51.4 (2009): 661–703. (Zobacz także tę stronę)
Ali, Kamal i Mark Scarr. „Solidne metody modelowania rozkładów kliknięć w sieci”. Materiały z 16. międzynarodowej konferencji w sieci WWW. ACM, 2007.
źródło