Long-tailed rozkład zdarzeń czasowych

10

Załóżmy, że masz dzienniki serwera WWW. W tych logach masz krotki tego rodzaju:

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

Te znaczniki czasu reprezentują np. Kliknięcia użytkowników. Teraz user1będzie odwiedzał witrynę wiele razy (sesji) w ciągu miesiąca, a będziesz mieć serię kliknięć każdego użytkownika podczas każdej sesji (zakładając, że gdy użytkownik odwiedza Twoją witrynę, kliknie wiele stron).

Załóżmy, że chcesz podzielić te serie kliknięć na sesje, które je wygenerowały, ale nie masz żadnego dodatkowego źródła informacji, tylko listę znaczników czasu. Jeśli obliczysz rozkład interwałów między dwoma konsekwentnymi kliknięciami tego samego użytkownika, uzyskasz rozkład długookresowy. Intuicyjnie szukałbyś „parametru odcięcia”, np. N sekund, a jeśli tak timestamp_{i+1} - timestamp{i} > N, timestamp_{i+1}to początek nowej sesji.

Problem polega na tym, że ten rozkład jest w rzeczywistości mieszanką dwóch zmiennych: X = „przerwa między dwoma kolejnymi kliknięciami w tej samej sesji” i Y = „przerwa między ostatnim kliknięciem poprzedniej sesji a pierwszą nową”.

Pytanie brzmi: jak oszacować to N, które dzieli dwie dystrybucje (z odrobiną nakładania się, być może), po prostu patrząc na liczbę kliknięć?

marcorossi
źródło
Kiedy mówisz „po prostu patrząc na liczbę kliknięć”, masz na myśli, że nie jesteś w stanie obliczyć niczego innego niż N?
jerad
Mam na myśli, że nie masz żadnych dodatkowych źródeł informacji poza krotkami (użytkownik, znacznik czasu). Metoda oparta na progach (oparta na delcie> N) jest tylko przykładem metody. Może coś innego jest możliwe.
marcorossi
Ten wątek może Cię zainteresować: odpowiednie techniki klastrowania dla danych czasowych .
gung - Przywróć Monikę

Odpowiedzi:

2

Naprawdę powinieneś wykreślić logarytm przedziałów między kliknięciami zamiast surowych wartości; Spłaszczy to dystrybucję, a może nawet ujawni wiele trybów dystrybucji.

Bardziej zaawansowane podejścia zostały opracowane przez neuronaukowców w celu rozwiązania bardzo podobnego problemu w identyfikowaniu serii impulsów neuronalnych. Ten klasyczny artykuł lub wiele innych powiązanych artykułów na temat Google Scholar .

jerad
źródło
Wydrukowałem dziennik dystrybucji. To płaska linia. Jak to pomaga? Na co byś spojrzał Dokument jest świetny, dzięki.
marcorossi
Co z wykresem prawdopodobieństwa dziennika? tzn. zapisz dziennik tylko częstotliwości, a nie przedziałów. Czy to ujawnia dwa tryby?
jerad