Załóżmy, że masz dzienniki serwera WWW. W tych logach masz krotki tego rodzaju:
user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...
Te znaczniki czasu reprezentują np. Kliknięcia użytkowników. Teraz user1
będzie odwiedzał witrynę wiele razy (sesji) w ciągu miesiąca, a będziesz mieć serię kliknięć każdego użytkownika podczas każdej sesji (zakładając, że gdy użytkownik odwiedza Twoją witrynę, kliknie wiele stron).
Załóżmy, że chcesz podzielić te serie kliknięć na sesje, które je wygenerowały, ale nie masz żadnego dodatkowego źródła informacji, tylko listę znaczników czasu. Jeśli obliczysz rozkład interwałów między dwoma konsekwentnymi kliknięciami tego samego użytkownika, uzyskasz rozkład długookresowy. Intuicyjnie szukałbyś „parametru odcięcia”, np. N sekund, a jeśli tak timestamp_{i+1} - timestamp{i} > N
, timestamp_{i+1}
to początek nowej sesji.
Problem polega na tym, że ten rozkład jest w rzeczywistości mieszanką dwóch zmiennych: X = „przerwa między dwoma kolejnymi kliknięciami w tej samej sesji” i Y = „przerwa między ostatnim kliknięciem poprzedniej sesji a pierwszą nową”.
Pytanie brzmi: jak oszacować to N, które dzieli dwie dystrybucje (z odrobiną nakładania się, być może), po prostu patrząc na liczbę kliknięć?
źródło
Odpowiedzi:
Naprawdę powinieneś wykreślić logarytm przedziałów między kliknięciami zamiast surowych wartości; Spłaszczy to dystrybucję, a może nawet ujawni wiele trybów dystrybucji.
Bardziej zaawansowane podejścia zostały opracowane przez neuronaukowców w celu rozwiązania bardzo podobnego problemu w identyfikowaniu serii impulsów neuronalnych. Ten klasyczny artykuł lub wiele innych powiązanych artykułów na temat Google Scholar .
źródło