Podejmuję się projektu analizy danych, który obejmuje badanie czasu użytkowania strony internetowej w ciągu roku. Chciałbym porównać, jak „spójne” wzorce użytkowania są, powiedzmy, jak blisko są do wzorca, który wymaga używania go przez 1 godzinę raz w tygodniu, lub takiego, który obejmuje używanie go przez 10 minut na raz, 6 razy w tygodniu. Mam świadomość kilku rzeczy, które można obliczyć:
- Entropia Shannona: mierzy, o ile różni się „pewność” wyniku, tj. O ile rozkład prawdopodobieństwa różni się od tego, który jest jednorodny;
- Rozbieżność Kullbacka-Lieblera: mierzy, jak bardzo jeden rozkład prawdopodobieństwa różni się od drugiego
- Rozbieżność Jensena-Shannona: podobna do rozbieżności KL, ale bardziej przydatna, ponieważ zwraca skończone wartości
- Test Smirnova-Kołmogorowa : test mający na celu ustalenie, czy dwie funkcje rozkładu skumulowanego dla ciągłych zmiennych losowych pochodzą z tej samej próbki.
- Test chi-kwadrat: test dobroci dopasowania, który decyduje o tym, jak dobrze rozkład częstotliwości różni się od oczekiwanego rozkładu częstotliwości.
Chciałbym porównać, jak bardzo rzeczywiste czasy użytkowania (niebieski) różnią się od idealnych czasów użytkowania (pomarańczowy) w dystrybucji. Rozkłady te są dyskretne, a poniższe wersje są znormalizowane, aby stały się rozkładami prawdopodobieństwa. Oś pozioma reprezentuje czas (w minutach) spędzony przez użytkownika na stronie internetowej; odnotowano to dla każdego dnia roku; jeśli użytkownik w ogóle nie wszedł na stronę internetową, liczy się to jako zero, ale zostały one usunięte z rozkładu częstotliwości. Po prawej stronie znajduje się funkcja skumulowanego rozkładu.
Moim jedynym problemem jest to, że chociaż mogę uzyskać dywersję JS w celu zwrócenia skończonej wartości, kiedy patrzę na różnych użytkowników i porównuję ich rozkłady użycia do idealnej, otrzymuję wartości, które są w większości identyczne (co w związku z tym nie jest dobre wskaźnik, jak bardzo się różnią). Również sporo informacji jest traconych podczas normalizacji do rozkładów prawdopodobieństwa, a nie rozkładów częstotliwości (powiedzmy, że uczeń używa platformy 50 razy, wówczas niebieski rozkład powinien być skalowany w pionie, aby suma długości słupków wynosiła 50, i pomarańczowy pasek powinien mieć wysokość 50 zamiast 1). Częścią tego, co rozumiemy przez „spójność”, jest to, czy to, jak często użytkownik wchodzi na stronę, wpływa na to, jak wiele z niej wychodzi; jeśli liczba odwiedzin witryny zostanie utracona, porównanie rozkładów prawdopodobieństwa jest nieco wątpliwe; nawet jeśli rozkład prawdopodobieństwa czasu trwania użytkownika jest zbliżony do „idealnego” użycia, użytkownik ten mógł korzystać z platformy tylko przez 1 tydzień w ciągu roku, co prawdopodobnie nie jest bardzo spójne.
Czy istnieją ugruntowane techniki porównywania dwóch rozkładów częstotliwości i obliczania pewnego rodzaju metryki, która charakteryzuje ich podobieństwo (lub odmienność)?
źródło
Odpowiedzi:
Być może interesuje Cię odległość poruszającego się po Ziemi , znana również jako metryka Wassersteina . Jest zaimplementowany w R (spójrz na
emdist
pakiet) i w Pythonie . Mamy również wiele wątków na ten temat .EMD działa zarówno dla dystrybucji ciągłej, jak i dyskretnej.
emdist
Pakiet R działa na rozkładów dyskretnych.Przewagą nad czymś takim jak statystyki jest to, że EMD daje interpretowalne wyniki. Wyobraź sobie swoją dystrybucję jako kopce ziemi, a następnie EMD mówi, ile ziemi trzeba by przetransportować, jak daleko, aby zamienić jedną dystrybucję w drugą.χ2)
Mówiąc inaczej: dwa rozkłady (1,0,0) i (0,1,0) powinny być „bardziej podobne” niż (1,0,0) i (0,0,1). EMD rozpozna to i przypisze mniejszą odległość do pierwszej pary niż do drugiej. statystyka przypisze ten sam dystans do obu par, ponieważ nie ma pojęcia porządkuje wpisów dystrybucyjnych.χ2)
źródło
Jeśli losowo pobierzesz próbkę z każdego z dwóch rozkładów, możesz obliczyć różnicę między nimi. Jeśli powtórzysz to (z zamiennikiem) wiele razy, możesz wygenerować rozkład różnic, który zawiera wszystkie informacje, których szukasz. Możesz wykreślić ten rozkład i scharakteryzować go za pomocą dowolnych statystyk podsumowujących - środków, median itp.
źródło
Jednym z mierników jest odległość Hellingera między dwoma rozkładami, które charakteryzują się średnimi i odchyleniami standardowymi. Aplikację można znaleźć w następującym artykule.
https://www.sciencedirect.com/science/article/pii/S1568494615005104
źródło