Zmierz jednorodność rozkładu w dni powszednie

11

Mam podobny problem do zadanego tutaj pytania:

Jak mierzy się nierównomierność rozkładu?

Mam zestaw rozkładów prawdopodobieństwa w dniach tygodnia. Chcę zmierzyć, jak blisko jest każdy rozkład (1 / 7,1 / 7, ..., 1/7).

W tej chwili korzystam z odpowiedzi na powyższe pytanie; norma L2, która ma wartość 1, gdy rozkład ma masę 1 dla jednego dnia, i jest zminimalizowana dla (1 / 7,1 / 7, ..., 1/7). Skalowuję to liniowo, więc leży między 0 a 1, a następnie odwrócenie go tak, że 0 oznacza idealnie nierównomierny, a 1 oznacza idealnie jednolity.

Działa to całkiem dobrze, ale mam z tym jeden problem; traktuje każdy dzień tygodnia jednakowo jako wymiar w przestrzeni 7-Dim, więc nie uwzględnia bliskości dni; innymi słowy, daje ten sam wynik (1 / 2,1 / 2,0,0,0,0,0,0) i (1 / 2,0,0,1 / 2,0,0,0) nawet choć w pewnym sensie ten ostatni jest bardziej „rozłożony” i jednolity i idealnie powinien uzyskać wyższy wynik. Istnieje oczywiście dodatkowa komplikacja polegająca na tym, że kolejność dni jest cykliczna.

Jak mogę zmienić tę heurystykę, aby uwzględnić bliskość dni?

EBartrum
źródło
1
Twój przykład (1 / 2,1 / 2,0,0,0,0,0) i (1 / 2,0,0,1 / 2,0,0,0) nie jest jednolity w ten sam sposób , więc nie powinno mieć znaczenia, czy interesuje Cię tylko testowanie pod kątem niejednorodności. Więc może chcesz przetestować coś więcej, co nie zostało wyraźnie określone w twoim pytaniu? Przy okazji, entropia jest miarą jednorodności.
Tim
Dzięki Tim, próbowałem użyć Entropy, ale stwierdziłem, że wspomniana powyżej heurystyka działała lepiej dla moich celów. Nie jestem pewien, jak nazwać właściwość rozkładu prawdopodobieństwa w dni powszednie, którymi jestem zainteresowany, z wyjątkiem tego, że powinna ona obejmować „rozproszenie” prawdopodobieństwa w ciągu tygodnia.
EBartrum

Odpowiedzi:

15

Odległość Earth Mover , znany również jako Wasserstein metrycznym, mierzy odległość między dwoma histogramy. Zasadniczo bierze pod uwagę jeden histogram jako liczbę stosów brudu, a następnie ocenia, ile brudu należy przenieść i jak daleko (!), Aby zmienić ten histogram w drugi. Zmierzyłbyś odległość między twoją dystrybucją a mundurem w dni tygodnia.

To oczywiście oznacza bliskość dni - łatwiej jest przenosić „brud” od poniedziałku do wtorku niż od poniedziałku do czwartku, więc (1 / 2,0,0,1 / 2,0,0,0) miałoby mniejsza odległość przemieszczania się ziemi od rozkładu równomiernego niż histogram skoncentrowany w poniedziałek i wtorek.

To, czego nie robi, to rozważenie „okrągłości” tygodnia, tzn. Że sobota i niedziela są tak blisko siebie, jak niedziela i poniedziałek. W tym celu należy poszukać odległości przemieszczania się ziemi określonej na rozkładach masowych prawdopodobieństw kołowych . Powinno to być wykonalne przy użyciu odpowiedniego podejścia optymalizacyjnego.


EDYCJA: W R emdpakiet oblicza odległości przemieszczania ziemi między histogramami.

Możesz rozwiązać problem „okrągłości” w dość prosty (choć ad-hoc) sposób.

  • re1
  • re2)
  • re3)
  • ...
  • re1,,re7

Zajmuje się to cyrkulacją kosztem kilku dodatkowych obliczeń.

reja

Jednak nadal uważałbym to za potencjalnie użyteczny sposób, aby przynajmniej w jakiś sposób wziąć pod uwagę cykliczność - z pewnością lepszą niż użycie pojedynczego histogramu i zdefiniowanie tygodnia jako przejścia od niedzieli do soboty lub w inny arbitralny sposób. Dodatkowo, chociaż niektóre powyższe linki ujawniają implementacje dla odległości kołowego robota ziemnego, nie znam jednego dla R, który jest prawdopodobnie najczęściej używanym językiem tutaj.

Stephan Kolassa
źródło
3
re1,,re7reja
@JiK: dobra uwaga i taka, która przyszła mi do głowy po utracie łączności wczoraj. Wyjaśniłem moją odpowiedź, aby podkreślić, że jest to hack, a nie prawdziwa okrągła odległość od robota ziemnego.
Stephan Kolassa
1
Wielkie dzięki, w rzeczywistości udało mi się zaimplementować odległość R w okrągłym kosiarku ziemi z pakietem emd i funkcją emd2d, definiując własną funkcję odległości, więc nie musiałem używać wspomnianego hacka. Właśnie tego szukałem! Jeszcze jedna drobiazgowa sprawa: jak to nazwać? Jak powiedział powyżej Tim, nie powinienem nazywać tej jednolitości. Jaka nazwa byłaby odpowiednia dla tej heurystyki?
EBartrum,
1
L.2)