Mam podobny problem do zadanego tutaj pytania:
Jak mierzy się nierównomierność rozkładu?
Mam zestaw rozkładów prawdopodobieństwa w dniach tygodnia. Chcę zmierzyć, jak blisko jest każdy rozkład (1 / 7,1 / 7, ..., 1/7).
W tej chwili korzystam z odpowiedzi na powyższe pytanie; norma L2, która ma wartość 1, gdy rozkład ma masę 1 dla jednego dnia, i jest zminimalizowana dla (1 / 7,1 / 7, ..., 1/7). Skalowuję to liniowo, więc leży między 0 a 1, a następnie odwrócenie go tak, że 0 oznacza idealnie nierównomierny, a 1 oznacza idealnie jednolity.
Działa to całkiem dobrze, ale mam z tym jeden problem; traktuje każdy dzień tygodnia jednakowo jako wymiar w przestrzeni 7-Dim, więc nie uwzględnia bliskości dni; innymi słowy, daje ten sam wynik (1 / 2,1 / 2,0,0,0,0,0,0) i (1 / 2,0,0,1 / 2,0,0,0) nawet choć w pewnym sensie ten ostatni jest bardziej „rozłożony” i jednolity i idealnie powinien uzyskać wyższy wynik. Istnieje oczywiście dodatkowa komplikacja polegająca na tym, że kolejność dni jest cykliczna.
Jak mogę zmienić tę heurystykę, aby uwzględnić bliskość dni?
Odpowiedzi:
Odległość Earth Mover , znany również jako Wasserstein metrycznym, mierzy odległość między dwoma histogramy. Zasadniczo bierze pod uwagę jeden histogram jako liczbę stosów brudu, a następnie ocenia, ile brudu należy przenieść i jak daleko (!), Aby zmienić ten histogram w drugi. Zmierzyłbyś odległość między twoją dystrybucją a mundurem w dni tygodnia.
To oczywiście oznacza bliskość dni - łatwiej jest przenosić „brud” od poniedziałku do wtorku niż od poniedziałku do czwartku, więc (1 / 2,0,0,1 / 2,0,0,0) miałoby mniejsza odległość przemieszczania się ziemi od rozkładu równomiernego niż histogram skoncentrowany w poniedziałek i wtorek.
To, czego nie robi, to rozważenie „okrągłości” tygodnia, tzn. Że sobota i niedziela są tak blisko siebie, jak niedziela i poniedziałek. W tym celu należy poszukać odległości przemieszczania się ziemi określonej na rozkładach masowych prawdopodobieństw kołowych . Powinno to być wykonalne przy użyciu odpowiedniego podejścia optymalizacyjnego.
EDYCJA: W R
emd
pakiet oblicza odległości przemieszczania ziemi między histogramami.Możesz rozwiązać problem „okrągłości” w dość prosty (choć ad-hoc) sposób.
Zajmuje się to cyrkulacją kosztem kilku dodatkowych obliczeń.
Jednak nadal uważałbym to za potencjalnie użyteczny sposób, aby przynajmniej w jakiś sposób wziąć pod uwagę cykliczność - z pewnością lepszą niż użycie pojedynczego histogramu i zdefiniowanie tygodnia jako przejścia od niedzieli do soboty lub w inny arbitralny sposób. Dodatkowo, chociaż niektóre powyższe linki ujawniają implementacje dla odległości kołowego robota ziemnego, nie znam jednego dla R, który jest prawdopodobnie najczęściej używanym językiem tutaj.
źródło