Próbuję wymyślić metrykę pomiaru nierównomierności rozkładu dla prowadzonego eksperymentu. Mam zmienną losową, która powinna być równomiernie rozłożona w większości przypadków, i chciałbym być w stanie zidentyfikować (i ewentualnie zmierzyć stopień) przykładów zestawów danych, w których zmienna nie jest równomiernie rozmieszczona w pewnym marginesie.
Przykład trzech serii danych, z których każda zawiera 10 pomiarów reprezentujących częstotliwość występowania czegoś, co mierzę, może wyglądać następująco:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
Chciałbym móc odróżnić rozkłady takie jak c od tych jak aib i zmierzyć odchylenie c od rozkładu jednolitego. Równolegle, jeśli istnieje metryka określająca równomierność rozkładu (odchylenie standardowe bliskie zeru?), Być może mógłbym użyć tego do rozróżnienia tych o dużej wariancji. Jednak moje dane mogą mieć tylko jedną lub dwie wartości odstające, jak w powyższym przykładzie c, i nie jestem pewien, czy da się to w ten sposób łatwo wykryć.
Mogę włamać się do tego, aby to zrobić w oprogramowaniu, ale szukam metod / podejść statystycznych, aby to formalnie uzasadnić. Brałem lekcje lata temu, ale statystyki nie są moją dziedziną. To wydaje się czymś, co powinno mieć dobrze znane podejście. Przepraszam, jeśli coś z tego jest całkowicie bezsensowne. Z góry dziękuję!
Odpowiedzi:
Jeśli masz nie tylko częstotliwości, ale rzeczywiste liczby, możesz użyć testu dobroci dopasowania dla każdej serii danych. W szczególności chcesz zastosować test do dyskretnego rozkładu równomiernego . To daje dobry test , który pozwala dowiedzieć się, które serie danych prawdopodobnie nie zostały wygenerowane przez jednolity rozkład, ale nie zapewnia miary jednorodności.χ2
Istnieją inne możliwe podejścia, takie jak obliczanie entropii każdej serii - rozkład równomierny maksymalizuje entropię, więc jeśli entropia jest podejrzanie niska, można dojść do wniosku, że prawdopodobnie nie masz rozkładu jednolitego. W pewnym sensie działa to jako miara jednolitości.
Inną sugestią byłoby zastosowanie miary takiej jak dywergencja Kullbacka-Leiblera , która mierzy podobieństwo dwóch rozkładów.
źródło
Oprócz dobrych pomysłów @MansT możesz wymyślić inne środki, ale zależy to od tego, co rozumiesz przez „niejednorodność”. Dla uproszczenia spójrzmy na 4 poziomy. Łatwość zdefiniowania idealnej jednolitości:
25 25 25 25
ale który z poniższych jest bardziej niejednolity?
20 20 30 30 lub 20 20 25 35
czy są równie nierównomierne?
jeśli uważasz, że są one jednakowo nierównomierne, możesz użyć miary opartej na sumie wartości bezwzględnych odchyleń od normy, skalowanych według maksymalnego możliwego. Wtedy pierwszy to 5 + 5 + 5 + 5 = 20, a drugi to 5 + 5 + 0 + 10 = 20. Ale jeśli uważasz, że drugi jest bardziej niejednolity, możesz użyć czegoś opartego na kwadratowych odchyleniach, w którym to przypadku pierwszy dostaje 25 + 25 + 25 + 25 = 100, a drugi dostaje 25 + 25 + 0 + 100 = 150.
źródło
Oto prosta heurystyka: jeśli przyjmiesz elementy w dowolnej sumie wektorowej do (lub po prostu znormalizujesz każdy element sumą, aby to osiągnąć), wówczas jednolitość może być reprezentowana przez normę L2, która wynosi od 11 do1, gdziedjest wymiarem wektorów.1d√ 1 d
Dolna granica odpowiada jednorodności i górnej granicywektora1-hot.1d√ 1
Aby przeskalować to do wyniku od do 1 , możesz użyć n ∗ √0 1 , gdzienjest normą L2.n∗d√−1d√−1 n
Przykład zmodyfikowany z twojego z elementami sumującymi się na i wszystkimi wektorami o tym samym wymiarze dla uproszczenia:1
Poniższe wartości da , 0,0051 i 0,4529 dla wierszy:0.0028 0.0051 0.4529
źródło
Natknąłem się na to ostatnio i, o ile rozumiem, do odpowiedzi od @ user495285:
Uważam, że użyteczność miar geometrycznych ma zastosowanie, gdy zakłada się, że każda pozycja (wymiar) opisanej przestrzeni jest mierzona w równoważnych skalach, np. Wszystkie liczby potencjalnie równego rozkładu. Te same założenia leżące u podstaw zmiany zasad, takie jak PCA / SVD, prawdopodobnie są tutaj podobne. Ale z drugiej strony nie jestem matematykiem, więc zostawię to otwartym dla bardziej poinformowanych.
źródło