Jak mierzy się nierównomierność rozkładu?

28

Próbuję wymyślić metrykę pomiaru nierównomierności rozkładu dla prowadzonego eksperymentu. Mam zmienną losową, która powinna być równomiernie rozłożona w większości przypadków, i chciałbym być w stanie zidentyfikować (i ewentualnie zmierzyć stopień) przykładów zestawów danych, w których zmienna nie jest równomiernie rozmieszczona w pewnym marginesie.

Przykład trzech serii danych, z których każda zawiera 10 pomiarów reprezentujących częstotliwość występowania czegoś, co mierzę, może wyglądać następująco:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

Chciałbym móc odróżnić rozkłady takie jak c od tych jak aib i zmierzyć odchylenie c od rozkładu jednolitego. Równolegle, jeśli istnieje metryka określająca równomierność rozkładu (odchylenie standardowe bliskie zeru?), Być może mógłbym użyć tego do rozróżnienia tych o dużej wariancji. Jednak moje dane mogą mieć tylko jedną lub dwie wartości odstające, jak w powyższym przykładzie c, i nie jestem pewien, czy da się to w ten sposób łatwo wykryć.

Mogę włamać się do tego, aby to zrobić w oprogramowaniu, ale szukam metod / podejść statystycznych, aby to formalnie uzasadnić. Brałem lekcje lata temu, ale statystyki nie są moją dziedziną. To wydaje się czymś, co powinno mieć dobrze znane podejście. Przepraszam, jeśli coś z tego jest całkowicie bezsensowne. Z góry dziękuję!

JJC
źródło
Powiązane: stats.stackexchange.com/questions/66186/…
kjetil b halvorsen

Odpowiedzi:

18

Jeśli masz nie tylko częstotliwości, ale rzeczywiste liczby, możesz użyć testu dobroci dopasowania dla każdej serii danych. W szczególności chcesz zastosować test do dyskretnego rozkładu równomiernego . To daje dobry test , który pozwala dowiedzieć się, które serie danych prawdopodobnie nie zostały wygenerowane przez jednolity rozkład, ale nie zapewnia miary jednorodności.χ2

Istnieją inne możliwe podejścia, takie jak obliczanie entropii każdej serii - rozkład równomierny maksymalizuje entropię, więc jeśli entropia jest podejrzanie niska, można dojść do wniosku, że prawdopodobnie nie masz rozkładu jednolitego. W pewnym sensie działa to jako miara jednolitości.

Inną sugestią byłoby zastosowanie miary takiej jak dywergencja Kullbacka-Leiblera , która mierzy podobieństwo dwóch rozkładów.

MånsT
źródło
Mam kilka pytań dotyczących twojej odpowiedzi: 1. Dlaczego twierdzisz, że chi-kwadrat nie daje miary jednorodności? Czy test dopasowania z rozkładem równomiernym nie jest miarą jednorodności? 2. Skąd możemy wiedzieć, kiedy powinniśmy użyć chi-kwadrat lub entropii?
kanzen_master
@kanzen_master: Wydaje mi się, że statystykę chi-kwadrat można postrzegać jako miarę jednorodności, ale ma ona pewne wady, takie jak brak zbieżności, zależność od arbitralnie umieszczonych pojemników, potrzebna liczba oczekiwanych zliczeń w komórkach być wystarczająco duży itp. Który pomiar / test do zastosowania jest kwestią gustu, a entropia nie jest również pozbawiona problemów (w szczególności istnieje wiele różnych estymatorów entropii rozkładu). Dla mnie entropia wydaje się mniej arbitralnym środkiem i jest łatwiejsza do interpretacji.
MånsT
8

Oprócz dobrych pomysłów @MansT możesz wymyślić inne środki, ale zależy to od tego, co rozumiesz przez „niejednorodność”. Dla uproszczenia spójrzmy na 4 poziomy. Łatwość zdefiniowania idealnej jednolitości:

25 25 25 25

ale który z poniższych jest bardziej niejednolity?

20 20 30 30 lub 20 20 25 35

czy są równie nierównomierne?

jeśli uważasz, że są one jednakowo nierównomierne, możesz użyć miary opartej na sumie wartości bezwzględnych odchyleń od normy, skalowanych według maksymalnego możliwego. Wtedy pierwszy to 5 + 5 + 5 + 5 = 20, a drugi to 5 + 5 + 0 + 10 = 20. Ale jeśli uważasz, że drugi jest bardziej niejednolity, możesz użyć czegoś opartego na kwadratowych odchyleniach, w którym to przypadku pierwszy dostaje 25 + 25 + 25 + 25 = 100, a drugi dostaje 25 + 25 + 0 + 100 = 150.

Peter Flom - Przywróć Monikę
źródło
1
Wydaje się, że interpretujesz „równomiernie rozłożony” jako „równy”, Peter. To, czy taka jest intencja PO, jest ważnym punktem do podniesienia, ale naprawdę powinno pojawić się jako komentarz do pytania.
whuber
Cześć @ Whuber To właśnie wydawało się, co miał na myśli, z pytania. Co jeszcze może to znaczyć?
Peter Flom - Przywróć Monikę
2
„Równa” oznacza, że ​​CDF to dla x μ , F ( x ) = 0 dla x < μ, podczas gdy „jednolity” oznacza F ( x ) = ( x - α ) / θ dla x [ α , α + θ ] . Ci zdefiniować „doskonałą jednorodność” w pierwszym znaczeniu, podczas gdy średnia sensie statystycznym jest drugi.F(x)=1xμF(x)=0x<μF(x)=(xα)/θx[α,α+θ]
whuber
@ whuber, wydaje mi się, że pierwszą rzeczą jest bliżej tego, co oryginalny plakat rozumiał przez „mundur”. Patrząc na to ponownie, wygląda na to, że używał słowa „mundur”, co oznaczało „niską wariancję”.
Makro
Tylko tyle, Makro: tak naprawdę nie możemy powiedzieć. Pytanie wymaga wyjaśnienia, zanim zasługuje na odpowiedź, IMHO. Przyjęta odpowiedź sugeruje, że OP użył „jednolitego” w standardowym znaczeniu statystycznym.
whuber
6

Oto prosta heurystyka: jeśli przyjmiesz elementy w dowolnej sumie wektorowej do (lub po prostu znormalizujesz każdy element sumą, aby to osiągnąć), wówczas jednolitość może być reprezentowana przez normę L2, która wynosi od 11 do1, gdziedjest wymiarem wektorów.1d1d

Dolna granica odpowiada jednorodności i górnej granicywektora1-hot.1d1

Aby przeskalować to do wyniku od do 1 , możesz użyć n 01, gdzienjest normą L2.nd1d1n

Przykład zmodyfikowany z twojego z elementami sumującymi się na i wszystkimi wektorami o tym samym wymiarze dla uproszczenia:1

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

Poniższe wartości da , 0,0051 i 0,4529 dla wierszy:0.00280.00510.4529

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end
użytkownik495285
źródło
1
Lp
@ Whuber, którego nie znam i nie znam żadnych badań na ten temat. Zasadniczo jest to coś, co wykorzystałem jako heurystykę, co może pasować do tego, czego chce OP, i tak naprawdę nie twierdzę, że jest to preferowane podejście.
user495285
@whuber - Czy możesz teoretycznie dowiedzieć się, dlaczego to działa tak dobrze? Muszę to zacytować.
Ketan
@ user495285 - Wydaje się, że działa to bezpośrednio z wartościami, a nie tylko z częstotliwościami. Z twojego doświadczenia wynika, czy lepiej jest używać go tylko z częstotliwościami, czy też dobrze jest używać go bezpośrednio na wektorze.
Ketan
L2χ2
0

Natknąłem się na to ostatnio i, o ile rozumiem, do odpowiedzi od @ user495285:

RnLppRnp

L2p

nd1d1
nL2re jest długością wektora.

Uważam, że użyteczność miar geometrycznych ma zastosowanie, gdy zakłada się, że każda pozycja (wymiar) opisanej przestrzeni jest mierzona w równoważnych skalach, np. Wszystkie liczby potencjalnie równego rozkładu. Te same założenia leżące u podstaw zmiany zasad, takie jak PCA / SVD, prawdopodobnie są tutaj podobne. Ale z drugiej strony nie jestem matematykiem, więc zostawię to otwartym dla bardziej poinformowanych.

lakinsm
źródło
Brzmi pomocnie. Czy możesz podać mi jakieś odniesienie, aby lepiej to zrozumieć? Muszę to zacytować.
Ketan
Możesz zacytować dowolny tekst algebry liniowej, który obejmuje normę Lp; jest to bardzo powszechny temat w geometrii: jak obliczyć odległość między dwoma punktami w przestrzeni N-wymiarowej. W zależności od dziedziny może nie być nawet konieczne cytowanie tego.
lakinsm,