Spojrzałem w górę w Internecie, ale nie mogłem znaleźć nic pomocnego.
Zasadniczo szukam sposobu na zmierzenie, jak „równomiernie” rozkładana jest wartość. Jak w „równomiernie” rozproszonej dystrybucji, takiej jak X :
oraz „nierównomiernie” rozkład Y o mniej więcej tej samej średniej i odchyleniu standardowym:
Ale czy istnieje jakakolwiek miara równości m, taka, że m (X)> m (Y)? Jeśli nie, to jaki byłby najlepszy sposób na stworzenie takiego środka?
(Zrzut ekranu z Khan Academy)
Odpowiedzi:
Standardową, mocną, dobrze zrozumiałą, teoretycznie ugruntowaną i często wdrażaną miarą „równości” jest funkcja Ripley K i jej bliski krewny, funkcja L. Chociaż są one zwykle używane do oceny konfiguracji dwuwymiarowych punktów przestrzennych, analiza potrzebna do dostosowania ich do jednego wymiaru (czego zwykle nie podano w odnośnikach) jest prosta.
Teoria
Funkcja K szacuje średni odsetek punktów w odległości od typowego punktu. Dla równomiernego rozkładu w przedziale [ 0 , 1 ] można obliczyć rzeczywistą proporcję i (asymptotycznie w wielkości próby) wynosi 1 - ( 1 - d ) 2 . Odpowiednia jednowymiarowa wersja funkcji L odejmuje tę wartość od K, aby pokazać odchylenia od jednorodności. Dlatego możemy rozważyć normalizację dowolnej partii danych w celu uzyskania zakresu jednostek i zbadanie jej funkcji L pod kątem odchyleń wokół zera.d [0,1] 1−(1−d)2
Pracowane przykłady
W celu zilustrowania , że symulowane niezależnych próbek o rozmiarze 64 z jednolitej dystrybucji i wykreślono ich (znormalizowane) działa L na krótsze odległości (od 0 do 1 / 3 ), tworząc w ten sposób powłokę szacowania rozkładu próbkowania funkcja l. (Wykreślonych punktów w obrębie tej obwiedni nie można znacząco odróżnić od jednorodności.) Na tej podstawie narysowałem funkcje L dla próbek tego samego rozmiaru z rozkładu w kształcie litery U, rozkładu mieszanki z czterema oczywistymi składnikami i standardowego rozkładu normalnego. Histogramy tych próbek (i ich rozkładów macierzystych) pokazano w celach informacyjnych, używając symboli linii w celu dopasowania do funkcji L.999 64 0 1/3
Ostre oddzielone skoki rozkładu w kształcie litery U (przerywana czerwona linia, skrajny lewy histogram) tworzą skupiska o ściśle rozmieszczonych wartościach. Odzwierciedla to bardzo duże nachylenie funkcji L przy . Funkcja L następnie maleje, ostatecznie staje się ujemna, aby odzwierciedlić luki w odległościach pośrednich.0
Próbka z rozkładu normalnego (ciągła niebieska linia, histogram po prawej stronie) jest dość zbliżona do równomiernie rozmieszczonego. W związku z tym jego funkcja L nie odbiega szybko od . Jednak przy odległościach około 0,10 wzrósł on wystarczająco powyżej obwiedni, aby zasygnalizować niewielką tendencję do skupiania się. Dalszy wzrost na pośrednich odległościach wskazuje, że skupienie jest rozproszone i powszechne (nie ogranicza się do niektórych izolowanych pików).0 0.10
Początkowe duże nachylenie próbki z rozkładu mieszaniny (środkowy histogram) ujawnia grupowanie w małych odległościach (mniej niż ). Zejście do poziomów ujemnych sygnalizuje separację na pośrednich odległościach. Porównanie tego z funkcją L rozkładu w kształcie litery U ujawnia: nachylenia przy 0 , kwoty, o które te krzywe rosną powyżej 0 , oraz szybkości, z którymi ostatecznie opadają z powrotem do 0, wszystkie dostarczają informacji o naturze skupienia występującego w dane. Każda z tych cech może być wybrana jako pojedyncza miara „równości” w celu dopasowania do konkretnego zastosowania.0,15 0 0 0
Przykłady te pokazują, w jaki sposób można zbadać funkcję L w celu oceny odejść danych od jednorodności („równości”) oraz w jaki sposób można z nich uzyskać informacje ilościowe na temat skali i charakteru odlotów.
(Rzeczywiście można wykreślić całą funkcję L, rozciągającą się do pełnej znormalizowanej odległości , aby ocenić duże odstępstwa od jednolitości. Zwykle jednak ważniejsze jest ocenianie zachowania danych na mniejszych odległościach).1
Oprogramowanie
R
poniżej kod do wygenerowania tej liczby. Zaczyna się od zdefiniowania funkcji do obliczenia K i L. Stwarza możliwość symulacji z rozkładu mieszanki. Następnie generuje symulowane dane i tworzy wykresy.źródło
Ripley.L
.Zakładam, że chcesz zmierzyć, jak bliski jest rozkład munduru.
Można spojrzeć na odległość między funkcją rozkładu skumulowanego rozkładu równomiernego a empiryczną funkcją rozkładu skumulowanego próbki.
Teraz, jako miarę odległości między rozkładami, weźmy sumę odległości w każdym punkcie, tj
W bardziej skomplikowanych przypadkach trzeba zmienić normę zastosowaną powyżej, ale główna idea pozostaje taka sama. Jeśli potrzebujesz procedury testowania, dobrym pomysłem może być zastosowanie norm, dla których opracowywane są testy (te, na które zwróciła uwagę Tomka).
źródło
Jeśli dobrze rozumiem twoje pytanie, najbardziej „równomierny” rozkład byłby dla ciebie taki, w którym zmienna losowa przyjmuje raz każdą zaobserwowaną wartość - w pewnym sensie jednolita. Jeżeli istnieją „skupiska” obserwacji o tej samej wartości, byłoby to nierówne. Zakładając, że mówimy o dyskretnych obserwacjach, być może mógłbyś spojrzeć zarówno na średnią różnicę między punktami masy prawdopodobieństwa, maksymalną różnicę, a może na ile obserwacji różni się od „średniej” powyżej pewnego progu.
Gdyby były naprawdę jednolite w obserwacjach, wszystkie punkty PM powinny mieć jednakową wartość, a różnica między wartością maksymalną i minimalną wynosi 0. Im bliższa jest średnia różnica 0, tym bardziej „równa” jest większość obserwacji, tym niższa maksymalna różnica i mniej „szczytów” również pokazuje, jak „równe” są obserwacje empiryczne.
Aktualizacja Oczywiście możesz użyć testu chi-kwadrat dla jednorodności lub porównać empiryczną funkcję rozkładu z mundurem, ale w takich przypadkach będziesz karany za wszelkie duże „luki” w obserwacjach, nawet jeśli rozkłady obserwacji są nadal "parzysty".
źródło
Środek, którego szukasz, jest formalnie nazywany rozbieżnością .
Wersja jednowymiarowa wygląda następująco:
Sekwencje o niskiej rozbieżności są często nazywane sekwencjami quasirandomowymi .
Podstawowy przegląd sekwencji o niskiej rozbieżności można znaleźć tutaj , a mój post na blogu „ Nieuzasadniona skuteczność sekwencji quasirandomowych ” porównuje różne metody w odniesieniu do integracji numerycznej, mapowania punktów na powierzchnię kuli i quasiperiodycznego układania płytek.
źródło
źródło