W bieżącym artykule w NAUCE proponuje się:
Załóżmy, że losowo dzielisz 500 milionów dochodów na 10 000 osób. Jest tylko jeden sposób na zapewnienie wszystkim równych 50 000 udziałów. Jeśli więc losujesz pieniądze, równość jest bardzo mało prawdopodobna. Ale istnieją niezliczone sposoby, aby dać kilku osobom dużo gotówki, a wielu niewiele lub nic. W rzeczywistości, biorąc pod uwagę wszystkie sposoby podziału dochodów, większość z nich generuje wykładniczy rozkład dochodów.
Zrobiłem to za pomocą następującego kodu R, który wydaje się potwierdzać wynik:
library(MASS)
w <- 500000000 #wealth
p <- 10000 #people
d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution
h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45, xlim = c(0, quantile(d, 0.99)))
fit <- fitdistr(d,"exponential")
curve(dexp(x, rate = fit$estimate), col = "black", type="p", pch=16, add = TRUE)
Moje pytanie
Jak mogę analitycznie udowodnić, że wynikowy rozkład jest rzeczywiście wykładniczy?
Dodatek
Dziękujemy za odpowiedzi i komentarze. Pomyślałem o problemie i wymyśliłem następujące intuicyjne rozumowanie. Zasadniczo dzieje się tak (uwaga: nadmierne uproszczenie): W pewnym sensie podążasz za kwotą i rzucasz monetą (tendencyjną). Za każdym razem, gdy dostajesz np. Głowy, dzielisz kwotę. Rozpowszechniasz powstałe partycje. W dyskretnym przypadku podrzucanie monet odbywa się w układzie dwumianowym, partycje są rozmieszczone geometrycznie. Ciągłe analogi to odpowiednio rozkład Poissona i rozkład wykładniczy! (Z tego samego rozumowania intuicyjnie staje się jasne, dlaczego rozkład geometryczny i wykładniczy mają właściwość bez pamięci - ponieważ moneta też nie ma pamięci).
Odpowiedzi:
Aby uprościć problem, rozważmy przypadek, w którym dozwolone wartości udziału każdej osoby są dyskretne, np. Liczby całkowite. Równie dobrze można sobie wyobrazić podział „osi dochodu” na równomiernie rozmieszczone przedziały i przybliżenie wszystkich wartości mieszczących się w danym przedziale do punktu środkowego.
Oznaczając całkowitego dochodu jak , gdy y -tego dopuszczalna wartość jako x s , całkowitą liczbę osób, jak N , a na końcu, liczba osób akcji x y jak n y następujące warunki powinny być spełnione: C 1 ( { n s } ) ≡ ∑ s n s - N = 0 , a C 2 ( { n s } ) ≡ ∑ s n sX s xs N. xs ns
Zauważ, że wiele różnych sposobów podziału udziału może reprezentować ten sam rozkład. Na przykład, jeśli weźmiemy pod uwagę podzielenie 4 $ między dwie osoby, to podanie 3 $ Alice i 1 $ Bobowi i odwrotnie dałoby identyczne rozkłady. Ponieważ podział jest losowy, rozkład z maksymalną liczbą odpowiednich sposobów podziału udziału ma największą szansę na wystąpienie.
Aby uzyskać taki rozkład, należy zmaksymalizować zgodnie z dwoma ograniczeniami podanymi powyżej. Metoda mnożników Lagrange'a jest do tego kanoniczna. Co więcej, można wybrać pracę zlnWzamiast zsamąW, ponieważ „ln” jest funkcją zwiększającą monotonię. Oznacza to, że ∂lnW
źródło
W rzeczywistości możesz udowodnić, że nie jest on wykładniczy, prawie banalnie:
Oblicz prawdopodobieństwo, że dany udział jest większy niż500 500
Jednak nietrudno dostrzec, że dla przykładu z jednolitą luką powinien on być zbliżony do wykładniczego.
Rozważmy proces Poissona - w którym zdarzenia występują losowo w pewnym wymiarze. Liczba zdarzeń na jednostkę przedziału ma rozkład Poissona, a przerwa między zdarzeniami jest wykładnicza.
Jeśli weźmiesz ustalony interwał, wówczas zdarzenia w procesie Poissona, które się w nim mieszczą, są równomiernie rozłożone w tym interwale. Zobacz tutaj .
[Należy jednak pamiętać, że ponieważ przedział jest skończony, po prostu nie można zaobserwować większych odstępów niż długość przedziału, a odstępy prawie tak duże będą mało prawdopodobne (rozważ na przykład w odstępie jednostkowym - jeśli widzisz odstępy 0,04 i 0,01, następna widoczna luka nie może być większa niż 0,95).]
Mówiąc dokładniej, każda przerwa, która zaczyna się w przedziale umieszczonym nad procesem Poissona, ma szansę zostać „ocenzurowana” (skutecznie skrócona, niż byłoby to możliwe), biegając do końca przedziału.
Dłuższe przerwy są bardziej prawdopodobne niż krótkie, a więcej przerw w przedziale oznacza, że średnia długość przerwy musi się zmniejszyć - więcej krótkich przerw. Ta tendencja do „odcięcia” będzie miała większy wpływ na rozkład dłuższych przerw niż na krótkich (i nie ma szans, że jakakolwiek przerwa ograniczona do przedziału przekroczy długość przedziału - więc rozkład wielkości szczeliny powinien zmniejszać się płynnie do zera przy wielkości całego interwału).
Na schemacie skrócony został długi interwał na końcu, a relatywnie krótszy interwał na początku jest również krótszy. Efekty te odchylają nas od wykładniczości.
Oto symulacja rozkładu przerw dla n = 2:
Niezbyt wykładniczy.
źródło
Załóżmy, że pieniądze są nieskończenie podzielne, więc możemy zajmować się liczbami rzeczywistymi, a nie liczbami całkowitymi.
Następnie równomierny rozkładt = 500000000 podzielony na części n = 10000 jednostki podadzą marginalną gęstość dla każdej osoby
Jeśli chcesz to zastosować, użyj podziału krańcowego, aby przydzielić losową kwotęX dowolnej osobie, a następnie zmniejsz t do t - X i n do n - 1 i powtórz. Zauważ, że kiedyn = 2 , dałoby to każdej jednostce jednolity rozkład krańcowy na pozostałą kwotę, tak jak można się spodziewać; kiedyn = 1 przekazujesz wszystkie pozostałe pieniądze jednemu pozostalemu człowiekowi.
Wyrażenia te są raczej wielomianowe niż wykładnicze, ale dla dużychn prawdopodobnie będzie ci trudno odróżnić ich efekty od rozkładu wykładniczego o parametrze zbliżonym do nt . Rozkład jest asymptotycznie wykładniczy, ponieważ( 1 - ym)m→ exp( - y) tak jak m → ∞ .
źródło
Powiedzenie „załóżmy, że losowo dzielisz 500 milionów dochodów na 10 000 osób”, nie jest wystarczająco szczegółowe, aby odpowiedzieć na pytanie. Istnieje wiele różnych losowych procesów, które można wykorzystać do przydzielenia określonej kwoty pieniędzy określonej liczbie osób, a każda z nich będzie miała swoje własne cechy charakterystyczne dla wynikowej dystrybucji. Oto trzy generatywne procesy, o których mogłem myśleć, i każdy z nich powoduje podział bogactwa.
Metoda 1, opublikowana przez OP:
Wybierz losowo liczby „p” z [0, w) równomiernie. Sortuj te. Dołącz „0” z przodu. Rozdaj kwoty w dolarach reprezentowane przez różnice między kolejnymi elementami na tej liście.
Metoda 2:
Wybrano liczby „p” z [0, w) równomiernie losowo. Rozważ te „ciężary”, więc „w” nie ma znaczenia na tym etapie. Normalizuj wagi. Rozdaj kwoty w dolarach reprezentowane przez ułamek „w” odpowiadający każdej masie.
Metoda 3:
Zacznij od „p” 0. razy, dodaj 1 do jednego z nich, wybranych losowo równomiernie.
źródło
Pozwól, że dodam coś do twojego aneksu.
W ciągłym przypadku, jak zauważyli Glen_b i Henry, dokładny plik PDF kwoty, jaką otrzymuje każda osoba, to
W przypadku dyskretnym, zakładając, że istniejąM. monety do dystrybucji, prawdopodobieństwo otrzymania przez konkretną osobę m monety są
W obu przypadkach, ponieważ próbujemyN. razy od tego rzeczywistego rozkładu prawdopodobieństwa wystąpi błąd związany ze skończoną wielkością próby.
Jednak przeprowadzenie analizy błędów nie wydaje się proste, ponieważ różne próbki w tym przypadku nie są niezależne. Muszą sumować się do łącznej kwoty, a to, ile pierwsza osoba otrzymuje, wpływa na rozkład prawdopodobieństwa dla drugiej osoby i tak dalej.
Moja poprzednia odpowiedź nie dotyczy tego problemu, ale myślę, że byłoby pomocne zobaczyć, jak można to rozwiązać w tym podejściu.
źródło
Dobra analiza teoretyczna przeprowadzona przez głosowane odpowiedzi. Oto jednak mój prosty, empiryczny pogląd na to, dlaczego rozkład jest wykładniczy.
Kiedy rozdzielasz pieniądze losowo , zastanówmy się, czy robisz to jeden po drugim. Niech S będzie oryginalną sumą.
Dla pierwszego człowieka musisz wybrać losową liczbę od 0 do S. Tak więc średnio wybierzesz S / 2 i pozostaniesz przy S / 2.
W przypadku drugiego człowieka wybierasz losowo między 0 a średnio S / 2. Zatem średnio wybierzesz S / 4 i pozostaniesz przy S / 4.
Tak więc w zasadzie dzieliłbyś tę sumę na pół za każdym razem (statystycznie).
Chociaż w prawdziwym przykładzie nie będziesz miał ciągle o połowę wartości, pokazuje to, dlaczego należy oczekiwać rozkładu wykładniczego.
źródło