Rozważ sumę

40

Zastanawiam się nad tym przez jakiś czas; Wydaje mi się to trochę dziwne, jak nagle to się dzieje. Zasadniczo, dlaczego potrzebujemy tylko trzech mundurów, aby wygładził się tak jak on? I dlaczego wygładzanie odbywa się tak szybko?Zn

Z2 :

2)

Z3 :

3)

(obrazy bezwstydnie skradzione z bloga Johna D. Cooka: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ )

Dlaczego nie potrzeba, powiedzmy, czterech mundurów? A może pięć? Lub...?

tetragrammaton
źródło
11
no cóż, być tak prostym, żeby być łatwym, ponieważ suma 3 mundurów ma kwadratowe segmenty w swoim pf, a kiedy już otrzymacie dwa lub więcej mundurów, macie średnią wartość szczytową. Kwadratowy pik jest „gładki” ... a połączenia między kwadratowymi kawałkami wynoszą 1 i 2, więc nie może się załamać przy 1,5; istnieją inne sposoby
dojścia

Odpowiedzi:

71

Możemy do tego podejść na różne sposoby, z których każde może wydawać się intuicyjne dla niektórych osób, a mniej intuicyjne dla innych. Aby uwzględnić taką zmienność, w tej odpowiedzi przeanalizowano kilka takich podejść, obejmujących główne podziały myśli matematycznej - analizę (nieskończoną i nieskończenie małą), geometrię / topologię (relacje przestrzenne) i algebrę (formalne wzory manipulacji symbolicznych) - jako samo prawdopodobieństwo. Jego zwieńczeniem jest obserwacja, która jednoczy wszystkie cztery podejścia, pokazuje, że należy odpowiedzieć na prawdziwe pytanie i dokładnie pokazuje, na czym polega problem. Każde podejście zapewnia na swój sposób głębszy wgląd w naturę kształtów funkcji rozkładu prawdopodobieństwa sum niezależnych zmiennych jednorodnych.


tło

Uniform dystrybucja[0,1] ma kilka podstawowych informacji. Gdy ma taki rozkład,X

  1. Szansa, że leży w mierzalnym zbiorze jest tylko miarą (długością) , zapisaną.A A [ 0 , 1 ] | A [ 0 , 1 ] |XAA[0,1]|A[0,1]|

  2. Z tego wynika, że ​​funkcja skumulowanego rozkładu (CDF) jest natychmiastowa

    FX(x)=Pr(Xx)=|(,x][0,1]|=|[0,min(x,1)]|={0x<0x0x11x>1.

    CDF

  3. Funkcja gęstości prawdopodobieństwa (PDF), która jest pochodną CDF, wynosi dla a przeciwnym razie. (Jest niezdefiniowany dla i )0 x 1 f X ( x ) = 0 0 1fX(x)=10x1fX(x)=001

    PDF


Intuicja z funkcji charakterystycznych (analiza)

Funkcja charakterystyczna (CF) każdej zmiennej losowej jest oczekiwanie (gdzie to jednostka urojona, ). Korzystając z pliku PDF jednolitej dystrybucji, możemy obliczyćexp ( i t X ) i i 2 = - 1Xexp(itX)ii2=1

ϕX(t)=exp(itx)fX(x)dx=01exp(itx)dx=exp(itx)it|x=0x=1=exp(it)1it.

CF jest (wersją) transformacji Fouriera w pliku PDF, . Najbardziej podstawowe twierdzenia o transformatach Fouriera to:ϕ(t)=f^(t)

  • CF sumy zmiennych niezależnych jest iloczynem ich CF.X+Y

  • Gdy oryginalny plik PDF jest ciągły, a jest ograniczony, można odzyskać z CF przez ściśle powiązaną wersję transformacji Fouriera,X f ϕfXfϕ

f(x)=ϕˇ(x)=12πexp(ixt)ϕ(t)dt.
  • Gdy jest różniczkowalna, jego pochodną można obliczyć pod znakiem integralnym:f

    f(x)=ddx12πexp(ixt)ϕ(t)dt=i2πtexp(ixt)ϕ(t)dt.

    Aby to było dobrze zdefiniowane, ostatnia całka musi zbiegać się absolutnie; to jest,

    |texp(ixt)ϕ(t)|dt=|t||ϕ(t)|dt

    musi zbiegać się do wartości skończonej. I odwrotnie, kiedy się zbiega, pochodna istnieje wszędzie dzięki tym formułom inwersyjnym.

Teraz jest już jasne, jak różniczkowalny jest PDF dla sumy jednolitych zmiennych: od pierwszego punktu CF sumy zmiennych iid jest CF jednej z nich podniesionej do potęgi , tutaj równa się . Licznik jest ograniczony (składa się z fal sinusoidalnych), a mianownik to . Możemy pomnożyć taki całka przez i nadal będzie on absolutnie zbieżny, gdy i zbiegnie się warunkowo, gdy . Tak więc wielokrotne stosowanie trzeciego punktu pokazuje, że PDF dla sumy jednolitych zmiennych będzie wynosił w sposób ciągłyn th ( exp ( i t ) - 1 ) n / ( i t ) n O ( t n ) t s s < n - 1 s = n - 1 n n - 2 n - 1nnth(exp(it)1)n/(it)nO(tn)tss<n1s=n1nn2razy różniczkowalna, aw większości miejsc będzie razy różniczkowalna.n1

CF dla n = 10

Niebieska cieniowana krzywa jest logarytmicznym wykresem wartości bezwzględnej rzeczywistej części CF sumy iid jednolitych zmiennych. Przerywana czerwona linia jest asymptotą; jego nachylenie wynosi , co pokazuje, że plik PDF jest razy różny. Dla porównania, krzywa szara rysuje rzeczywistą część CF dla podobnie ukształtowanej funkcji Gaussa (normalny PDF).- 10 10 - 2 = 8n=1010102=8


Intuicja z prawdopodobieństwa

Niech i będą niezależnymi zmiennymi losowymi, w których ma rozkład równomierny . Rozważmy wąski przedział . Rozkładamy szansę, że na szansę, że jest wystarczająco blisko tego przedziału razy szansę, że ma odpowiedni rozmiar umieścić w tym przedziale, biorąc pod uwagę, że jest wystarczająco blisko:X X [ 0 , 1 ] ( t , t + d t ] X + Y ( t , t + d t ] Y X X + Y YYXX[0,1](t,t+dt]X+Y(t,t+dt]YXX+YY

fX+Y(t)dt=Pr(X+Y(t,t+dt])=Pr(X+Y(t,t+dt]|Y(t1,t+dt])Pr(Y(t1,t+dt])=Pr(X(tY,tY+dt]|Y(t1,t+dt])(FY(t+dt)FY(t1))=1dt(FY(t+dt)FY(t1)).

Ostateczna równość wynika z wypowiedzi dla PDF . Dzieląc obie strony przez i przyjmując limit jak dajed t d t 0Xdtdt0

fX+Y(t)=FY(t)FY(t1).

Innymi słowy, dodanie zmiennej Uniform do dowolnej zmiennej zmienia pdf w zróżnicowany CDF . Ponieważ PDF jest pochodną CDF, oznacza to, że za każdym razem, gdy dodajemy niezależną zmienną jednolitą do , wynikowy PDF jest raz bardziej zróżnicowany niż wcześniej.[0,1]XYfYFY(t)FY(t1)Y

Załóżmy, zastosować tę wiedzę, począwszy od jednolitej zmiennej . Oryginalnego pliku PDF nie można odróżnić od lub : jest tam nieciągły. PDF jest różniczkowalną w , lub , ale musi być ciągły w tych punktach, ponieważ jest to różnica całek PDF . Dodaj kolejną niezależną zmienną jednolitą : plik PDF jest różniczkowalny w , , i ale niekoniecznie ma drugiY01Y+X012YX2Y+X+X2 0123instrumenty pochodne w tych punktach. I tak dalej.


Intuicja z geometrii

CDF w sumy zmiennej iid uniform jest równy objętości jednostkowego hipersześcianu leżącego w półprzestrzeni . Sytuacja dla zmiennych jest pokazana tutaj, przy ustawionym na , , a następnie .tn[0,1]nx1+x2++xntn=3t1/23/25/2

Kostka 3D

Gdy przechodzi od do , hiperpłaszczyzna przecina wierzchołki przy , . Za każdym razem zmienia się kształt przekroju: na rysunku najpierw jest trójkąt ( sympleks), następnie sześciokąt, a następnie trójkąt. Dlaczego plik PDF nie ma ostrych zagięć przy tych wartościach ?t0nHn(t):x1+x2++xn=tt=0t=1,,t=n2t

Aby to zrozumieć, najpierw rozważ małe wartości . Tutaj hiperpłaszczyzna odcina -simplex. Wszystkie wymiary simpleksu są wprost proporcjonalne do , skąd jego „obszar” jest proporcjonalny do . Pewna notacja przyda się później. Niech będzie „funkcją kroku jednostkowego”tHn(t)n1n1ttn1θ

θ(x)={0x<01x0.

Gdyby nie obecność innych rogów hipersześcianu, skalowanie kontynuowałoby się w nieskończoność. Wykres pola -simplex wyglądałby jak jednolita niebieska krzywa poniżej: jest zerowa przy wartościach ujemnych i wynosina pozytywnym, dogodnie napisane. Ma „załamanie” rzędu na początku, w tym sensie, że wszystkie pochodne przez rząd istnieją i są ciągłe, ale że lewe i prawe pochodne rzędu istnieją, ale nie zgadzają się na początku .n1tn1/(n1)!θ(t)tn1/(n1)!n2n3n2

(Pozostałe krzywe pokazane na tym rysunku to (Czerwony), (Złoty) i (Czarny). Ich role w przypadku omówiono poniżej.)3θ(t1)(t1)2/2!3θ(t2)(t2)2/2!θ(t3)(t3)2/2!n=3

Prosta działka

Aby zrozumieć, co dzieje się, gdy przecina , przyjrzyjmy się szczegółowo przypadkowi , w którym cała geometria zachodzi w płaszczyźnie. Możemy postrzegać jednostkę „sześcian” (teraz tylko kwadrat) jako liniową kombinację kwadrantów , jak pokazano tutaj:t1n=2

Ćwiartki

Pierwszy kwadrant pojawia się w lewym dolnym panelu, w kolorze szarym. Wartość wynosi , określając linię ukośną pokazaną na wszystkich pięciu panelach. CDF równa się żółtemu obszarowi pokazanemu po prawej stronie. Ten żółty obszar składa się z:t1.5

  1. Trójkątny szary obszar w lewym dolnym panelu,

  2. minus trójkątny zielony obszar w lewym górnym panelu,

  3. minus trójkątny czerwony obszar w dolnym środkowym panelu,

  4. plus dowolny niebieski obszar w górnym środkowym panelu (ale nie ma takiego obszaru, nie będzie też, dopóki przekroczy ).t2

Każdy z tych obszarów jest obszarem trójkąta. Pierwszy skaluje się jak , następne dwa mają zero dla a w przeciwnym razie skalują jak , a ostatni wynosi zero dla i poza tym skaluje się jak . Ta analiza geometryczna wykazała, że ​​CDF jest proporcjonalny do = ; równoważnie plik PDF jest proporcjonalny do sumy trzech funkcji , i2n=4tn=t2t<1(t1)n=(t1)2t<2(t2)nθ(t)t2θ(t1)(t1)2θ(t1)(t1)2+θ(t2)(t2)2θ(t)t22θ(t1)(t1)2+θ(t2)(t2)2θ(t)t2θ(t1)(t1)θ(t2)(t2)(każdy skaluje się liniowo, gdy ). Lewy panel tego rysunku pokazuje ich wykresy: oczywiście wszystkie są wersjami oryginalnego wykresu , ale (a) przesunięto o , i jednostki w prawo i (b) przeskalowano o Odpowiednio i .n=2θ(t)t012121

Wykresy dla n = 2

Prawy panel pokazuje sumę tych wykresów (jednolita czarna krzywa, znormalizowana w celu uzyskania pola jednostkowego: jest to dokładnie wyglądający kątowo plik PDF pokazany w pierwotnym pytaniu.

Teraz możemy zrozumieć naturę „załamań” w pliku PDF dowolnej sumy zmiennych jednolitych iid. Wszystkie są dokładnie takie same jak „załamanie” występujące przy w funkcji , ewentualnie przeskalowane i przesunięte do liczb całkowitych odpowiadające miejscu, w którym hiperpłaszczyzna przecina wierzchołki hipersześcianu. Dla jest to widoczna zmiana kierunku: prawa pochodna przy wynosi podczas gdy jej lewa pochodna wynosi . Dla jest to ciągłość0θ(t)tn11,2,,nHn(t)n=2θ(t)t001n=3zmiana kierunku, ale nagła (nieciągła) zmiana drugiej pochodnej. W przypadku ogólnego będą występowały ciągłe pochodne poprzez rząd ale nieciągłość w pochodnej .nn2n1st


Intuicja z manipulacji algebraicznej

Integracja w celu obliczenia CF, forma warunkowego prawdopodobieństwa w analizie probabilistycznej oraz synteza hipersześcianu jako liniowej kombinacji kwadrantów sugerują powrót do pierwotnego rozkładu równomiernego i ponowne wyrażenie go jako liniowej kombinacji prostszych rzeczy . Rzeczywiście, jego plik PDF można zapisać

fX(x)=θ(x)θ(x1).

Przedstawiamy operator przesunięcia : działa na dowolną funkcję , przesuwając wykres o jedną jednostkę w prawo:Δf

(Δf)(x)=f(x1).

Formalnie zatem dla PDF jednolitej zmiennej możemy napisaćX

fX=(1Δ)θ.

Plik PDF sumy iid mundurów to splot ze sobą razy. Wynika to z definicji sumy zmiennych losowych: splot dwóch funkcji i jest funkcjąnfXnfg

(fg)(x)=f(xy)g(y)dy.

Łatwo jest sprawdzić, czy splot dojeżdża do . Wystarczy zmienić zmienną całkowania z na :Δyy+1

(f(Δg))=f(xy)(Δg)(y)dy=f(xy)g(y1)dy=f((x1)y)g(y)dy=(Δ(fg))(x).

Dla PDF sumy IID mundurach, możemy teraz przystąpić do pisania algebraicznien

f=fXn=((1Δ)θ)n=(1Δ)nθn

(gdzie „ ” moc ”oznacza powtarzane splot, a nie punktowe mnożenie!). Teraz jest bezpośrednią, elementarną integracją, dającąnθn

θn(x)=θ(x)xn1n1!.

Reszta to algebra, ponieważ stosuje się twierdzenie dwumianowe (jak ma to miejsce w każdej algebrze przemiennej nad rzeczywistością):

f=(1Δ)nθn=i=0n(1)i(ni)Δiθn.

Ponieważ po prostu przesuwa swój argument o , pokazuje PDF jako liniową kombinację przesuniętych wersji , dokładnie tak, jak wywnioskowaliśmy geometrycznie:Δiifθ(x)xn1

f(x)=1(n1)!i=0n(1)i(ni)(xi)n1θ(xi).

(John Cook cytuje tę formułę później w swoim blogu, używając notacji dla .) ( x - i ) n - 1 θ ( x - i )(xi)+n1(xi)n1θ(xi)

W związku z tym, ponieważ jest wszędzie płynną funkcją, każde zachowanie PDF będzie występować tylko w miejscach, w których jest liczbą pojedynczą (oczywiście tylko ) i w tych miejscach przesuniętych w prawo o . Charakter tego pojedynczego zachowania - stopień gładkości - będzie zatem taki sam we wszystkich lokalizacjach . θ ( x ) 0 1 , 2 , , n n + 1xn1θ(x)01,2,,nn+1

Ilustruje to obraz dla , pokazujący (w lewym panelu) poszczególne warunki w sumie i (w prawym panelu) częściowe sumy, kończące się samą sumą (jednolita czarna krzywa):n=8

Wykres dla n = 8


Komentarze końcowe

Warto zauważyć, że to ostatnie podejście w końcu dostarczyło zwartego, praktycznego wyrażenia do obliczania PDF sumy iid jednorodnych zmiennych. (Wzór na CDF jest podobnie uzyskany.)n

Centralne twierdzenie o granicy nie ma tu wiele do powiedzenia. W końcu suma zmiennych dwumianowych iid jest zbieżna z rozkładem normalnym, ale ta suma jest zawsze dyskretna: nigdy nawet nie ma pliku PDF! Nie powinniśmy mieć nadziei, że jakiekolwiek intuicje dotyczące „załamań” lub innych miar różnicowania pliku PDF będą pochodzić z CLT.

Whuber
źródło
12
(+1) Fantastycznie! Jak długo zajęło ci zebranie tego wszystkiego ?!
kardynał
13
@Cardinal To było ostatnie pytanie, które przeczytałem przed utratą władzy w zeszły poniedziałek. W następnym tygodniu długie ciemne wieczory były okazją do przemyślenia :-) i, dla rozrywki, opracowania wielu odpowiedzi. Po przywróceniu zasilania w zeszły weekend wystarczyło tylko znaleźć trochę czasu na zrobienie ilustracji i napisanie wszystkiego (co, jak sądzę, zajęło mi więcej czasu niż oczekiwano). Mam nadzieję, że być może część tego wątku może posłużyć jako odniesienie do powiązanych przyszłych pytań dotyczących sum zmiennych losowych.
whuber
1
Łał. Chciałbym móc „polubić” tę odpowiedź .
Rhubbarb
2
whuber, to jest absolutnie niesamowite. Nigdy nie zdawałem sobie sprawy, jak głębokie może być tak proste pytanie. Zajmie mi to trochę czasu, zanim zrozumiem twoją odpowiedź, ale na razie bardzo dziękuję!
tetragrammaton
6
Naruszę zasady SE dotyczące komentarzy, mówiąc, że my (wszyscy z crossvalidate.com) powinniśmy przekupić Twoją firmę energetyczną, aby częściej
odcinała
1

Można argumentować, że funkcja gęstości prawdopodobieństwa jednolitej zmiennej losowej jest skończona,

więc jego całka funkcja gęstości skumulowanej jednolitej zmiennej losowej jest ciągła,

więc funkcja gęstości prawdopodobieństwa sumy dwóch jednolitych zmiennych losowych jest ciągła,

więc jego całka funkcja gęstości skumulowanej sumy dwóch jednorodnych zmiennych losowych jest gładka (ciągle różnicowalna),

więc funkcja gęstości prawdopodobieństwa sumy trzech jednolitych zmiennych losowych jest płynna.

Henz
źródło
1

Myślę, że bardziej zaskakujące jest to, że otrzymujesz ostry pik dla . n=2

Twierdzenie o granicy centralnej mówi, że dla wystarczająco dużych próbek wielkość rozkładu średniej (a suma jest tylko średnimi czasami , stałą stałą dla każdego wykresu) będzie w przybliżeniu normalna. Okazuje się, że rozkład równomierny jest naprawdę dobrze zachowany w odniesieniu do CLT (symetryczny, brak ciężkich ogonów (dobrze niewiele ogonów), brak możliwości odstających wartości), więc dla munduru wielkość próbki musiała być „wystarczająco duża „nie jest bardzo duży (około 5 lub 6 dla dobrego przybliżenia), już widać przybliżenie OK przy .n = 3nn=3

Greg Snow
źródło