Zastanawiam się nad tym przez jakiś czas; Wydaje mi się to trochę dziwne, jak nagle to się dzieje. Zasadniczo, dlaczego potrzebujemy tylko trzech mundurów, aby wygładził się tak jak on? I dlaczego wygładzanie odbywa się tak szybko?
:
:
(obrazy bezwstydnie skradzione z bloga Johna D. Cooka: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ )
Dlaczego nie potrzeba, powiedzmy, czterech mundurów? A może pięć? Lub...?
normal-distribution
mathematical-statistics
uniform
central-limit-theorem
tetragrammaton
źródło
źródło
Odpowiedzi:
Możemy do tego podejść na różne sposoby, z których każde może wydawać się intuicyjne dla niektórych osób, a mniej intuicyjne dla innych. Aby uwzględnić taką zmienność, w tej odpowiedzi przeanalizowano kilka takich podejść, obejmujących główne podziały myśli matematycznej - analizę (nieskończoną i nieskończenie małą), geometrię / topologię (relacje przestrzenne) i algebrę (formalne wzory manipulacji symbolicznych) - jako samo prawdopodobieństwo. Jego zwieńczeniem jest obserwacja, która jednoczy wszystkie cztery podejścia, pokazuje, że należy odpowiedzieć na prawdziwe pytanie i dokładnie pokazuje, na czym polega problem. Każde podejście zapewnia na swój sposób głębszy wgląd w naturę kształtów funkcji rozkładu prawdopodobieństwa sum niezależnych zmiennych jednorodnych.
tło
Uniform dystrybucja[0,1] ma kilka podstawowych informacji. Gdy ma taki rozkład,X
Szansa, że leży w mierzalnym zbiorze jest tylko miarą (długością) , zapisaną.A A ∩ [ 0 , 1 ] | A ∩ [ 0 , 1 ] |X A A∩[0,1] |A∩[0,1]|
Z tego wynika, że funkcja skumulowanego rozkładu (CDF) jest natychmiastowa
Funkcja gęstości prawdopodobieństwa (PDF), która jest pochodną CDF, wynosi dla a przeciwnym razie. (Jest niezdefiniowany dla i )0 ≤ x ≤ 1 f X ( x ) = 0 0 1fX(x)=1 0≤x≤1 fX(x)=0 0 1
Intuicja z funkcji charakterystycznych (analiza)
Funkcja charakterystyczna (CF) każdej zmiennej losowej jest oczekiwanie (gdzie to jednostka urojona, ). Korzystając z pliku PDF jednolitej dystrybucji, możemy obliczyćexp ( i t X ) i i 2 = - 1X exp(itX) i i2=−1
CF jest (wersją) transformacji Fouriera w pliku PDF, . Najbardziej podstawowe twierdzenia o transformatach Fouriera to:ϕ(t)=f^(t)
CF sumy zmiennych niezależnych jest iloczynem ich CF.X+Y
Gdy oryginalny plik PDF jest ciągły, a jest ograniczony, można odzyskać z CF przez ściśle powiązaną wersję transformacji Fouriera,X f ϕf X f ϕ
Gdy jest różniczkowalna, jego pochodną można obliczyć pod znakiem integralnym:f
Aby to było dobrze zdefiniowane, ostatnia całka musi zbiegać się absolutnie; to jest,
musi zbiegać się do wartości skończonej. I odwrotnie, kiedy się zbiega, pochodna istnieje wszędzie dzięki tym formułom inwersyjnym.
Teraz jest już jasne, jak różniczkowalny jest PDF dla sumy jednolitych zmiennych: od pierwszego punktu CF sumy zmiennych iid jest CF jednej z nich podniesionej do potęgi , tutaj równa się . Licznik jest ograniczony (składa się z fal sinusoidalnych), a mianownik to . Możemy pomnożyć taki całka przez i nadal będzie on absolutnie zbieżny, gdy i zbiegnie się warunkowo, gdy . Tak więc wielokrotne stosowanie trzeciego punktu pokazuje, że PDF dla sumy jednolitych zmiennych będzie wynosił w sposób ciągłyn th ( exp ( i t ) - 1 ) n / ( i t ) n O ( t n ) t s s < n - 1 s = n - 1 n n - 2 n - 1n nth (exp(it)−1)n/(it)n O(tn) ts s<n−1 s=n−1 n n−2 razy różniczkowalna, aw większości miejsc będzie razy różniczkowalna.n−1
Niebieska cieniowana krzywa jest logarytmicznym wykresem wartości bezwzględnej rzeczywistej części CF sumy iid jednolitych zmiennych. Przerywana czerwona linia jest asymptotą; jego nachylenie wynosi , co pokazuje, że plik PDF jest razy różny. Dla porównania, krzywa szara rysuje rzeczywistą część CF dla podobnie ukształtowanej funkcji Gaussa (normalny PDF).- 10 10 - 2 = 8n=10 −10 10−2=8
Intuicja z prawdopodobieństwa
Niech i będą niezależnymi zmiennymi losowymi, w których ma rozkład równomierny . Rozważmy wąski przedział . Rozkładamy szansę, że na szansę, że jest wystarczająco blisko tego przedziału razy szansę, że ma odpowiedni rozmiar umieścić w tym przedziale, biorąc pod uwagę, że jest wystarczająco blisko:X X [ 0 , 1 ] ( t , t + d t ] X + Y ∈ ( t , t + d t ] Y X X + Y YY X X [0,1] (t,t+dt] X+Y∈(t,t+dt] Y X X+Y Y
Ostateczna równość wynika z wypowiedzi dla PDF . Dzieląc obie strony przez i przyjmując limit jak dajed t d t → 0X dt dt→0
Innymi słowy, dodanie zmiennej Uniform do dowolnej zmiennej zmienia pdf w zróżnicowany CDF . Ponieważ PDF jest pochodną CDF, oznacza to, że za każdym razem, gdy dodajemy niezależną zmienną jednolitą do , wynikowy PDF jest raz bardziej zróżnicowany niż wcześniej.[0,1] X Y fY FY(t)−FY(t−1) Y
Załóżmy, zastosować tę wiedzę, począwszy od jednolitej zmiennej . Oryginalnego pliku PDF nie można odróżnić od lub : jest tam nieciągły. PDF jest różniczkowalną w , lub , ale musi być ciągły w tych punktach, ponieważ jest to różnica całek PDF . Dodaj kolejną niezależną zmienną jednolitą : plik PDF jest różniczkowalny w , , i ale niekoniecznie ma drugiY 0 1 Y+X 0 1 2 Y X2 Y+X+X2 0 1 2 3 instrumenty pochodne w tych punktach. I tak dalej.
Intuicja z geometrii
CDF w sumy zmiennej iid uniform jest równy objętości jednostkowego hipersześcianu leżącego w półprzestrzeni . Sytuacja dla zmiennych jest pokazana tutaj, przy ustawionym na , , a następnie .t n [0,1]n x1+x2+⋯+xn≤t n=3 t 1/2 3/2 5/2
Gdy przechodzi od do , hiperpłaszczyzna przecina wierzchołki przy , . Za każdym razem zmienia się kształt przekroju: na rysunku najpierw jest trójkąt ( sympleks), następnie sześciokąt, a następnie trójkąt. Dlaczego plik PDF nie ma ostrych zagięć przy tych wartościach ?t 0 n Hn(t):x1+x2+⋯+xn=t t=0 t=1,…,t=n 2 t
Aby to zrozumieć, najpierw rozważ małe wartości . Tutaj hiperpłaszczyzna odcina -simplex. Wszystkie wymiary simpleksu są wprost proporcjonalne do , skąd jego „obszar” jest proporcjonalny do . Pewna notacja przyda się później. Niech będzie „funkcją kroku jednostkowego”t Hn(t) n−1 n−1 t tn−1 θ
Gdyby nie obecność innych rogów hipersześcianu, skalowanie kontynuowałoby się w nieskończoność. Wykres pola -simplex wyglądałby jak jednolita niebieska krzywa poniżej: jest zerowa przy wartościach ujemnych i wynosina pozytywnym, dogodnie napisane. Ma „załamanie” rzędu na początku, w tym sensie, że wszystkie pochodne przez rząd istnieją i są ciągłe, ale że lewe i prawe pochodne rzędu istnieją, ale nie zgadzają się na początku .n−1 tn−1/(n−1)! θ(t)tn−1/(n−1)! n−2 n−3 n−2
(Pozostałe krzywe pokazane na tym rysunku to (Czerwony), (Złoty) i (Czarny). Ich role w przypadku omówiono poniżej.)−3θ(t−1)(t−1)2/2! 3θ(t−2)(t−2)2/2! −θ(t−3)(t−3)2/2! n=3
Aby zrozumieć, co dzieje się, gdy przecina , przyjrzyjmy się szczegółowo przypadkowi , w którym cała geometria zachodzi w płaszczyźnie. Możemy postrzegać jednostkę „sześcian” (teraz tylko kwadrat) jako liniową kombinację kwadrantów , jak pokazano tutaj:t 1 n=2
Pierwszy kwadrant pojawia się w lewym dolnym panelu, w kolorze szarym. Wartość wynosi , określając linię ukośną pokazaną na wszystkich pięciu panelach. CDF równa się żółtemu obszarowi pokazanemu po prawej stronie. Ten żółty obszar składa się z:t 1.5
Trójkątny szary obszar w lewym dolnym panelu,
minus trójkątny zielony obszar w lewym górnym panelu,
minus trójkątny czerwony obszar w dolnym środkowym panelu,
plus dowolny niebieski obszar w górnym środkowym panelu (ale nie ma takiego obszaru, nie będzie też, dopóki przekroczy ).t 2
Każdy z tych obszarów jest obszarem trójkąta. Pierwszy skaluje się jak , następne dwa mają zero dla a w przeciwnym razie skalują jak , a ostatni wynosi zero dla i poza tym skaluje się jak . Ta analiza geometryczna wykazała, że CDF jest proporcjonalny do = ; równoważnie plik PDF jest proporcjonalny do sumy trzech funkcji , i2n=4 tn=t2 t<1 (t−1)n=(t−1)2 t<2 (t−2)n θ(t)t2−θ(t−1)(t−1)2−θ(t−1)(t−1)2+θ(t−2)(t−2)2 θ(t)t2−2θ(t−1)(t−1)2+θ(t−2)(t−2)2 θ(t)t −2θ(t−1)(t−1) θ(t−2)(t−2) (każdy skaluje się liniowo, gdy ). Lewy panel tego rysunku pokazuje ich wykresy: oczywiście wszystkie są wersjami oryginalnego wykresu , ale (a) przesunięto o , i jednostki w prawo i (b) przeskalowano o Odpowiednio i .n=2 θ(t)t 0 1 2 1 −2 1
Prawy panel pokazuje sumę tych wykresów (jednolita czarna krzywa, znormalizowana w celu uzyskania pola jednostkowego: jest to dokładnie wyglądający kątowo plik PDF pokazany w pierwotnym pytaniu.
Teraz możemy zrozumieć naturę „załamań” w pliku PDF dowolnej sumy zmiennych jednolitych iid. Wszystkie są dokładnie takie same jak „załamanie” występujące przy w funkcji , ewentualnie przeskalowane i przesunięte do liczb całkowitych odpowiadające miejscu, w którym hiperpłaszczyzna przecina wierzchołki hipersześcianu. Dla jest to widoczna zmiana kierunku: prawa pochodna przy wynosi podczas gdy jej lewa pochodna wynosi . Dla jest to ciągłość0 θ(t)tn−1 1,2,…,n Hn(t) n=2 θ(t)t 0 0 1 n=3 zmiana kierunku, ale nagła (nieciągła) zmiana drugiej pochodnej. W przypadku ogólnego będą występowały ciągłe pochodne poprzez rząd ale nieciągłość w pochodnej .n n−2 n−1st
Intuicja z manipulacji algebraicznej
Integracja w celu obliczenia CF, forma warunkowego prawdopodobieństwa w analizie probabilistycznej oraz synteza hipersześcianu jako liniowej kombinacji kwadrantów sugerują powrót do pierwotnego rozkładu równomiernego i ponowne wyrażenie go jako liniowej kombinacji prostszych rzeczy . Rzeczywiście, jego plik PDF można zapisać
Przedstawiamy operator przesunięcia : działa na dowolną funkcję , przesuwając wykres o jedną jednostkę w prawo:Δ f
Formalnie zatem dla PDF jednolitej zmiennej możemy napisaćX
Plik PDF sumy iid mundurów to splot ze sobą razy. Wynika to z definicji sumy zmiennych losowych: splot dwóch funkcji i jest funkcjąn fX n f g
Łatwo jest sprawdzić, czy splot dojeżdża do . Wystarczy zmienić zmienną całkowania z na :Δ y y+1
Dla PDF sumy IID mundurach, możemy teraz przystąpić do pisania algebraicznien
(gdzie „ ” moc ”oznacza powtarzane splot, a nie punktowe mnożenie!). Teraz jest bezpośrednią, elementarną integracją, dającą⋆n θ⋆n
Reszta to algebra, ponieważ stosuje się twierdzenie dwumianowe (jak ma to miejsce w każdej algebrze przemiennej nad rzeczywistością):
Ponieważ po prostu przesuwa swój argument o , pokazuje PDF jako liniową kombinację przesuniętych wersji , dokładnie tak, jak wywnioskowaliśmy geometrycznie:Δi i f θ(x)xn−1
(John Cook cytuje tę formułę później w swoim blogu, używając notacji dla .) ( x - i ) n - 1 θ ( x - i )(x−i)n−1+ (x−i)n−1θ(x−i)
W związku z tym, ponieważ jest wszędzie płynną funkcją, każde zachowanie PDF będzie występować tylko w miejscach, w których jest liczbą pojedynczą (oczywiście tylko ) i w tych miejscach przesuniętych w prawo o . Charakter tego pojedynczego zachowania - stopień gładkości - będzie zatem taki sam we wszystkich lokalizacjach . θ ( x ) 0 1 , 2 , … , n n + 1xn−1 θ(x) 0 1,2,…,n n+1
Ilustruje to obraz dla , pokazujący (w lewym panelu) poszczególne warunki w sumie i (w prawym panelu) częściowe sumy, kończące się samą sumą (jednolita czarna krzywa):n=8
Komentarze końcowe
Warto zauważyć, że to ostatnie podejście w końcu dostarczyło zwartego, praktycznego wyrażenia do obliczania PDF sumy iid jednorodnych zmiennych. (Wzór na CDF jest podobnie uzyskany.)n
Centralne twierdzenie o granicy nie ma tu wiele do powiedzenia. W końcu suma zmiennych dwumianowych iid jest zbieżna z rozkładem normalnym, ale ta suma jest zawsze dyskretna: nigdy nawet nie ma pliku PDF! Nie powinniśmy mieć nadziei, że jakiekolwiek intuicje dotyczące „załamań” lub innych miar różnicowania pliku PDF będą pochodzić z CLT.
źródło
Można argumentować, że funkcja gęstości prawdopodobieństwa jednolitej zmiennej losowej jest skończona,
więc jego całka funkcja gęstości skumulowanej jednolitej zmiennej losowej jest ciągła,
więc funkcja gęstości prawdopodobieństwa sumy dwóch jednolitych zmiennych losowych jest ciągła,
więc jego całka funkcja gęstości skumulowanej sumy dwóch jednorodnych zmiennych losowych jest gładka (ciągle różnicowalna),
więc funkcja gęstości prawdopodobieństwa sumy trzech jednolitych zmiennych losowych jest płynna.
źródło
Myślę, że bardziej zaskakujące jest to, że otrzymujesz ostry pik dla .n=2
Twierdzenie o granicy centralnej mówi, że dla wystarczająco dużych próbek wielkość rozkładu średniej (a suma jest tylko średnimi czasami , stałą stałą dla każdego wykresu) będzie w przybliżeniu normalna. Okazuje się, że rozkład równomierny jest naprawdę dobrze zachowany w odniesieniu do CLT (symetryczny, brak ciężkich ogonów (dobrze niewiele ogonów), brak możliwości odstających wartości), więc dla munduru wielkość próbki musiała być „wystarczająco duża „nie jest bardzo duży (około 5 lub 6 dla dobrego przybliżenia), już widać przybliżenie OK przy .n = 3n n=3
źródło