Jak obliczyć funkcję gęstości prawdopodobieństwa maksimum próbki jednolitych zmiennych losowych IID?

45

Biorąc pod uwagę zmienną losową

Y=max(X1,X2,,Xn)

gdzie Xi to zmienne jednolite IID, jak obliczyć PDF Y ?

Mascarpone
źródło
4
Jeśli to zadanie domowe, przeczytaj często zadawane pytania i odpowiednio zaktualizuj swoje pytanie.
kardynał
Czy można użyć tożsamości Vandermonde'a, aby pokazać wspólną funkcję 2 rzędu Statystyki mówią, że F_y (r) * G_y (r)?
Larry mintz
Który kurs dotyczy tego rodzaju problemów? To nie jest coś, co spotkałem na moim kursie prawdopodobieństwa inżynierii.
Alex
@Alex Co z kursem statystycznym, który obejmuje ponowne próbkowanie?
SOFe

Odpowiedzi:

65

Możliwe, że to pytanie jest pracą domową, ale czułem, że to klasyczne elementarne pytanie prawdopodobieństwa wciąż nie otrzymało pełnej odpowiedzi po kilku miesiącach, więc dam jedno tutaj.

Z opisu problemu chcemy rozmieścić

Y=max{X1,...,Xn}

gdzie to iid . Wiemy, że wtedy i tylko wtedy, gdy każdy element próbki jest mniejszy niż . To, jak wskazano w wskazówce @ varty'ego, w połączeniu z faktem, że są niezależne, pozwala nam wydedukowaćX1,...,XnY < x x X iUniform(a,b)Y<xxXi

P(Yx)=P(X1x,...,Xnx)=i=1nP(Xix)=FX(x)n

gdzie jest CDF rozkładu równomiernego . Dlatego CDF z to Y F Y ( y ) = P ( Y y ) = { 0 y a [ ( y - a ) / ( b - a ) ] n y ( a , b ) 1 y bFX(x)Y

FY(y)=P(Yy)={0ya[(ya)/(ba)]ny(a,b)1yb

Ponieważ ma absolutnie ciągły rozkład , możemy uzyskać jego gęstość poprzez różnicowanie CDF . Dlatego gęstość wynosiYYY

pY(y)=n(ya)n1(ba)n

W szczególnym przypadku, gdy , mamy , czyli gęstość rozkładu Beta z i , ponieważ .a=0,b=1pY(y)=nyn1α=nβ=1Beta(n,1)=Γ(n+1)Γ(n)Γ(1)=n!(n1)!=n

Dla przypomnienia, sekwencję, którą otrzymujesz, jeśli sortujesz próbkę w porządku rosnącym - - nazywa się statystykami kolejności . Uogólnieniem tej odpowiedzi jest to, że wszystkie statystyki rzędu próbki rozproszonej mają rozkład Beta , jak zauważono w odpowiedzi @ bnaul. X(1),...,X(n)Uniform(0,1)

Makro
źródło
To było dla mnie pytanie o pracę domową. Dziękuję za wyjaśnienie.
Paul PM
Wydaje mi się, że powinienem być w stanie zebrać twoje spostrzeżenia i odpowiedzieć na to pytanie , ale nie wiem, jak to zrobić. Czy możesz mi pomóc? czy możesz polecić podręcznik lub rozdział dotyczący tego ogólnego problemu?
@PaulPM Jaki kurs obejmuje tego rodzaju problem? To nie jest coś, co spotkałem na moim kursie prawdopodobieństwa inżynierii.
Alex
6

Maksymalna próbka to jedna ze statystyk rzędu , w szczególności statystyka tego rzędu próbki . Zasadniczo obliczenie rozkładu statystyk zamówień jest trudne, jak opisano w artykule w Wikipedii; w przypadku niektórych specjalnych dystrybucji statystyki zamówień są dobrze znane (np. dla dystrybucji jednolitej, która ma statystyki zamówień dystrybuowane w wersji Beta).X 1 , , X nnX1,,Xn

EDYCJA: Artykuł w Wikipedii na temat maksymalnej i minimalnej próbki jest również pomocny i bardziej specyficzny dla twojego problemu.

bnaul
źródło
5
W przypadku rozkładów o gęstościach obliczenie rozkładu krańcowego określonej statystyki rzędu jest dość proste. Jest to jeszcze łatwiejsze dla „specjalnych” statystyk zamówień, takich jak minimum i maksimum.
kardynał
Myślę, że to zależy od tego, co rozumie się przez „oblicz” w pierwotnym pytaniu. Z pewnością robienie tego numerycznie jest proste; Zinterpretowałem to pytanie jako pytanie, jak znaleźć rozwiązanie w formie zamkniętej, co na ogół nie jest łatwe.
bnaul
8
@bnaul niech być dowolna funkcja rozkładu i pozwolić być IID próbka z . Niech będzie statystyką tego rzędu. NastępnieQED . X 1 , , X n F.F(x)=P(Xx)X1,,XnFX(k)k
P(X(k)x)=m=knP(|{i:Xix}|=m)=m=kn(nm)F(x)m(1F(x))nm.
kardynał
1
Być może sposobem na zrozumienie odpowiedzi kardynałów (biorąc pod uwagę, że rozumiesz statystykę porządku dla munduru) jest to, że ponieważ pliki cdf są monotonicznymi przekształceniami 1-to-1 jednolitego pliku cdf, zawsze możemy wyrazić zdarzenie {X <a} w postaci munduru zmienna losowa (dlatego działa Monte Carlo). Tak więc każdy wynik oparty na jednolitym rozkładzie z łatwością uogólni na inne zmienne losowe - wystarczy zastosować transformację . U=FX(X)
prawdopodobieństwo prawdopodobieństwo
2
@probabilityislogic: Intuicja jest dobra, choć wydaje się, że w komentarzu masz ciągłe zmienne losowe. (Wynik w moim drugim komentarzu powyżej, np., Działa dla dowolnej funkcji dystrybucji.)
kardynał
1

Jeśli jest CDF , to Następnie możesz użyć właściwości iid i cdf munduru celu obliczenia .FY(y)Y

FY(y)=Prob(y>X1,y>X2,...,y>Xn)
FY(y)
Varty
źródło
-3

Maksymalnie zbiór losowych zmiennych IID, gdy odpowiednio znormalizowany, zasadniczo zbiega się z jednym z trzech ekstremalnych typów wartości. To jest twierdzenie Gnedenko, równoważność centralnego twierdzenia granicznego dla ekstremów. Konkretny typ zależy od zachowania ogona rozkładu populacji. Wiedząc o tym, można użyć rozkładu ograniczającego, aby przybliżyć rozkład maksymalnie.

Ponieważ rozkład równomierny na [a, b] jest przedmiotem tego pytania, Makro podało dokładny rozkład dla dowolnego n i bardzo ładną odpowiedź. Wynik jest raczej trywialny. Dla rozkładu normalnego ładna postać zamknięta nie jest możliwa, ale odpowiednio znormalizowana maksimum dla rozkładu normalnego jest zbieżne z rozkładem Gumbela F (x) = exp (- e ).x

Dla munduru normalizacja wynosi (ba) -x / n, a F (bax / n) = (1-x / [n (ba)])nn

która zbiega się do e . Zauważ, że y = bax / n. a F (y) zbiega się do 1, gdy y idzie do ba. Dotyczy to wszystkich 0 x/(ba)n

W takim przypadku łatwo jest porównać dokładną wartość z jej asymptotycznym limitem.

Książka Gumbela

Książka Galambosa

Książka Leadbettera

Książka Novaka

Książka Colesa

Michael Chernick
źródło
4
Aby ta odpowiedź była wykonalna, należy szczegółowo określić, w jaki sposób „odpowiednio się znormalizować” wartości, a także zapewnić sposób oszacowania, jak duże musi być zanim formuła asymptotyczna stanie się wiarygodnym przybliżeniem. n
whuber
@whuber Każdy może spojrzeć na twierdzenie Gnedenko, aby zobaczyć normalizację. Równie ważne są cechy ogona, które określają, który z trzech typów ma zastosowanie. Twierdzenie to uogólnia na stacjonarne procesy stochastyczne. Każdy, kto chce poznać szczegóły drobiazgów, może zajrzeć do książki Leadbettera lub mojej rozprawy doktorskiej. Gdy n jest wystarczająco duże, trudno jest odpowiedzieć na jakąkolwiek formę asymptotyki. Wydaje mi się, że twierdzenie Berry'ego-Esseena pomaga w sformułowaniu centralnego twierdzenia granicznego. Nie wiem, co jest porównywalne z ekstremami.
Michael Chernick,