Zależność między rozkładami dwumianowymi i beta

27

Jestem bardziej programistą niż statystykiem, więc mam nadzieję, że to pytanie nie jest zbyt naiwne.

Zdarza się to w losowych wykonaniach programu do pobierania próbek. Jeśli wezmę N = 10 losowo wybranych próbek stanu programu, zobaczyłem, że funkcja Foo jest wykonywana na przykład na I = 3 z tych próbek. Interesuje mnie to, co mówi mi o faktycznym ułamku czasu F, który Foo wykonuje.

Rozumiem, że jestem dwumianowy ze średnim F * N. Wiem także, że biorąc pod uwagę I i N, F ma rozkład beta. W rzeczywistości zweryfikowałem programowo związek między tymi dwiema dystrybucjami, to znaczy

cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1

Problem polega na tym, że nie mam intuicyjnego wyczucia związku. Nie mogę „wyobrazić sobie”, dlaczego to działa.

EDYCJA: Wszystkie odpowiedzi były trudne, szczególnie @ whuber, które wciąż muszę omijać, ale uporządkowanie statystyk było bardzo pomocne. Niemniej jednak zdałem sobie sprawę, że powinienem zadać bardziej podstawowe pytanie: biorąc pod uwagę I i N, jaki jest rozkład dla F? Wszyscy zauważyli, że to Beta, którą znałem. W końcu doszedłem do wniosku z Wikipedii ( koniugat wcześniej ), że tak właśnie jest Beta(I+1, N-I+1). Po zbadaniu go za pomocą programu wydaje się być właściwą odpowiedzią. Chciałbym wiedzieć, czy się mylę. I nadal jestem zdezorientowany relacją między dwoma plikami cdf pokazanymi powyżej, dlaczego sumują się do 1, a nawet jeśli mają coś wspólnego z tym, co naprawdę chciałem wiedzieć.

Mike Dunlavey
źródło
Jeśli „to, co naprawdę chciałeś wiedzieć” to „faktyczny ułamek czasu, w którym Foo jest wykonywany”, to pytasz o dwumianowy przedział ufności lub (bayesowski) dwumianowy wiarygodny przedział.
whuber
@whuber: Cóż, korzystałem z metody losowego wstrzymywania dostrajania wydajności przez ponad 3 dekady, a niektórzy inni też to odkryli. Powiedziałem ludziom, że jeśli jakiś warunek jest spełniony na 2 lub więcej próbkach w losowym czasie, wówczas usunięcie go zaoszczędziłoby sporo czasu. JAK dobry ułamek jest tym, o czym starałem się wyraźnie powiedzieć, zakładając, że nie znamy wcześniejszego bayesowskiego. Oto ogólny płomień: stackoverflow.com/questions/375913/… i stackoverflow.com/questions/1777556/alternatives-to-gprof/…
Mike Dunlavey
1
Dobry pomysł. Statystyczne założenie jest takie, że przerwa jest niezależna od stanu wykonania, co jest rozsądną hipotezą. Dwumianowy przedział ufności jest dobrym narzędziem do wykorzystania do reprezentowania niepewności. (Może to być również otwieracz do oczu: w twojej sytuacji 3/10 symetryczny dwustronny 95% CI dla prawdziwego prawdopodobieństwa wynosi [6,7%, 65,2%]. W sytuacji 2/10 odstęp wynosi [2,5 %, 55,6%]. Są to szerokie zakresy! Nawet przy 2/3 dolna granica jest wciąż mniejsza niż 10%. Lekcja polega na tym, że coś dość rzadkiego może zdarzyć się dwa razy.)
whuber
@whuber: Dzięki. Masz rację. Bardziej użyteczna jest oczekiwana wartość. Jeśli chodzi o priory, zwracam uwagę, że jeśli zobaczysz coś tylko raz, to niewiele ci to powie, chyba że zdasz sobie sprawę, że program jest w nieskończonej (lub wyjątkowo długiej) pętli.
Mike Dunlavey,
Myślę, że wszystkie odpowiedzi i komentarze z pewnością były pouczające i poprawne, ale nikt tak naprawdę nie poruszył interesującej równości, którą @MikeDunlavey napisał w swoim oryginalnym poście. Tę równość można znaleźć na stronie wikipedia Beta en.wikipedia.org/wiki/Beta_function#Incomplete_beta_function, ale nie podano opisu, dlaczego tak jest, po prostu podana jako własność.
bdeonovic

Odpowiedzi:

27

Analiza danych statystycznych rzędu z niezależnie czerpie z rozkładu równomiernego. Ponieważ statystyki zamówień mają rozkłady Beta , szansa, że nie przekracza daje całka Beta n + 1 x [ k ] px[0]x[1]x[n]n+1x[k]p

Pr[x[k]p]=1B(k+1,nk+1)0pxk(1x)nkdx.

(Dlaczego tak jest? Oto nie rygorystyczna, ale zapadająca w pamięć demonstracja. Szansa, że leży między i jest szansą, że spośród jednolitych wartości, z nich leży między a , przynajmniej jedna z nich leży między i , a reszta leży między i Aby uporządkować w nieskończenie małym , musimy wziąć pod uwagę przypadek, w którym dokładnie jedna wartość (mianowicie ) leży pomiędzy i a zatemx[k]pp+dpn+1k0ppp+dpp+dp1dpx[k]pp+dpnkwartości przekraczają . Ponieważ wszystkie wartości są niezależne i jednolite, prawdopodobieństwo to jest proporcjonalne do . Pierwsze zamówienie w jest równe , dokładnie całka rozkładu Beta. Termin można obliczyć bezpośrednio z tego argumentu jako współczynnik wielomianowy lub wyprowadzić pośrednio jako stała normalizująca całki).p+dppk(dp)(1pdp)nkdppk(1p)nkdp1B(k+1,nk+1)(n+1k,1,nk)

Z definicji zdarzenie oznacza, że ​​wartość nie przekracza . Odpowiednio, co najmniej wartości nie przekracza : to proste (i mam nadzieję oczywiste) stwierdzenie zapewnia intuicję, której szukasz. Prawdopodobieństwo wyrażenia równoważnego wynika z rozkładu dwumianowego,x[k]pk+1stp k+1p

Pr[at least k+1 of the xip]=j=k+1n+1(n+1j)pj(1p)n+1j.

Podsumowując , całka Beta dzieli obliczenie zdarzenia na serię obliczeń: znalezienie co najmniej wartości w zakresie , którego prawdopodobieństwo normalnie obliczilibyśmy z dwumianowym cdf, dzieli się na wzajemnie wyłączne przypadki, w których dokładnie wartości jest w zakresie a 1 wartość mieści się w zakresie dla wszystkich możliwych , , a jest nieskończenie małą długością. Podsumowanie wszystkich takich „okien” - czyli całkowanie - musi dawać takie samo prawdopodobieństwo jak dwumianowy plik cdf.k+1[0,p] k[0,x][x,x+dx]x0x<pdx[x,x+dx]

alternatywny tekst

Whuber
źródło
Doceniam wysiłek. Będę musiał to naprawdę przestudiować, ponieważ to nie jest mój „język ojczysty”. Ponadto widzę wiele znaków dolara i formatowania. Czy jest coś, o czym nie wiem, co sprawia, że ​​wygląda jak prawdziwa matematyka?
Mike Dunlavey,
Co się stało? Nagle pojawiła się matematyka i pisanie tutaj stało się bardzo wolne.
Mike Dunlavey,
Zrewidowałem pytanie, jeśli masz ochotę rzucić okiem. Dzięki.
Mike Dunlavey,
1
Jest trochę późno, ale w końcu mam czas, aby usiąść i odtworzyć twój argument. Kluczem był „współczynnik wielomianowy”. Próbowałem to rozgryźć przy użyciu zwykłych starych współczynników dwumianowych i wszystko zaczynało się poprawiać. Jeszcze raz dziękuję za miłą odpowiedź.
Mike Dunlavey,
12

Spójrz na pdf Dwumianowy jako funkcję : i pdf Beta jako funkcja : Prawdopodobnie widać że przy odpowiednim (całkowitym) wyborze dla i są one takie same. O ile mogę stwierdzić, to wszystko, co jest związane z tą relacją: sposób, w jaki wchodzi w dwumianowy plik pdf, nazywa się rozkładem beta.x

f(x)=(nx)px(1p)nx
p
g(p)=Γ(a+b)Γ(a)Γ(b)pa1(1p)b1
abp
Aniko
źródło
Wiem, że wyglądają prawie tak samo, ale jeśli podstawię y dla nx, a jeśli wezmę Beta pdf i podstawię x dla a-1 iy dla b-1, otrzymam dodatkowy współczynnik (x + y + 1), lub n + 1. tj. (x + y + 1)! / x! / y! * p ^ x * q ^ y. To wydaje się wystarczające, aby mnie zrzucić.
Mike Dunlavey,
1
Być może ktoś zadzwoni z pełną odpowiedzią, ale w „intuicyjnym” wyjaśnieniu zawsze możemy ręcznie odrzucić stałe (jak ), które nie zależą od zmiennych będących przedmiotem zainteresowania ( i ), ale są wymagane dodaj / zintegruj pdf do 1. Zapraszam do zastąpienia znaków „równości” znakami „proporcjonalnymi do”. n+1xp
Aniko,
Słuszna uwaga. Myślę, że zbliżam się do porozumienia. Nadal staram się być w stanie powiedzieć, co x opowiada o dystrybucji p, i dlaczego te dwa cdfs sumować się do 1.
Mike Dunlavey
1
Odmiennie podchodzę do „intuicyjnych” wyjaśnień. W niektórych przypadkach nie przejmujemy się zbytnio stałymi, ale w tym przypadku sednem sprawy jest sprawdzenie, dlaczego pojawia się n + 1, a nie n. Jeśli tego nie rozumiesz, to twoja „intuicja” jest nieprawidłowa.
whuber
Zrewidowałem pytanie, jeśli masz ochotę rzucić okiem. Dzięki.
Mike Dunlavey,
5

Jak można zauważyć, rozkład beta opisuje rozkład prawdopodobieństwa próbny parametru , natomiast rozkład dwumianowy opisuje podział wyniku parametr . Przepisując pytanie, pytałeś o to, dlaczego Oznacza to, że prawdopodobieństwo, że obserwacja plus jeden jest większa niż oczekiwana obserwacja, jest takie samo jak prawdopodobieństwo, że obserwacja plus jeden jest większa niż oczekiwana obserwacja.FI

P(Fi+1n)+P(Ifn1)=1
P(Fni+1)+P(I+1fn)=1
P(Fni+1)=P(fn<I+1)

Przyznaję, że może to nie pomóc w intuicyjnym sformułowaniu problemu, ale może pomaga przynajmniej zobaczyć, w jaki sposób obie dystrybucje wykorzystują ten sam podstawowy model powtarzanych prób Bernoulliego do opisania zachowania różnych parametrów.

sesqu
źródło
Doceniam twoje podejście do tego. Wszystkie odpowiedzi pomagają mi zastanowić się nad pytaniem i być może lepiej zrozumieć, o co pytam.
Mike Dunlavey,
Zrewidowałem pytanie, jeśli masz ochotę rzucić okiem. Dzięki.
Mike Dunlavey,
1
Jeśli chodzi o twoją wersję: Tak, , o ile interwały próbkowania są wystarczająco długie, aby każda obserwacja była niezależna i identycznie rozłożona. Zauważ, że jeśli chcesz być Bayesowski i określić nierównomierną wcześniejszą dystrybucję dla oczekiwanej rzeczywistej proporcji, możesz dodać coś innego do obu parametrów. FBeta(I+1,NI+1)
sesqu
@sesqu, czy twoja odpowiedź może być w jakiś sposób powiązana z moim pytaniem tutaj: stats.stackexchange.com/questions/147978/... ? Byłbym wdzięczny za twoje przemyślenia na ten temat.
Vicent,
1

W krainie Bayesian rozkład Beta jest sprzężony przed parametrem p rozkładu dwumianowego.

Ian Fiske
źródło
2
Tak, ale dlaczego tak jest?
vonjd
1

Nie mogę komentować innych odpowiedzi, więc muszę utworzyć własną odpowiedź.

Posterior = C * Prawdopodobieństwo * Prior (C jest stałą, która powoduje, że Posterior jest zintegrowany z 1)

Biorąc pod uwagę model, który wykorzystuje rozkład dwumianowy dla prawdopodobieństwa i rozkład Beta dla Prior. Produkt tych dwóch, który generuje posterior, jest także rozkładem beta. Ponieważ Prior i Posterior są zarówno wersjami beta, a zatem są rozkładami sprzężonymi . Prior (Beta) nazywany jest sprzężonym Priorem dla prawdopodobieństwa (dwumianowy). Na przykład, jeśli pomnożysz Beta przez Normalny, posterior nie będzie już Beta. Podsumowując, Beta i Binomial to dwa rozkłady, które są często używane w wnioskowaniu bayesowskim. Beta jest koniugatem przed dwumianowym, ale te dwie dystrybucje nie są podzbiorem ani nadzbiorem drugiej.

Kluczową ideą wnioskowania bayesowskiego jest to, że traktujemy parametr p jako zmienną losową z zakresu od [0,1], co jest sprzeczne z podejściem wnioskowania częstych, w którym traktujemy parametr p jako stały. Jeśli przyjrzysz się bliżej właściwościom dystrybucji Beta, zobaczysz, że jej średnia i tryb są określane wyłącznie przez i nieistotne dla parametru pαβ . To, w połączeniu z jego elastycznością, powoduje, że Beta jest zwykle używana jako Prior.

John Li
źródło
1

Podsumowanie: Często mówi się, że dystrybucja Beta jest dystrybucją dystrybucji! Ale co to znaczy?

Zasadniczo oznacza to, że możesz naprawić i pomyśleć o jako funkcji . Poniższe obliczenia mówią, że wartość wzrasta od do po dostrojeniu od do . Szybkość wzrastania przy każdym wynosi dokładnie przy tym .n,kP[Bin(n,p)k]pP[Bin(n,p)k]01p01pβ(k,nk+1)p

wprowadź opis zdjęcia tutaj


Niech oznacza losową zmienną dwumianową z próbkami i prawdopodobieństwem powodzenia . Korzystając z podstawowej algebry mamyBin(n,p)np

ddpP[Bin(n,p)=i]=n(P[Bin(n1,p)=i1]P[Bin(n1,p)=i]).

Ma również niezły dowód kombinatoryczny, pomyśl o tym jak o ćwiczeniu!

Więc mamy:

ddpP[Bin(n,p)k]=ddpi=knP[Bin(n,p)=i]=n(i=knP[Bin(n1,p)=i1]P[Bin(n1,p)=i])
który jest serią teleskopową i można go uprościć jako

ddpP[Bin(n,p)k]=nP[Bin(n1,p)=k1]=n!(k1)!(nk)!pk1(1p)nk=β(k,nk+1).


Uwaga Aby zobaczyć interaktywną wersję fabuły, spójrz na to . Możesz pobrać notebooka lub po prostu użyć linku Binder.

MR_BD
źródło