Jaki rozkład ma odwrotny normalny CDF zmiennej losowej beta?

14

Załóżmy, że definiujesz:

XBeta(α,β)

YΦ1(X)

gdzie jest odwrotnością CDF standardowego rozkładu normalnego .Φ1

Moje pytanie brzmi: czy istnieje prosty rozkład, za którym podąża , czy może przybliżać ? YYPytam, ponieważ mam silne podejrzenie oparte na wynikach symulacji (pokazanych poniżej), że zbiega się do rozkładu normalnego, gdy i są wysokie, ale nie wiem, dlaczego miałoby to być matematyczne. (Oczywiście, gdy , byłby jednolity, a byłby standardową normą, ale dlaczego miałoby to być prawdą dla wyższych wartości?).Yαβα=1;β=1XY

Jeśli to zbiegnie się do normalnej, jakie byłyby parametry tej normalnej pod względem i ? (Spodziewam się, że średnia to \ Phi ^ {- 1} (\ frac {\ alpha} {\ alpha + \ beta}), ponieważ taka jest transformacja trybu, ale nie znam odchylenia standardowego).αβΦ1(αα+β)

(Innymi słowy, może to być pytanie „czy Φ(Norm(μ,σ)) zbiega się w rozkładzie beta, dla pewnego kierunku μ i σ ”? Nie jestem pewien, czy łatwiej odpowiedzieć).

Wyniki symulacji

Tutaj pokazuję, dlaczego podejrzewam, że wynik jest normalny (ponieważ nie mogę poprzeć go matematyką). Symulację można wykonać w R za pomocą i . Na przykład wybierając wysokie parametry i :α = 3000 β = 7000Yqnormrnormα=3000β=7000

hist(qnorm(rbeta(5000, 3000, 7000)))

To nie wygląda normalnie, qqnorma testu Shapiro-Wilka (w których normalność jest hipoteza zerowa) sugerują, tak dobrze:

qqnorm(qnorm(rbeta(5000, 3000, 7000)))

shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#> 
#>  Shapiro-Wilk normality test
#> 
#> data:  qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838

Aby zbadać normalność nieco głębiej, wykonuję 2000 symulacji, za każdym razem symulując 5000 wartości z , a następnie wykonuję test, aby porównać go z normalnym. (Wybrałem wartości 5K, ponieważ to maksimum może obsłużyć i maksymalizuje moc do wykrywania odchyleń od normy).Yshapiro.test

Gdyby rozkład był naprawdę normalny, spodziewalibyśmy się, że wartości p byłyby jednorodne (ponieważ prawda jest zerowa). Są rzeczywiście zbliżone do munduru, co sugeruje, że rozkład jest bardzo zbliżony do normalnego:

hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))

Niektóre eksperymenty pokazują, że im wyższe i , tym bliski jest rozkład normalny (np. Jest dość daleki od normalnego, ale spróbuj i wydaje się, że jest gdzieś pośrodku).βαβrbeta(5000, 3, 7)hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))

David Robinson
źródło
2
Nic ciekawego się tu nie dzieje. Ponieważ i stają się duże, załóżmy, że pozostają w tej samej proporcji, a przynajmniej że pozostaje z dala od i . Następnie rozkład Beta staje się Normalny i koncentruje się w dowolnie wąskim zakresie. , będąc różniczkowalnym, staje się zasadniczo liniowy, skąd patrzysz tylko na liniową transformację zmiennej prawie normalnej. Ten wynik nie ma nic więcej niż sam i nie dodaje żadnych informacji o dystrybucjach Beta. β α / ( α + β ) 0 1 ( α , β ) Φ - 1 Φ - 1αβα/(α+β)01(α,β)Φ1Φ1
Whuber
1
@ whuber To ma sens dla dużych i (miałem kilka symulacji, które sprawiły, że pomyślałem, że było to bliższe normalnej niż odpowiednik normalnej wartości przybliżonej beta, ale po ponownym uruchomieniu myślę, że wtedy miałem błąd). Wszelkie przemyślenia na temat ; ? Dist jest bardzo daleki od normalnego, ale jego qnorm jest dość bliski. β α = 2 β = 2αβα=2β=2
David Robinson
1
@whuber Np spróbować hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value)), a potem hist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value)). Innymi słowy, gdy jest normalne, ponieważ beta jest jednolita, gdy i są wysokie, to dlatego, że beta jest w przybliżeniu normalna - ale dlaczego działa, gdy są równe i pośrednie , gdzie to nie jest ani normalne, ani jednolite? α βα=β=1αβ
David Robinson
5
To zdecydowanie bardziej interesujące! Masz rację, że Beta nie jest bardzo zbliżona do Normalnej, ale transformacja jest w przybliżeniu Normalna, nawet w przypadku niewielkich parametrów Beta. Odchylenia od Normalności stają się widoczne w ogonach, około lub więcej, ale są niezwykle małe w całym rozkładzie. Ostatecznie jest to związane z zachowaniem się prawa władzy ogonów Beta. Z=±3
whuber

Odpowiedzi:

7

Streszczenie

Odkryłeś na nowo część konstrukcji opisanej w Central Limit Theorem for Sample Medians , która ilustruje analizę mediany próbki. (Analiza oczywiście dotyczy, mutatis mutandis , każdego kwantyla, nie tylko mediany). Dlatego nie jest zaskoczeniem, że dla dużych parametrów Beta (odpowiadających dużym próbkom) rozkład normalny powstaje w wyniku transformacji opisanej w pytaniu. Interesujące jest to, jak bliski jest rozkład normalny nawet dla małych parametrów Beta. To zasługuje na wyjaśnienie.

Naszkicuję analizę poniżej. Aby utrzymać ten post na rozsądnej długości, wymaga wiele sugestywnych machań ręką: staram się tylko wskazać kluczowe pomysły. Pozwolę sobie zatem streścić tutaj wyniki:

  1. Kiedy jest bliskie β , wszystko jest symetryczne. Powoduje to, że przekształcony rozkład już wygląda normalnie.αβ

  2. Funkcje postaci wyglądają dość normalnie, nawet dla małych wartości α i β (pod warunkiem, że oba przekraczają 1, a ich stosunek nie jest zbyt duży blisko 0 lub 1 ).Φα1(x)(1Φ(x))β1αβ101

  3. Pozorna normalność rozkładu transformowanego wynika z faktu, że jego gęstość składa się z gęstości normalnej pomnożonej przez funkcję w (2).

  4. Gdy i β wzrosną, odstępstwo od normalności można zmierzyć w pozostałych kategoriach w szeregu Taylora dla gęstości logarytmicznej. Pojęcie rzędu n maleje proporcjonalnie do ( n - 2 ) / 2 mocy α i β . To implikuje, że ostatecznie, dla wystarczająco dużych α i β , wszystkie warunki mocy n = 3 lub większe stały się stosunkowo małe, pozostawiając jedynie kwadrat: to właśnie gęstość logarytmiczna rozkładu normalnego.αβn(n2)/2αβαβn=3

Podsumowując, te zachowania ładnie wyjaśniają, dlaczego nawet dla małych i β nietradycyjne kwantyle z tej samej próbki Normalnej wyglądają w przybliżeniu Normalnie.αβ


Analiza

Ponieważ uogólnienie może być przydatne, niech będzie dowolną funkcją rozkładu, chociaż mamy na myśli F = Φ .FF=Φ

Funkcja gęstości z beta ( α , β ) zmienna z definicji jest proporcjonalna dog(y)(α,β)

yα1(1y)β1dy.

Jeśli pozwolimy być całką prawdopodobieństwa przekształcenia x i zapisujemy f dla pochodnej F , to natychmiast, że x ma gęstość proporcjonalną doy=F(x)xfFx

G(x;α,β)=F(x)α1(1F(x))β1f(x)dx.

Ponieważ jest to monotoniczna transformacja silnie nieimodalnego rozkładu (Beta), chyba że jest dość dziwny, transformowany rozkład również będzie unimodalny. Aby zbadać, jak blisko może być Normalny, przyjrzyjmy się logarytmowi jego gęstości,F

(1)logG(x;α,β)=(α1)logF(x)+(β1)log(1F(x))+logf(x)+C

gdzie jest nieistotną stałą normalizacji.C

Rozwiń składowe w szeregu Taylora, aby uporządkować trzy wokół wartości x 0 (która będzie zbliżona do trybu). Na przykład możemy zapisać rozszerzenie dziennika F jakologG(x;α,β)x0logF

logF(x)=c0F+c1F(xx0)+c2F(xx0)2+c3Fh3

jakiegoś z | h | | x - x 0 | . Użyj podobnej notacji dla log ( 1 - F ) i log f . h|h||xx0|log(1F)logf

Warunki liniowe

W ten sposób staje się pojęcie liniowe w (1)

g1(α,β)=(α1)c1F+(β1)c11F+c1f.

Gdy jest trybem G (x0 , to wyrażenie wynosi zero. Zauważ, że ponieważ współczynniki są ciągłymi funkcjami x 0 , ponieważ α i β są zmienne, tryb x 0 będzie się również zmieniał w sposób ciągły. Ponadto, gdy α i β są wystarczająco duże, człon c f 1 staje się stosunkowo nieistotny. Jeśli chcemy zbadać granicę jako α i β ∞, dla których α : β pozostaje w stałym stosunku γG(;α,β)x0αβx0αβc1fαβ α:βγ, możemy zatem raz na zawsze wybrać punkt bazowy dla któregox0

γc1F+c11F=0.

Dobrym przykładem jest przypadek, w którym , gdzie α = β , a F jest symetryczny około 0 . W tym przypadku jest oczywiste, x 0 = C ( 0 ) = 1 / 2 .γ=1α=βF0x0=F(0)=1/2

Osiągnęliśmy metodę, w której (a) w limicie zanika termin pierwszego rzędu w serii Taylora i (b) w opisanym szczególnym przypadku, termin pierwszego rzędu jest zawsze równy zero.

Warunki kwadratowe

To jest suma

g2(α,β)=(α1)c2F+(β1)c21F+c2f.

Porównując z normalnym rozkładzie, który kwadratowej jest , można oszacować, że - 1 / ( 2 g 2 ( α , β ) ) wynosi około wariancja G . Standaryzujmy G poprzez przeskalowanie x o pierwiastek kwadratowy. tak naprawdę nie potrzebujemy szczegółów; wystarczy zrozumieć, że to przeskalowanie pomnoży współczynnik ( x(1/2)(xx0)2/σ21/(2g2(α,β))GGx we rozszerzeniu Taylora o ( - 1 / ( 2 g 2 ( α , β ) ) ) n / 2 .(xx0)n(1/(2g2(α,β)))n/2.

Termin pozostały

Oto punkt zwrotny: zgodnie z naszym zapisem termin porządkowy w rozwinięciu Taylora jest następujący:n

gn(α,β)=(α1)cnF+(β1)cn1F+cnf.

Po standaryzacji staje się

gn(α,β)=gn(α,β)(2g2(α,β))n/2).

Obu są afiniczne połączeniem alfa i beta . Podnosząc mianownik do potęgi n / 2 , zachowanie netto jest rzędu - ( n - 2 ) / 2 w każdym z α i β . Ponieważ parametry te rosną, każdy składnik w ekspansji Taylora po drugim spada asymptotycznie do zera. W szczególności pozostały termin trzeciego rzędu staje się arbitralnie mały.giαβn/2(n2)/2αβ

Przypadek, gdy jest normalnyF

Zniknięcie pozostałej części jest szczególnie szybkie, gdy jest standardową Normalną, ponieważ w tym przypadku f ( x ) jest czysto kwadratowe: nie przyczynia się do pozostałych reszt. W związku z tym odchylenie G od normalności zależy wyłącznie od odchylenia między F α - 1 ( 1 - F ) β - 1 a normalnością.Ff(x)GFα1(1F)β1

This deviation is fairly small even for small α and β. To illustrate, consider the case α=β. G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in xx0=x.

Here is a plot showing how the standardized fourth order term changes with small values of α>1:

Figure

Wartość zaczyna się od dla α = β = 1 , ponieważ wówczas rozkład jest oczywiście Normalny ( Φ - 1 zastosowany do rozkładu równomiernego, którym jest Beta ( 1 , 1 ) , daje standardowy rozkład Normalny). Chociaż szybko rośnie, osiąga wartość poniżej 0,008 - co praktycznie jest nie do odróżnienia od zera. Następnie rozpoczyna się asymptotyczny rozpad wzajemny, dzięki czemu rozkład jest coraz bliższy wartości normalnej, gdy α wzrasta powyżej 2 .0α=β=1Φ1(1,1)0.008α2

whuber
źródło
2

Convergence

Suppose that α=β and let α and take any small ε>0. Then var(X)0. By Chebyshev's inequality we have P[|X0.5|>ε]0 and P[|Y|>ε]0. This means that Y converges in probability (not in distribution actually it converges in distribution - to singleton).

Exact distribution

Denote by fX the density of beta distribution. Then your variable Y has density

fY(y)=fX(Φ(y))ϕ(y).
Since Φ does not have a closed form I believe that this is the furthest you can get (analytically). You can try to put it into FullSimplify function in Wolfram Mathematica to see if it finds some better form.

Here is the density in R so you can plot it instead of histogram.

f_y <- function(x, alpha, beta) {
  dbeta(pnorm(x), alpha, beta) * dnorm(x)
}

Modification

However, you are maybe interested in distribution of

Z=Φ1(αX)
. (still assuming α=β) This may be useful because var(αX)1/8 (useful because it is not zero).
Jan Kislinger
źródło
1

Here I present a heuristic explanation (which can be made rigorous at least asymptotically). For simplicity, take kN, k2. Let XBeta(k,k). I want to argue that Y=Φ1(X) is approximately normal.

Now let n=2k1. We start by drawing n i.i.d. uniformly distributed random variables U1,,Un. Next, form the order statistics U(1)U(n).

It is well known that U(k)Beta(k,n+1k), thus:

U(k)Beta(k,k)

In other words: The sample median of n i.i.d. uniformly distributed random variables is Beta(k,k) distributed.

Now let's transform by Zi=Φ1(Ui). Then by the probability integral transform, the Zi are i.i.d. normally distributed. Also form the order statistics of the Zi (Z(1)Z(n)). Since Φ1 is strictly increasing, it follows that:

Φ1(U(k))=Z(k)

Therefore, to show that Y is approximately normal, we just have to argue that the sample median of n i.i.d. normal random variables is approximately normal.

For k large, this can be made precise by a central limit theorem for sample medians. For k small, say k=2, I will let everyone's gut feeling do the speaking.

For ab (but not too different) one can argue similarly by using corresponding quantiles.

air
źródło