Niech będzie sekwencją losowych zmiennych losowych próbkowanych ze stabilnego rozkładu alfa , o parametrach .
Rozważmy teraz sekwencję , gdzie , dla .
Chcę oszacować percentyl.
Moim pomysłem jest wykonanie czegoś w rodzaju symulacji Monte-Carlo:
l = 1;
while(l < max_iterations)
{
Generate $X_1, X_2, \ldots, X_{3n}$ and compute $Y_1, Y_2, \ldots, Y_{n}$;
Compute $0.01-$percentile of current repetition;
Compute mean $0.01-$percentile of all the iterations performed;
Compute variance of $0.01-$percentile of all the iterations performed;
Calculate confidence interval for the estimate of the $0.01-$percentile;
if(confidence interval is small enough)
break;
}
Wywołanie średni wszystkim próbki percentyla obliczonego jako μ n oraz ich wariancji σ 2 n , aby obliczyć odpowiedni przedział ufności dla ľ , I uciekać się do silnej postaci Centralnego twierdzenia granicznego :
Niech będą ciągiem iid zmiennych losowych o E [ X i ] = μ i 0 < V [ X i ] = σ 2 < ∞ . Określić jako średnią próbek ľ n = ( 1 / n ) Ď n i = 1 X I . Następnie ( μ n - μ ) / ma ograniczający standardowego rozkładu normalnego, czyli μ n -| j
i twierdzenie Slutksy'ego, aby dojść do wniosku, że
Wówczas a przedział ufności dla μ wynosi
gdziez1-α/2jestkwantylem(1-α/2)standardowego rozkładu normalnego.
Pytania:
1) Czy moje podejście jest prawidłowe? Jak mogę uzasadnić zastosowanie CLT? To znaczy, jak mogę pokazać, że wariancja jest skończona? (Czy muszę patrzeć wariancji ? Bo nie sądzę, że jest skończony ...)
2) Jak mogę wykazać, że średnia z wszystkich obliczonych próbek percentyli jest zbieżna z prawdziwą wartością 0,01 - percentyla? (Powinienem użyć statystyk zamówień, ale nie jestem pewien, jak postępować; doceniamy referencje).
Odpowiedzi:
Wariancja nie jest skończona.Y Jest tak, ponieważ alfa-stabilne zmienna z alfa = 3 / 2 (o rozkładzie Holtzmark ) ma skończoną oczekiwanie jj, ale jego wariancja jest nieskończony. Gdyby Y miał skończoną wariancję σ 2 , to wykorzystując niezależność Xi i definicję wariancji, moglibyśmy obliczyćX α=3/2 μ Y σ2 Xi
This cubic equation inVar(X) has at least one real solution (and up to three solutions, but no more), implying Var(X) would be finite--but it's not. This contradiction proves the claim.
Let's turn to the second question.
Any sample quantile converges to the true quantile as the sample grows large. The next few paragraphs prove this general point.
and that asϵ→0 , the limit of the interval [q−,q+] is {q} .
Consider any iid sample of sizen . The number of elements of this sample that are less than Zq− has a Binomial(q−,n) distribution, because each element independently has a chance q− of being less than Zq− . The Central Limit Theorem (the usual one!) implies that for sufficiently large n , the number of elements less than Zq− is given by a Normal distribution with mean nq− and variance nq−(1−q−) (to an arbitrarily good approximation). Let the CDF of the standard Normal distribution be Φ . The chance that this quantity exceeds nq therefore is arbitrarily close to
Because the argument onΦ on the right hand side is a fixed multiple of n−−√ , it grows arbitrarily large as n grows. Since Φ is a CDF, its value approaches arbitrarily close to 1 , showing the limiting value of this probability is zero.
In words: in the limit, it is almost surely the case thatnq of the sample elements are not less than Zq− . An analogous argument proves it is almost surely the case that nq of the sample elements are not greater than Zq+ . Together, these imply the q quantile of a sufficiently large sample is extremely likely to lie between Zq−ϵ and Zq+ϵ .
That's all we need in order to know that simulation will work. You may choose any desired degree of accuracyϵ and confidence level 1−α and know that for a sufficiently large sample size n , the order statistic closest to nq in that sample will have a chance at least 1−α of being within ϵ of the true quantile Zq .
Having established that a simulation will work, the rest is easy. Confidence limits can be obtained from limits for the Binomial distribution and then back-transformed. Further explanation (for theq=0.50 quantile, but generalizing to all quantiles) can be found in the answers at Central limit theorem for sample medians.
Theq=0.01 quantile of Y is negative. Its sampling distribution is highly skewed. To reduce the skew, this figure shows a histogram of the logarithms of the negatives of 1,000 simulated samples of n=300 values of Y .
źródło