Co oznacza standardowy błąd oszacowania maksymalnego prawdopodobieństwa?

21

Jestem matematykiem, samokształcącym się statystyką i walczącym szczególnie z językiem.

W książce, której używam, występuje następujący problem:

Losowa zmienna jest podana jako -dystrybucja z . (Oczywiście ze względu na to pytanie można wziąć dowolny rozkład w zależności od jednego parametru). Następnie podaje się próbkę pięciu wartości , , , , .XPareto(α,60)α>014216322

Pierwsza część: „Korzystając z metody największego prawdopodobieństwa, znajdź oszacowanie z na podstawie [próbki].” To nie był problem. Odpowiedź brzmi .α^αα^4.6931

Ale potem: „Podaj przybliżony błąd standardowy .”α^

Co to znaczy? Ponieważ jest tylko stałą liczbą rzeczywistą, nie widzę, w jaki sposób mógłby mieć standardowy błąd. Czy mam określić odchylenie standardowe ?α^Pareto(α^,60)

Jeśli uważasz, że pytanie nie jest jasne, te informacje również by mi pomogły.

Stefan
źródło
Co oznacza ? 60
Alecos Papadopoulos
Czy masz formułę alfa ? Pomoże to oszacować standardowy błąd. α^
soakley
1
@Glen_b Ale jeśli byłaby to dolna granica, jak to możliwe, że wszystkie wartości zrealizowanej próbki są mniejsze?
Alecos Papadopoulos
1
@Alecos To doskonały punkt. Mój komentarz nie ma sensu; Usunąłem to.
Glen_b
1
@Alecos: Pareto(α,λ) jest rozkładem o gęstości . f(x)=αλα(λ+x)α+1
Stefan

Odpowiedzi:

17

Inna odpowiedź obejmowała wyprowadzenie błędu standardowego, chcę tylko pomóc w notacji:

Twoje zamieszanie wynika z faktu, że w statystykach używamy dokładnie tego samego symbolu do oznaczenia estymatora (który jest funkcją) oraz konkretnego oszacowania (czyli wartości, którą estymator przyjmuje, gdy otrzymuje jako dane wejściowe konkretną zrealizowaną próbkę).

Tak α = h ( X ) i α ( X = x ) = 4,6931 dla x = { 14 ,α^=h(X)α^(X=x)=4.6931 . Więc α ( X ) jest funkcją zmiennych losowych i tak w samej zmiennej losowej, że na pewno ma wariancji. x={14,21,6,32,2}α^(X)

W estymacji ML w wielu przypadkach możemy obliczyć standardowy błąd asymptotyczny , ponieważ rozkład skończonej próby estymatora nie jest znany (nie można go wyprowadzić).

Ściśle nie ma rozkład asymptotycznej, ponieważ jest zbieżny do liczby rzeczywistej (prawdziwy numer w prawie wszystkich przypadkach oszacowania ml). Ale ilość α^zbieżny do normalnej zmiennej losowej (przy zastosowaniu twierdzenia Limit centralny).n(α^α)

Drugi punkt notacji zamieszania : większość, jeśli nie wszystkie teksty, napisze ( „Avar” = wariancji asymptotycznej "), podczas gdy to, co znaczy to Awarów ( Avar(α^), to znaczy, że znajdują się w asymptotycznej wariancji ilościAvar(n(α^α)), nie stanowi alfa ... W przypadku podstawowego rozkładu Pareto mamyn(α^α)α^

Avar[n(α^α)]=α2

i tak

Avar(α^)=α2/n

(ale co znajdziesz napisany jest ) Avar(α^)=α2

Teraz, w jakim sensie prognozy α ma „asymptotyczne odchylenie”, ponieważ, jak powiedział, że zbiega asymptotycznie do stałej? Cóż, w przybliżeniu i dla dużych, ale skończonych próbek. Czyli gdzieś pomiędzy „małą” próbką, w której estymator jest zmienną losową o (zwykle) nieznanym rozkładem, a „nieskończoną” próbką, w której estymator jest stały, istnieje „duże, ale skończone terytorium próbki”, w którym estymator nie stał się jeszcze stały, a jego rozkład i wariancja wyprowadza się w sposób okrężny, najpierw stosując Centralne Twierdzenie Graniczne, aby uzyskać odpowiednio asymptotyczny rozkład wielkości Z = α^(co jest normalne w wyniku CLT), a następnie odwracać się i zapisu α = 1Z=n(α^α)(a jednocześnie o jeden krok i leczenianW skończonych), która pokazuje,ajako funkcji afinicznej normalnej zmiennej losowejZi zwykle tak rozmieszczone się (zawsze w przybliżeniu).α^=1nZ+αnα^Z

Alecos Papadopoulos
źródło
+1 do rozróżniania alfa i α^- oczywiście oznaczenie może być spójne. n(α^α)
Nate Papież
21

- maksymalny estymator prawdopodobieństwa - zależy od wybranych losowo, a więc jest również przypadkowy (nie jest stała). Oszacowanie błędu standardowego alfa można uzyskać z informacji Fishera,α^α^

I(θ)=E[2L(θ|Y=y)θ2|θ]

Gdzie jest parametrem, a L ( θ | Y = y ) jest funkcją logarytmu wiarygodności θ zależną od losowej próbki y . Intuicyjnie informacja Fishera wskazuje na nachylenie krzywizny powierzchni prawdopodobieństwa kłody wokół MLE, a więc ilość „informacji”, które y dostarcza około θ .θL(θ|Y=y)θyyθ

Dla rozkładu z pojedynczą realizacją Y = y , prawdopodobieństwo logarytmiczne, w którym y 0 jest znane:Pareto(α,y0)Y=yy0

Podłączenie do definicji informacji Fishera, I(α)=1

L(α|y,y0)=logα+αlogy0(α+1)logyL(α|y,y0)=1α+logy0logyL(α|y,y0)=1α2
Przykładowy{Y1,Y2,. . . ,Yn}największe prawdopodobieństwo estymator α się asymptotycznie rozmieszczone jako: alfa n ~ N (α, 1
I(α)=1α2
{y1,y2,...,yn}α^ gdzienjest rozmiarem próbki. Ponieważαnie jest znana, można podłączyćalfauzyskać szacunkową błąd standardowy: SE(a)
α^nN(α,1nI(α))=N(α,α2n), 
nαα^
SE(α^)α^2/n4.69312/52.1
Nate Pope
źródło
1
α^nN(α,1nI(α))nnα^˙N(α,1nI(α))