tło
Mam zmienną o nieznanym rozkładzie.
Mam 500 próbek, ale chciałbym zademonstrować dokładność, z jaką mogę obliczyć wariancję, np. Aby argumentować, że wielkość próbki 500 jest wystarczająca. Interesuje mnie również znajomość minimalnej wielkości próby, która byłaby wymagana do oszacowania wariancji z dokładnością .
pytania
Jak mogę obliczyć
- precyzja mojego oszacowania wariancji przy wielkości próby ? z ?
- Jak obliczyć minimalną liczbę próbek wymaganą do oszacowania wariancji z dokładnością ?
Przykład
Figura 1 oszacowanie gęstości parametru na podstawie 500 próbek.
Figura 2 Tutaj jest wykresem wielkość próbki o szacunki wokół osi x w porównaniu z odchylenia na osi y, że zostały obliczone za pomocą podpróbki z próbki 500. Chodzi o to, że oszacowania będą zbieżne do prawdziwego wariancji jak n wzrasta .
Jednakże oszacowania nie obowiązują niezależnie od próbki wykorzystano do oszacowania wariancji dla nie są niezależne od siebie i od użytych próbek wariancji ustalenia w
Odpowiedzi:
Dla IID zmiennych losowych , Niezależność estymator różniącym (w jednej z mianownika ) ma wariancję:X1,…,Xn s2 n−1
gdzie jest nadmiar kurtoza rozkładu (odnośnik: Wikipedia ). Więc teraz musisz również oszacować kurtozę swojej dystrybucji. Można użyć ilość czasem określana jako y 2 (również z Wikipedii ):κ γ2
Zakładam, że jeśli użyjesz jako oszacowania dla σ i jako oszacowania dla , to otrzymasz rozsądny szacunek dla , chociaż nie widzę gwarancji, że jest bezstronny. Zobacz, czy jest on zgodny z wariancji wśród podzbiorów swoimi 500 punktami danych racjonalnie, a jeśli to nie nie martw się już o tym :)s σ κ V R ( y 2 )γ2 κ Var(s2)
źródło
moments
library(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Uczenie się wariancji jest trudne.
Potrzeba (być może zaskakująco dużej) próbki, aby dobrze oszacować wariancję w wielu przypadkach. Poniżej pokażę rozwój dla „kanonicznej” przypadku IID normalnej próbce.
Załóżmy, że , i = 1 , … , n są niezależnymi zmiennymi losowymi N ( μ , σ 2 ) . Dążyć do 100 ( 1 - α ) % przedział ufności dla odchylenia, tak że szerokość przedziału jest ρ s 2 , czyli szerokość 100 ρ % estymaty punktowej. Na przykład, jeśli ρ = 1 / 2 , to szerokość CI wynosi połowę wartości oszacowania punktów, na przykład, jeśliYi i=1,…,n N(μ,σ2) 100(1−α)% ρs2 100ρ% ρ=1/2 , wtedy CI byłoby czymś w rodzaju ( 8 ,s2=10 , o szerokości 5. zauważyć asymetrię wokół punktowej oceny, jak również. ( A 2 jest nieobciążony estymator dla wariancji).(8,13) s2
"The" (a "a") przedział ufności dla jest ( N - 1 ), s 2s2
Gdzie χ 2
Chcemy zminimalizować szerokość, aby Tak że pozostaje do rozwiązania przez N , tak że ( n - 1 ), ( 1
Dla przypadku 99% przedziału ufności, mamy dla ρ = 1 i n = 5.321 dla p = 0,1 . Ten ostatni przypadek daje przedział, który jest ( wciąż! ) 10% tak duży, jak punktowa ocena wariancji.n=65 ρ=1 n=5321 ρ=0.1
Jeśli wybrany poziom ufności jest mniejsza niż 99%, a następnie tym samym przedziale szerokości będą uzyskane na dolnej wartości . Ale n może nadal być większe niż można by się domyślić.n n
Wykres zależności wielkość próbki porównaniu proporcjonalnego SZEROKOŚCI p coś wskazuje, że patrzy się asymptotycznie liniowa w skali log-log; Innymi słowy, na mocy orzecznictwa - jak związek. Możemy oszacować siłę tego związku mocy prawa (z grubsza) jakon ρ
co jest, niestety, zdecydowanie spowolnić!
Jest to rodzaj „kanonicznego” przypadku, który pozwala poczuć, jak przejść do obliczeń. Na podstawie twoich wykresów twoje dane nie wyglądają szczególnie normalnie; w szczególności, nie jest to, co wydaje się być zauważalne asymetrii.
Ale powinno to daje wyobrażenie ballpark czego się spodziewać. Należy pamiętać, że aby odpowiedzieć na drugie pytanie powyżej, konieczne jest ustalenie pewnego poziomu ufności pierwszy, który mam ustawione na 99% w rozwoju wyżej w celach demonstracyjnych.
źródło
Skoncentrowałbym się raczej na SD niż na wariancji, ponieważ jest ona w skali, która jest łatwiejsza do interpretacji.
Ludzie czasami patrzą na przedziały ufności dla SD lub wariancji, ale ogólnie skupia się na środkach.
źródło
Poniższy roztwór podaje Greenwood Sandomire w 1950 JASA papieru.
R
kod.źródło