Obliczanie wymaganej wielkości próby, dokładności oszacowania wariancji?

18

tło

Mam zmienną o nieznanym rozkładzie.

Mam 500 próbek, ale chciałbym zademonstrować dokładność, z jaką mogę obliczyć wariancję, np. Aby argumentować, że wielkość próbki 500 jest wystarczająca. Interesuje mnie również znajomość minimalnej wielkości próby, która byłaby wymagana do oszacowania wariancji z dokładnością .X%

pytania

Jak mogę obliczyć

  1. precyzja mojego oszacowania wariancji przy wielkości próby ? z ?n=500n=N
  2. Jak obliczyć minimalną liczbę próbek wymaganą do oszacowania wariancji z dokładnością ?X

Przykład

Figura 1 oszacowanie gęstości parametru na podstawie 500 próbek.

wprowadź opis zdjęcia tutaj

Figura 2 Tutaj jest wykresem wielkość próbki o szacunki wokół osi x w porównaniu z odchylenia na osi y, że zostały obliczone za pomocą podpróbki z próbki 500. Chodzi o to, że oszacowania będą zbieżne do prawdziwego wariancji jak n wzrasta .

Jednakże oszacowania nie obowiązują niezależnie od próbki wykorzystano do oszacowania wariancji dla nie są niezależne od siebie i od użytych próbek wariancji ustalenia wn[10,125,250,500]n[20,40,80]

wprowadź opis zdjęcia tutaj

Abe
źródło
Pamiętaj tylko, że jeśli składnikiem twojej nieznanej dystrybucji jest dystrybucja Cauchy'ego, wariancja jest niezdefiniowana.
Mike Anderson,
@Mike lub wręcz nieskończoną liczbę innych dystrybucjach.
Glen_b

Odpowiedzi:

11

Dla IID zmiennych losowych , Niezależność estymator różniącym (w jednej z mianownika ) ma wariancję:X1,,Xns2n1

Var(s2)=σ4(2n1+κn)

gdzie jest nadmiar kurtoza rozkładu (odnośnik: Wikipedia ). Więc teraz musisz również oszacować kurtozę swojej dystrybucji. Można użyć ilość czasem określana jako y 2 (również z Wikipedii ):κγ2

γ2=μ4σ43

Zakładam, że jeśli użyjesz jako oszacowania dla σ i jako oszacowania dla , to otrzymasz rozsądny szacunek dla , chociaż nie widzę gwarancji, że jest bezstronny. Zobacz, czy jest on zgodny z wariancji wśród podzbiorów swoimi 500 punktami danych racjonalnie, a jeśli to nie nie martw się już o tym :)sσ κ V R ( y 2 )γ2κVar(s2)

Erik P.
źródło
masz odniesienie podręcznik dla nieobciążonego estymatora wariancji? Nie wiem, dokąd pójść z Wikipedii, żeby uzyskać więcej informacji.
Abe
Ja nie mam standardowy tekst Rice ze mną tu, więc nie mogę sprawdzić numer strony dla ciebie, ale jestem pewien, że tam jest. Wikipedia sugeruje, że należy również wymienić w: Montgomery, DC i Runger, GC: Statystyki Stosowanej i prawdopodobieństwa dla inżynierów , strona 201. John Wiley & Sons New York, 1994.
Erik P.
dzięki za pomoc z tym. Ta odpowiedź była bardzo przydatna i to było pouczające do oszacowania niepewności wariancji - Mam stosowane równanie około 10 razy w ciągu ostatniego dnia. obliczania jest łatwe z biblioteki: kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Abe
masz szansę znaleźć numer strony z tekstu Rice? Nie mogę tego znaleźć w Caselli i Berger. Podstawowym odniesienia byłoby nawet lepiej, jeśli go znamy. Na stronie Wikipedii jest szczególnie un-odwoływać.
Abe
Hmmm ... wygląda na to, że Rice też nie ma wzoru. Uważam na to, ale w tym momencie nie mam w ogóle referencji.
Erik P.
16

Uczenie się wariancji jest trudne.

Potrzeba (być może zaskakująco dużej) próbki, aby dobrze oszacować wariancję w wielu przypadkach. Poniżej pokażę rozwój dla „kanonicznej” przypadku IID normalnej próbce.

Załóżmy, że , i = 1 , , n są niezależnymi zmiennymi losowymi N ( μ , σ 2 ) . Dążyć do 100 ( 1 - α ) % przedział ufności dla odchylenia, tak że szerokość przedziału jest ρ s 2 , czyli szerokość 100 ρ % estymaty punktowej. Na przykład, jeśli ρ = 1 / 2 , to szerokość CI wynosi połowę wartości oszacowania punktów, na przykład, jeśliYii=1,,nN(μ,σ2)100(1α)%ρs2100ρ%ρ=1/2 , wtedy CI byłoby czymś w rodzaju ( 8 ,s2=10 , o szerokości 5. zauważyć asymetrię wokół punktowej oceny, jak również. ( A 2 jest nieobciążony estymator dla wariancji).(8,13)s2

"The" (a "a") przedział ufności dla jest ( N - 1 ), s 2s2 Gdzie χ 2

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
jestβkwantylem rozkład chi-kwadrat zn-1stopni swobody. (Wynika to z faktu, że(n-1)Ś2/σ2, jest zasadniczym ilość w Gaussa ustawienia)χ(n1)2ββn1(n1)s2/σ2

Chcemy zminimalizować szerokość, aby Tak że pozostaje do rozwiązania przez N , tak że ( n - 1 ), ( 1

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
n
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

Dla przypadku 99% przedziału ufności, mamy dla ρ = 1 i n = 5.321 dla p = 0,1 . Ten ostatni przypadek daje przedział, który jest ( wciąż! ) 10% tak duży, jak punktowa ocena wariancji.n=65ρ=1n=5321ρ=0.1

Jeśli wybrany poziom ufności jest mniejsza niż 99%, a następnie tym samym przedziale szerokości będą uzyskane na dolnej wartości . Ale n może nadal być większe niż można by się domyślić.nn

Wykres zależności wielkość próbki porównaniu proporcjonalnego SZEROKOŚCI p coś wskazuje, że patrzy się asymptotycznie liniowa w skali log-log; Innymi słowy, na mocy orzecznictwa - jak związek. Możemy oszacować siłę tego związku mocy prawa (z grubsza) jakonρ

α^log0.1log1log5321log65=log10log5231650.525,

co jest, niestety, zdecydowanie spowolnić!


Jest to rodzaj „kanonicznego” przypadku, który pozwala poczuć, jak przejść do obliczeń. Na podstawie twoich wykresów twoje dane nie wyglądają szczególnie normalnie; w szczególności, nie jest to, co wydaje się być zauważalne asymetrii.

Ale powinno to daje wyobrażenie ballpark czego się spodziewać. Należy pamiętać, że aby odpowiedzieć na drugie pytanie powyżej, konieczne jest ustalenie pewnego poziomu ufności pierwszy, który mam ustawione na 99% w rozwoju wyżej w celach demonstracyjnych.

kardynał
źródło
n|ρrhon=65ρ<1ρ1×s2ρ1%s2
@Abe, aktualizowane i mam nadzieję wyjaśnić w tym procesie. Był jeden szczególnie złe literówka w poprzedniej wersji. Przepraszam za to.
kardynał
bardzo ładne odpowiedź, ale wybrałem jedną z @Erik ponieważ jest bardziej dotyczy mojego problemu (jak mój parametr nie jest normalnie rozprowadzane).
Abe
@Abe: Nie ma problemu. To, co jest dla zaznaczenia. Moja odpowiedź była (jest) przeznaczone do zilustrowania, bardziej niż cokolwiek innego. Z tego, co mogę powiedzieć, to jest nadal wydaje się być jedynym, który adresy zarówno na pytania i będzie (asymptotycznie) skorygować nawet w scenariuszu, że Erik konturów. (+1 do niego ponad rok temu.) :)
kardynał
Masz rację, a ja cieszę się, że mam teraz powrócił odpowiedź. Skończyło się na użyciu ogólnego obliczenia @Erik, ale teraz widzę wartość w ogólnym rozwiązaniu. Plus, prezentując CI zamiast SD rozwiąże problem z moja publiczność mylone widząc statystykę w postaci , nie rozumiejąc, co wariancja wariancji jest. Tak więc y [ l c L , U C L ] Należy to bardziej oczywiste, i zgodnie z innymi sprawozdań statystycznych. I to będzie pomocne, aby pokazać asymetrię. s(ss)s[lcl,ucl]
Abe
1

Skoncentrowałbym się raczej na SD niż na wariancji, ponieważ jest ona w skali, która jest łatwiejsza do interpretacji.

Ludzie czasami patrzą na przedziały ufności dla SD lub wariancji, ale ogólnie skupia się na środkach.

s2/σ2σ2σσ2

Karl
źródło
(Ta odpowiedź przyszła tutaj po duplikatu pytanie, sformułowane nieco inaczej, została połączona.)
whuber
1

Poniższy roztwór podaje Greenwood Sandomire w 1950 JASA papieru.

X1,,XnN(μ,σ2)σ

S=i=1n(XiX¯)2n1,
Sσ0<u<1
Pr{S<(1u)σ}=aandPr{S>(1+u)σ}=b,
γ=1ab

Pr{(n1)S2σ2<(n1)(1u)2}=a
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
(n1)S2/σ2χn12

γ=Fχ(n1)2((n1)(1+u)2)Fχ(n1)2((n1)(1u)2),

nγu

R kod.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

u=10%γ=95%

Sample size n = 193
Zen
źródło