Mylić co do przedziału ufności

10

Jestem zdezorientowany pojęciem przedziału ufności. Przyjmijmy, że istnieje zmienna Gaussa o znana, a interesuje mnie dolna granica średniej z poziomem ufności .XN(μ,σ)μ L 95 %σμL95%

Zrobię eksperyment razy i obserwuję , , , , .X 1 X 2 X 35X1X2X3X 5X4X5

Opcja 1: Traktuję każdą próbkę osobno i mogę obliczyć dla każdego . A potem myślę, że jest jakiś sposób (nie wiem jak) obliczyć faktyczną dolną granicę z tych 5 .X i μ LμL=XiσzXiμL

Opcja 2: Z drugiej strony, jeśli wezmę , mogę obliczyć . (zakładając, że jest normalne, możemy również użyć t-stat.)μL L = T - σ / T=(X1+X2+X3+X4+X5)/5T.μL=Tσ/5zT

Czy jest jakaś metoda inna niż opcja 2, aby obliczyć dolną granicę na podstawie próbek? A czy dla opcji 1 istnieje sposób obliczenia dolnej granicy na podstawie 5 obliczonych dolnych granic?5

calbear
źródło

Odpowiedzi:

12

To świetne pytanie, ponieważ bada możliwość alternatywnych procedur i prosi nas o przemyślenie, dlaczego i jak jedna procedura może być lepsza od drugiej.

Krótka odpowiedź jest taka, że ​​istnieje nieskończenie wiele sposobów na opracowanie procedury uzyskania niższego limitu ufności dla średniej, ale niektóre z nich są lepsze, a niektóre gorsze (w sensie sensownym i dobrze zdefiniowanym). Opcja 2 jest doskonałą procedurą, ponieważ osoba korzystająca z niej musiałaby zebrać mniej niż połowę danych niż osoba korzystająca z opcji 1, aby uzyskać wyniki o porównywalnej jakości. Połowa ilości danych zwykle oznacza połowę budżetu i połowę czasu, więc mówimy o istotnej i ważnej ekonomicznie różnicy. Dostarcza to konkretnej demonstracji wartości teorii statystycznej.


Zamiast powtórzyć teorię, z której istnieje wiele doskonałych kont podręczników, przyjrzyjmy się szybko trzem procedurom dolnego limitu ufności (LCL) dla niezależnych normalnych wariantów znanego odchylenia standardowego. Wybrałem trzy naturalne i obiecujące sugerowane przez to pytanie. Każdy z nich jest określony przez pożądany poziom ufności :1 - αn1α

  • Opcja 1a, procedura „min” . Dolny limit ufności jest ustawiony na . Wartość liczby jest określana tak, że szansa, że przekroczy rzeczywistą średnią jest po prostu ; to znaczy, .tmin=min(X1,X2,,Xn)kα,n,σminσkα,n,σmintminμαPr(tmin>μ)=α

  • Opcja 1b, procedura „max” . Dolny limit ufności jest ustawiony na . Wartość liczby jest określana tak, że szansa, że przekroczy rzeczywistą średnią jest po prostu ; to znaczy, .tmax=max(X1,X2,,Xn)kα,n,σmaxσkα,n,σmaxtmaxμαPr(tmax>μ)=α

  • Opcja 2, procedura „średnia” . Dolny limit ufności jest równy . Wartość liczby jest określana tak, że szansa, że przekroczy prawdziwą średnią jest po prostu ; to znaczy, .tmean=mean(X1,X2,,Xn)kα,n,σmeanσkα,n,σmeantmeanμαPr(tmean>μ)=α

Jak dobrze wiadomo, gdzie ; to skumulowana funkcja prawdopodobieństwa standardowego rozkładu normalnego. Jest to wzór cytowany w pytaniu. Stenogram matematyczny tokα,n,σmean=zα/nΦ(zα)=1αΦ

  • kα,n,σmean=Φ1(1α)/n.

Wzory dla procedur minimalnej i maksymalnej są mniej znane, ale łatwe do ustalenia:

  • kα,n,σmin=Φ1(1α1/n) .

  • kα,n,σmax=Φ1((1α)1/n) .

Za pomocą symulacji możemy zobaczyć, że wszystkie trzy formuły działają. Poniższy Rkod prowadzi eksperyment n.trialsoddzielnie i zgłasza wszystkie trzy LCL dla każdej próby:

simulate <- function(n.trials=100, alpha=.05, n=5) {
  z.min <- qnorm(1-alpha^(1/n))
  z.mean <- qnorm(1-alpha) / sqrt(n)
  z.max <- qnorm((1-alpha)^(1/n))
  f <- function() {
    x <- rnorm(n); 
    c(max=max(x) - z.max, min=min(x) - z.min, mean=mean(x) - z.mean)
  }    
  replicate(n.trials, f())
}

(Kod nie zawraca sobie głowy pracą z ogólnymi rozkładami normalnymi: ponieważ możemy swobodnie wybierać jednostki miary i zero skali pomiaru, wystarczy przestudiować przypadek , To dlatego żadna z formuł dla różnych faktycznie nie zależy od .)μ=0σ=1kα,n,σσ

10 000 prób zapewni wystarczającą dokładność. Przeprowadźmy symulację i obliczmy częstotliwość, z jaką każda procedura nie wytwarza limitu ufności mniejszego niż prawdziwa średnia:

set.seed(17)
sim <- simulate(10000, alpha=.05, n=5)
apply(sim > 0, 1, mean)

Dane wyjściowe to

   max    min   mean 
0.0515 0.0527 0.0520

Częstotliwości te są wystarczająco bliskie ustalonej wartości że możemy być zadowoleni, że wszystkie trzy procedury działają zgodnie z reklamą: każda z nich wytwarza 95% niższy limit ufności dla średniej.α=.05

(Jeśli że częstotliwości te nieznacznie różnią się od , możesz uruchomić więcej prób. Przy milionie prób zbliżają się one jeszcze do : .).05.05(0.050547,0.049877,0.050274)

Jednak jedną rzeczą, jakiej chcielibyśmy w każdej procedurze LCL, jest to, że nie tylko powinna ona być poprawna w zamierzonej proporcji czasu, ale powinna być zbliżona do poprawnej. Wyobraźmy sobie na przykład (hipotetycznego) statystykę, który z uwagi na głęboką wrażliwość religijną może skonsultować się z wyrocznią delficzną (Apollina) zamiast gromadzić dane i wykonywać obliczenia LCL. Kiedy poprosi boga o 95% LCL, bóg po prostu odkryje prawdziwy środek i powie jej to - w końcu jest idealny. Ponieważ jednak bóg nie chce w pełni dzielić się swoimi umiejętnościami z ludzkością (która musi pozostać omylna), 5% czasu da LCL o wartościX1,X2,,Xn100σza wysoko. Ta procedura delficka jest również 95% LCL - ale byłaby przerażająca do zastosowania w praktyce ze względu na ryzyko wytworzenia naprawdę okropnej więzi.

Możemy ocenić, jak dokładne są nasze trzy procedury LCL. Dobrym sposobem jest przyjrzenie się ich rozkładom próbkowania: równoważne są również histogramy wielu symulowanych wartości. Tutaj są. Najpierw kod do ich wytworzenia:

dx <- -min(sim)/12
breaks <- seq(from=min(sim), to=max(sim)+dx, by=dx)
par(mfcol=c(1,3))
tmp <- sapply(c("min", "max", "mean"), function(s) {
  hist(sim[s,], breaks=breaks, col="#70C0E0", 
       main=paste("Histogram of", s, "procedure"), 
       yaxt="n", ylab="", xlab="LCL");
  hist(sim[s, sim[s,] > 0], breaks=breaks, col="Red", add=TRUE)
})

Histogramy

Są pokazane na identycznych osiach x (ale nieco innych osiach pionowych). Jesteśmy zainteresowani

  1. Czerwone części po prawej stronie których obszary reprezentują częstotliwość, z jaką procedury nie doceniają średniej - są w przybliżeniu równe pożądanej ilości, . (Potwierdziliśmy to już liczbowo).0α=.05

  2. Do smarowania z wynikami symulacji. Oczywiście, na prawo histogram jest węższa niż dwie pozostałe: opisuje procedurę, która w rzeczywistości nie docenia średnie (równą ) w pełni % czasu, a nawet, jeśli nie, to zaniżona jest prawie zawsze w z prawdziwy środek. Pozostałe dwa histogramy mają skłonność do lekceważenia prawdziwej średniej o około za nisko. Ponadto, kiedy przeceniają prawdziwy środek, mają tendencję do przeceniania go za pomocą procedury przekraczającej skrajną prawość. Te cechy sprawiają, że są gorsze od histogramu umieszczonego po prawej stronie.0952σ3σ

Najbardziej wysunięty na prawo histogram opisuje opcję 2, konwencjonalną procedurę LCL.

Jedną z miar tych spreadów jest odchylenie standardowe wyników symulacji:

> apply(sim, 1, sd)
     max      min     mean 
0.673834 0.677219 0.453829

Liczby te mówią nam, że maksymalne i minimalne procedury mają równe spready (około ), a zwykła średnia procedura ma tylko około dwie trzecie ich spread (około ). To potwierdza dowód naszych oczu.0.680.45

Kwadratami odchyleń standardowych są wariancje równe odpowiednio , i . Rozbieżności można powiązać z ilością danych : jeśli jeden analityk zaleca procedurę maks. (Lub min. ), To aby uzyskać wąski spread wykazywany przez zwykłą procedurę, jego klient musiałby uzyskać razy więcej danych - ponad dwa razy więcej. Innymi słowy, korzystając z Opcji 1, zapłaciłbyś za informacje ponad dwa razy więcej niż za Opcję 2.0.450.450.200.45/0.21

Whuber
źródło
2
Nigdy nie przestajesz mnie zadziwiać.
Momo
+1 @whuber To ładna ilustracja. Opisując przedziały ufności bootstrap, Efron mówi o dokładności i poprawności. Dokładność polega na tym, że prawdziwy poziom ufności przedziału jest zbliżony do wartości reklamowanej. Wszystkie 3 przykłady są dokładne. Prawidłowość odnosi się do najlepszych. Dla dwustronnego przedziału ufności oznaczałoby to dokładny z najmniejszą szerokością (przedział lub granica oparta na średniej w twoim przypadku). Twój przykład jest interesujący, ponieważ trzy metody są przynajmniej nieco konkurencyjne.
Michael R. Chernick,
Opcja 1 PO nie jest bliska konkurowania z powodów, które podałem w mojej odpowiedzi.
Michael R. Chernick,
@Michael Zgadzam się, że twoja interpretacja Opcji 1 nie jest konkurencyjna. Interesujące - i zbadałem tutaj - jest to, że istnieją bardziej realne interpretacje tego, jak można „obliczyć rzeczywistą dolną granicę” z pięciu oddzielnych, z których dwie zbadałem tutaj. Prawdopodobnie powinienem był również przyjrzeć się bliżej opcji „mediany”: nie będzie ona znacznie gorsza niż zwykłe obliczenia (około 40% mniej wydajne).
whuber
1

Pierwsza opcja nie uwzględnia zmniejszonej wariancji uzyskanej z próbki. Pierwsza opcja daje pięć niższych granic ufności 95% dla średniej opartej na próbce wielkości 1 w każdym przypadku. Połączenie ich przez uśrednienie nie tworzy granicy, którą można interpretować jako dolną granicę 95%. Nikt by tego nie zrobił. Druga opcja jest zrobiona. Średnia z pięciu niezależnych obserwacji ma wariancję mniejszą 6-krotnie niż wariancja dla pojedynczej próbki. Dlatego daje ci znacznie lepszą dolną granicę niż którykolwiek z pięciu obliczonych w pierwszy sposób.

Również jeśli można założyć, że X jest prawidłowy, wówczas T będzie normalny.i

Michael R. Chernick
źródło