Jakie jest znaczenie przedziału ufności wziętego z próbek ładowanych ponownie?

38

Patrzyłem na wiele pytań na tej stronie dotyczących ładowania początkowego i przedziałów ufności, ale nadal jestem zdezorientowany. Jednym z powodów mojego zamieszania jest prawdopodobnie to, że nie jestem wystarczająco zaawansowany w mojej wiedzy statystycznej, aby zrozumieć wiele odpowiedzi. Jestem mniej więcej w połowie kursu wprowadzającego, a mój poziom matematyki dotyczy tylko połowy Algebry II, więc wszystko, co przekroczy ten poziom, tylko mnie dezorientuje. Gdyby jedna z kompetentnych osób na tej stronie mogła wyjaśnić ten problem na moim poziomie, byłoby to niezwykle pomocne.

Nauczyliśmy się w klasie, jak pobierać próbki za pomocą metody ładowania początkowego i używać ich do budowania przedziału ufności dla niektórych statystyk, które chcielibyśmy zmierzyć. Załóżmy na przykład, że pobieramy próbkę z dużej populacji i stwierdzamy, że 40% twierdzi, że zagłosuje na kandydata A. Zakładamy, że ta próbka jest dość dokładnym odzwierciedleniem pierwotnej populacji, w którym to przypadku możemy pobrać próbki z odkryć coś o populacji. Więc bierzemy próbki i stwierdzamy (przy 95% poziomie ufności), że wynikowy przedział ufności wynosi od 35% do 45%.

Moje pytanie brzmi: co tak naprawdę oznacza ten przedział ufności ?

Ciągle czytam, że istnieje różnica między (częstymi) przedziałami ufności i (bayesowskimi) wiarygodnymi przedziałami. Jeśli dobrze zrozumiałem, wiarygodny przedział byłoby powiedzieć, że istnieje 95% szans, że w naszej sytuacji prawdziwym parametrem jest w zadanym przedziale (35% -45%), natomiast przedział ufności byłoby powiedzieć, że tam jest 95%, że to rodzaj sytuacji (ale niekoniecznie w naszej konkretnej sytuacji) zastosowana metoda dokładnie zgłosi, że prawdziwy parametr mieści się w podanym przedziale czasowym.

Zakładając, że ta definicja jest poprawna, moje pytanie brzmi: jaki jest „prawdziwy parametr”, o którym mówimy, gdy używa się przedziałów ufności zbudowanych za pomocą metody bootstrap? Czy mówimy o (a) prawdziwym parametrze pierwotnej populacji , czy (b) prawdziwym parametrze próby ? Jeśli (a), to powiedzielibyśmy, że w 95% przypadków metoda ładowania początkowego dokładnie zgłasza prawdziwe stwierdzenia o oryginalnej populacji. Ale skąd możemy to wiedzieć? Czy cała metoda bootstrap nie opiera się na założeniuczy oryginalna próbka jest dokładnym odzwierciedleniem populacji, z której została pobrana? Jeśli (b) to w ogóle nie rozumiem znaczenia przedziału ufności. Czy nie znamy już prawdziwego parametru próbki? To prosty pomiar!

Rozmawiałem o tym z moją nauczycielką i była bardzo pomocna. Ale wciąż jestem zdezorientowany.

Iarwain
źródło

Odpowiedzi:

28

Jeśli procedura ładowania początkowego i utworzenie przedziału ufności zostały wykonane poprawnie, oznacza to to samo, co każdy inny przedział ufności. Z perspektywy częstych 95% przedział ufności sugeruje, że jeśli całe badanie powtórzono identycznie ad infinitum , 95% takich przedziałów ufności utworzonych w ten sposób będzie zawierać prawdziwą wartość. Oczywiście w twoim badaniu lub w każdym indywidualnym badaniu przedział ufności będzie zawierał prawdziwą wartość lub nie, ale nie będziesz wiedział, która. Aby lepiej zrozumieć te pomysły, pomocne może być przeczytanie mojej odpowiedzi tutaj: Dlaczego 95% przedział ufności (CI) nie oznacza 95% szansy na zawarcie średniej?

x¯μ. Aby szybko zademonstrować matematykę, rozważ następującą symulację, używając R:

# a function to perform bootstrapping
boot.mean.sampling.distribution = function(raw.data, B=1000){
  # this function will take 1,000 (by default) bootsamples calculate the mean of 
  # each one, store it, & return the bootstrapped sampling distribution of the mean

  boot.dist = vector(length=B)     # this will store the means
  N         = length(raw.data)     # this is the N from your data
  for(i in 1:B){
    boot.sample  = sample(x=raw.data, size=N, replace=TRUE)
    boot.dist[i] = mean(boot.sample)
  }
  boot.dist = sort(boot.dist)
  return(boot.dist)
}

# simulate bootstrapped CI from a population w/ true mean = 0 on each pass through
# the loop, we will get a sample of data from the population, get the bootstrapped 
# sampling distribution of the mean, & see if the population mean is included in the
# 95% confidence interval implied by that sampling distribution

set.seed(00)                       # this makes the simulation reproducible
includes = vector(length=1000)     # this will store our results
for(i in 1:1000){
  sim.data    = rnorm(100, mean=0, sd=1)
  boot.dist   = boot.mean.sampling.distribution(raw.data=sim.data)
  includes[i] = boot.dist[25]<0 & 0<boot.dist[976]
}
mean(includes)     # this tells us the % of CIs that included the true mean
[1] 0.952
gung - Przywróć Monikę
źródło
Na jakich konkretnych założeniach polegamy?
iarwain
2
Dzięki. Myślę, że znalazłem to, czego szukałem w drugiej odpowiedzi na ten wątek: „Pamiętaj, że nie używamy środków z próbek bootstrap do oszacowania średniej populacji, używamy do tego średniej próbki (lub jakiejkolwiek interesującej statystyki jest) .Ale używamy próbek bootstrap do oszacowania właściwości (rozprzestrzeniania się, stronniczości) procesu pobierania próbek. I używamy próbkowania ze znanej populacji (która, mamy nadzieję, jest reprezentatywna dla populacji zainteresowań), aby poznać efekty próbkowania ma sens i jest znacznie mniej okrągły ”. ...
iarwain
1
... Innymi słowy, CI mówi nam tylko, że w populacji mniej więcej podobnej do naszej spodziewalibyśmy się, że 95% próbek pobranych z tej populacji odzwierciedla prawdziwą wartość +/- margines błędu. Więc wszystko, co robimy, to udzielenie bardzo szorstkiej wskazówki - choć być może najlepszej wskazówki, jaką mamy - na temat tego, jak blisko naszej przykładowej statystyki może być prawdziwy parametr populacji. Jeśli tak, to wygląda na to, że nie powinniśmy brać poważnie dokładnych liczb w CI - oznaczają one po prostu coś w rodzaju: „statystyka próbki jest prawdopodobnie z grubsza dokładna, prawdopodobnie z grubsza do tego stopnia”. Czy dobrze to zrozumiałem?
iarwain
1
To w zasadzie poprawne. CI daje nam poczucie precyzji naszych szacunków, ale nigdy nie wiemy, czy nasz rzeczywisty (zrealizowany) CI zawiera prawdziwą wartość. Podstawowym założeniem jest to, że nasze dane są reprezentatywne dla interesującej nas populacji. Należy pamiętać, że żaden z nich są zwłaszcza bootstrapped IK, masz taką samą interpretację i założenie w CI obliczona poprzez teorii asymptotycznej.
gung - Przywróć Monikę
1
To doskonałe wytłumaczenie. Dodałbym tylko, że „prawdziwa wartość” jest czasem artefaktem projektu badania. Podczas głosowania na kandydatów politycznych, próbki warstwowe dają znacznie bardziej precyzyjne i wiarygodne szacunki niż próbki losowe. Kosztem jest ryzyko przekroczenia próby niewłaściwej grupy z założenia. W takim przypadku 95% CI koncentruje się na poprawnej wartości, tej, którą osiąga się poprzez replikację badania ad infinitum , ale ta wartość nie jest drugim poczuciem prawdziwego parametru: parametru, który chcieliśmy oszacować. Właśnie dlatego projekt badania i wnioskowanie są ze sobą nierozerwalnie związane.
AdamO
0

Mówisz, że nie ma potrzeby znajdowania przedziału ufności na podstawie próbek rozruchowych. Jeśli jesteś zadowolony ze statystyki (średnia próbki lub proporcja próbki) uzyskanej z próbek ładowanych ponownie, nie znajdź żadnego przedziału ufności, a zatem nie ma wątpliwości co do interpretacji. Ale jeśli nie jesteś zadowolony ze statystyki uzyskanej z próbek ładowanych ponownie lub jesteś zadowolony, ale nadal chcesz znaleźć przedział ufności, wówczas interpretacja takiego przedziału ufności jest taka sama, jak każdego innego przedziału ufności. Dzieje się tak dlatego, że gdy twoje bootstrapowane próbki dokładnie reprezentują (lub zakładają, że tak) oryginalną populację, to gdzie jest potrzeba przedziału ufności? Statystyka z bootstrapowanych próbek jest samym pierwotnym parametrem populacji, ale jeśli nie uważa się statystyki za oryginalny parametr populacji, wówczas należy znaleźć przedział ufności. Wszystko zależy od tego, jak myślisz. Powiedzmy, że obliczyłeś 95% przedział ufności na podstawie próbek rozruchowych. Teraz interpretacja brzmi: „95% razy ta metoda ładowania początkowego dokładnie daje przedział ufności zawierający prawdziwy parametr populacji”.

(Tak myślę. Popraw mnie, jeśli są jakieś błędy).

Chikatla Prashanth
źródło
-1

Mamy na myśli prawdziwy parametr pierwotnej populacji. Można to zrobić, zakładając, że dane zostały losowo pobrane z pierwotnej populacji - w takim przypadku istnieją argumenty matematyczne wskazujące, że procedury ładowania początkowego zapewnią prawidłowy przedział ufności, przynajmniej gdy rozmiar zestawu danych stanie się wystarczająco duży .

Gareth
źródło
Brzmi więc to tak, że aby zrozumieć, dlaczego to działa, muszę znać wystarczająco matematyki, aby podążać za matematycznymi dowodami. Czy to jest poprawne?
iarwain
Myślę, że tak (nie znam dowodów)
Gareth
Intuicyjnie widać jednak, że wraz ze wzrostem wielkości próby próbka zaczyna przypominać populację. Powiedzmy na przykład, że pobieram 1 milion próbek z rozkładu normalnego z podaną średnią i wariancją. Nazwij tę próbkę X. Losowa próbka (z zamiennikiem) pobrana z X wygląda bardzo podobnie do losowej próbki pobranej z pierwotnego rozkładu. Myślę, że to podstawowa koncepcja, dlaczego to działa.
Gareth,