Czy można użyć ponownego próbkowania Bootstrap do obliczenia przedziału ufności dla wariancji zbioru danych?
Tak, jak w przypadku wielu innych statystyk.
Wiem, że jeśli wielokrotnie powtórzysz próbkę z zestawu danych i za każdym razem obliczysz średnią, średnie te będą zgodne z rozkładem normalnym (według CLT).
Nie zawsze jest tak, że jeśli ładujesz bootstrap, oznacza to, że oznacza on normalną dystrybucję, nawet dla dystrybucji, do których stosuje się CLT.
Oto przykład, w którym dokonałem ponownej próbkowania średniej dla próbki o wielkości , gdzie dokonałem ponownej próbkowania 10000 razy:n=100
To nie jest wcale normalne.
Pierwotna próbka składa się z dziewięćdziesięciu siedmiu wartości „0” oraz „1”, „2” i „100”.
Oto kod (R), który uruchomiłem, aby wygenerować wykres powyżej:
x <- c(rep(0,97),1,2,100)
y <- replicate(10000,mean(sample(x,replace=TRUE)))
plot(table(y),type="h")
Problem polega na tym, że w tym przypadku wielkość próbki (100) jest zbyt mała, aby CLT mógł zastosować ten rodzaj rozkładu; nie ma znaczenia, ile razy go ponownie próbkujemy.
Jeśli jednak pierwotna wielkość próbki jest znacznie większa, rozkład ponownego próbkowania środków próbki dla czegoś takiego będzie bardziej normalny (choć zawsze dyskretny).
Oto pliki pdf podczas ponownego próbkowania powyższych danych (czarny) i dla wartości w tych samych proporcjach, ale z dziesięciokrotnie większą liczbą wartości (czerwony; to znaczy, n = 1000):
Jak widzimy, funkcja rozkładu podczas ponownego próbkowania dużej próbki wygląda znacznie bardziej normalnie.
jeśli miałbym wielokrotnie próbkować z zestawu danych i za każdym razem obliczać wariancję, czy wariancje te miałyby określony rozkład
Nie, z tego samego powodu niekoniecznie musi to być prawda.
Jednak CLT ma również zastosowanie do wariancji *; po prostu nie można argumentować, że CLT stosuje się do ponownego próbkowania bootstrap, po prostu biorąc wiele prób. Jeśli pierwotna wielkość próbki jest wystarczająco duża, może to (w odpowiednich warunkach) spowodować, że rozkład średnich próbkowania (i wyższych momentów, jeśli istnieją) jest względnie zbliżony do rozkładu normalnego (w odniesieniu do jego rozkładu w mniejszych próbkach, przy najmniej).
* że CLT zwykle stosuje się do wariancji (przy założeniu, że istnieją odpowiednie momenty) jest intuicyjne, jeśli weźmie się pod uwagę . Niech ; następnie , więc jeśli CLT dotyczy zmiennej , można ją zastosować do . Teraz jest tylko skalowaną wersją ; jeśli CLT ma zastosowanie do , będzie miało zastosowanie do . Ten zarys argumentu nie jest jednak całkowicie solidny i istnieją pewne wyjątki, których na początku nie można się spodziewać.s2n=1n∑ni=1(xi−x¯)2yi=(xi−x¯)2s2n=y¯ys2ns2n−1s2ns2ns2n−1