Czy można użyć ponownego próbkowania bootstrap do obliczenia przedziału ufności dla wariancji zestawu danych?

9

Wiem, że jeśli powtórzysz próbkę z zestawu danych wiele razy i za każdym razem obliczysz średnią, średnie te będą zgodne z rozkładem normalnym (według CLT). W ten sposób można obliczyć przedział ufności na podstawie średniej zbioru danych, nie przyjmując żadnych założeń dotyczących rozkładu prawdopodobieństwa zbioru danych.

Zastanawiałem się, czy możesz zrobić coś podobnego dla wariancji. To znaczy, jeśli wielokrotnie próbowałem ponownie z zestawu danych i za każdym razem obliczałem wariancję, czy wariancje te miałyby określony rozkład (niezależnie od tego, jaki był pierwotny rozkład prawdopodobieństwa zestawu danych)?

Wiem, że jeśli ten oryginalny zestaw danych jest normalny, wówczas wariancje byłyby zgodne z rozkładem chi-kwadrat. Ale co w przypadku, gdy nie jest to normalne?

Casandra
źródło

Odpowiedzi:

10

Czy można użyć ponownego próbkowania Bootstrap do obliczenia przedziału ufności dla wariancji zbioru danych?

Tak, jak w przypadku wielu innych statystyk.

Wiem, że jeśli wielokrotnie powtórzysz próbkę z zestawu danych i za każdym razem obliczysz średnią, średnie te będą zgodne z rozkładem normalnym (według CLT).

Nie zawsze jest tak, że jeśli ładujesz bootstrap, oznacza to, że oznacza on normalną dystrybucję, nawet dla dystrybucji, do których stosuje się CLT.

Oto przykład, w którym dokonałem ponownej próbkowania średniej dla próbki o wielkości , gdzie dokonałem ponownej próbkowania 10000 razy:n=100

wprowadź opis zdjęcia tutaj

To nie jest wcale normalne.

Pierwotna próbka składa się z dziewięćdziesięciu siedmiu wartości „0” oraz „1”, „2” i „100”.

Oto kod (R), który uruchomiłem, aby wygenerować wykres powyżej:

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

Problem polega na tym, że w tym przypadku wielkość próbki (100) jest zbyt mała, aby CLT mógł zastosować ten rodzaj rozkładu; nie ma znaczenia, ile razy go ponownie próbkujemy.

Jeśli jednak pierwotna wielkość próbki jest znacznie większa, rozkład ponownego próbkowania środków próbki dla czegoś takiego będzie bardziej normalny (choć zawsze dyskretny).

Oto pliki pdf podczas ponownego próbkowania powyższych danych (czarny) i dla wartości w tych samych proporcjach, ale z dziesięciokrotnie większą liczbą wartości (czerwony; to znaczy, n = 1000):

wprowadź opis zdjęcia tutaj

Jak widzimy, funkcja rozkładu podczas ponownego próbkowania dużej próbki wygląda znacznie bardziej normalnie.

jeśli miałbym wielokrotnie próbkować z zestawu danych i za każdym razem obliczać wariancję, czy wariancje te miałyby określony rozkład

Nie, z tego samego powodu niekoniecznie musi to być prawda.

Jednak CLT ma również zastosowanie do wariancji *; po prostu nie można argumentować, że CLT stosuje się do ponownego próbkowania bootstrap, po prostu biorąc wiele prób. Jeśli pierwotna wielkość próbki jest wystarczająco duża, może to (w odpowiednich warunkach) spowodować, że rozkład średnich próbkowania (i wyższych momentów, jeśli istnieją) jest względnie zbliżony do rozkładu normalnego (w odniesieniu do jego rozkładu w mniejszych próbkach, przy najmniej).

* że CLT zwykle stosuje się do wariancji (przy założeniu, że istnieją odpowiednie momenty) jest intuicyjne, jeśli weźmie się pod uwagę . Niech ; następnie , więc jeśli CLT dotyczy zmiennej , można ją zastosować do . Teraz jest tylko skalowaną wersją ; jeśli CLT ma zastosowanie do , będzie miało zastosowanie do . Ten zarys argumentu nie jest jednak całkowicie solidny i istnieją pewne wyjątki, których na początku nie można się spodziewać.sn2=1ni=1n(xix¯)2yi=(xix¯)2sn2=y¯ysn2sn12sn2sn2sn12

Glen_b - Przywróć Monikę
źródło