Średnia próbki bootstrap a statystyki próbki

18

Powiedzmy, że mam próbkę i próbkę bootstrap z tej próbki dla stastitic (np. Średnia). Jak wszyscy wiemy, że ta próbka bootstrap szacuje się podział próbkowania estymatora statystyki.χ

Czy średnia dla tej próby ładowania początkowego jest lepszym oszacowaniem statystyki populacji niż statystyka oryginalnej próbki ? Na jakich warunkach tak by było?

Amelio Vazquez-Reina
źródło
2
Średnia próbki bootstrap jest średnią próbki i w tym przypadku nie potrzebujesz próbki bootstrap.
Xi'an
1
Dzięki @ Xi'an Nie jestem pewien, czy śledzę. Średnia próbki bootstrap może różnić się liczbowo od średniej próbki. Czy próbujesz powiedzieć, że te dwa są nadal teoretycznie równoważne? Czy możesz potwierdzić na obu końcach?
Amelio Vazquez-Reina
2
Wyjaśnijmy naszą terminologię: „próbka ładowania początkowego” może odnosić się do konkretnej próbki z zamiennikiem z danych lub może odnosić się do losowej zmiennej (wielowymiarowej), której taka próbka byłaby uważana za jedną realizację. Masz rację, że średnia realizacji może różnić się od średniej danych, ale @ Xi'an zapewnia bardziej odpowiednie spostrzeżenie, że średnia zmiennej losowej (która z definicji jest oszacowaniem wartości początkowej średniej populacji ) musi się pokrywać ze średnią danych.
whuber
1
Twoje pytanie jest prawie identyczne jak stats.stackexchange.com/questions/126633/… ; jedyną różnicą jest to, że przykładowe realizacje bootstrap mogą się pokrywać, ale analiza podana w tamtej odpowiedzi łatwo przenosi się do sytuacji bootstrap, z tym samym rezultatem.
whuber
1
Widzę połączenie @ whuber, chociaż w bootstrapie ma się „podzbiory z zamiennikiem”, a realizacje mogą się nakładać, tak jak powiedziałeś. Wyobrażam sobie, że rozkład (np. Pseudolosowość) użyty do uzyskania powtórnych próbek w bootstrapie może również wpływać na błąd szacunku z próbki bootstrap. Być może odpowiedź jest taka, że ​​we wszystkich kwestiach praktycznych różnica jest znikoma. Oto pytanie: warunki, subtelności i różnica w praktyce.
Amelio Vazquez-Reina

Odpowiedzi:

19

Uogólnijmy, aby skupić się na istocie sprawy. Sprecyzuję najdrobniejsze szczegóły, aby nie pozostawiać wątpliwości. Analiza wymaga tylko następujących czynności:

  1. Średnią arytmetyczną z zestawu liczb określa sięz1,,zm

    1m(z1++zm).
  2. Oczekiwanie jest operatorem liniowym. Oznacza to, że gdy są zmiennymi losowymi, a są liczbami, to oczekiwanie kombinacji liniowej jest kombinacją liniową oczekiwań,α iZja,ja=1,,mαja

    mi(α1Z1++αmZm)=α1mi(Z1)++αmmi(Zm).

Niech będzie próbką uzyskaną z zestawu danych poprzez pobranie elementów równomiernie z zamianą. Niech jest średnią arytmetyczną z . To jest zmienna losowa. Następnie( B 1 , , B k ) x = ( x 1 , , x n ) k x m ( B ) Bb(b1,,bk)x=(x1,,xn)kxm(b)b

mi(m(b))=mi(1k(b1++bk))=1k(mi(b1)++mi(bk))

następuje liniowość oczekiwań. Ponieważ wszystkie elementy są otrzymywane w ten sam sposób, wszystkie mają takie same oczekiwania, powiedzmy:bbb

E(b1)==mi(bk)=b.

Upraszcza to powyższe

mi(m(b))=1k(b+b++b)=1k(kb)=b.

Z definicji oczekiwanie jest sumą wartości ważoną prawdopodobieństwem. Ponieważ zakłada się, że każda wartość ma jednakową szansę na wybranie ,1 / nX1/n

mi(m(b))=b=mi(b1)=1nx1++1nxn=1n(x1++xn)=x¯,

średnia arytmetyczna danych.

Aby odpowiedzieć na pytanie, jeśli używa się średniej danych do oszacowania średniej populacji, to średnia ładowania początkowego (tak jest w przypadku ) również równa się , a zatem jest identyczna jak estymator średniej populacji . k=n ˉ xx¯k=nx¯


W przypadku statystyk, które nie są liniowymi funkcjami danych, ten sam wynik niekoniecznie się utrzymuje. Jednak błędem byłoby po prostu zastąpienie średniej wartości ładowania początkowego wartością statystyki w danych: nie tak działa ładowanie początkowe. Zamiast tego, porównując średnią ładowania początkowego ze statystyką danych , uzyskujemy informacje na temat błędu statystycznego statystyki. Można to wykorzystać do dostosowania oryginalnej statystyki w celu usunięcia błędu. W związku z tym oszacowanie skorygowane o błąd systematyczny staje się w ten sposób algebraiczną kombinacją oryginalnej statystyki i średniej początkowej. Aby uzyskać więcej informacji, wyszukaj „BCa” (bootstrap z korekcją błędów i przyspieszeniem) i „ABC”. Wikipedia zawiera pewne odniesienia.

Whuber
źródło
Masz na myśli, że oczekiwanie na średnią bootstrap jest równe średniej danych, nie? Sposób ładowania nie jest determinowany przez (oryginalną) próbkę danych.
capybaralet
@ user2429920 Średnia ładowania początkowego to statystyka określona przez próbkę. W tym sensie jest on identyczny ze średnią próbki. Oczekiwany jest w sensie rozkładu próbkowania. Podejrzewam, że używasz „oczekiwania” w innym znaczeniu w stosunku do procesu obliczania średniej ładowania poprzez powtarzanie podpróbkowania z zastępowaniem.
whuber
1
Myślę, że ostatni akapit jest faktyczną odpowiedzią na to pytanie, ponieważ jest on ogólny i nie koncentruje się wyłącznie na średniej statystycznej. Miałem te same wątpliwości co OP i nie byłem świadomy istnienia BCa. Chociaż wykazanie w tej odpowiedzi niewiele mi pomogło (nie używam średniej jako mojej statystyki), ostatni akapit był bardzo jasny na temat sedna sprawy. Wierzę, że odpowiedź Xi'ana dotyczy również przypadku, w którym stosowana jest średnia statystyka, więc ten sam problem. Dziękuję Ci!
Gabriel
1
@Gabriel dobre punkty. Sprawdziłem zapis: przed edycją pytanie to pierwotnie zadawało tylko średnią. Właśnie dlatego odpowiedzi wydają się tak skoncentrowane na tej statystyce.
whuber
9

Ponieważ rozkład ładowania początkowego jest zdefiniowany jako średnia dystrybucja bootstrap to Gdy (jeśli musisz) zaimplementujesz wersję symulacyjną tego oczekiwania, tj. średnią losowych losowań, występuje zmienność Monte Carlo w to przybliżenie , ale jego średnia (obliczenie średniej empirycznej) i jego limit, gdy liczba symulacji ładowania początkowego rośnie do nieskończoności, są dokładnie .E F N [ X ] = 1

fa^n(x)=1nja=1njaXjaxXjaiidfa(x),
mifa^n[X]=1nja=1nXja=X¯n
mifa^n[X]X¯n
Xi'an
źródło
2
+1 To jest odpowiedź, którą pierwotnie chciałem napisać, ale obawiałem się, że może być zbyt nieprzejrzysta dla niektórych czytelników. Niemniej jednak cieszę się, że jest tak elegancko zaprezentowany. Nie jestem jednak pewien, co masz na myśli w ostatnim zdaniu, gdy wydaje się, że odróżniasz „oczekiwanie” symulowanego przybliżenia od średniej od jego „granicy”: ponieważ oczekiwanie jest stałe (nie zmienia się w zależności od wielkości symulacji ), naprawdę nie ma żadnych ograniczeń.
whuber
@whuber: Dziękuję za komentarz i przepraszam za napisanie mojej zwięzłej odpowiedzi dokładnie w tym samym czasie, co wasza! Twoje wyjaśnienia są z pewnością bardziej czytelne dla nowicjuszy w bootstrapie. Poprawiłem ostatnie zdanie, którego ograniczeniem jest prawo wielkich liczb.
Xi'an
3
Twoje użycie „wrednego” w ostatnim zdaniu jest dość dwuznaczne! Zrozumiałem to na podstawie twojej wskazówki LLN. Dla każdej skończonej symulacji rozkładu ładowania początkowego każda próbka w symulacji wytwarza własną wartość średnią (istnieje jedno znaczenie „średnia”). Średnia wszystkich tych próbek w danej symulacji daje średnią symulacji (jest inne znaczenie). Średnia symulacji zbiega się ze stałą, gdy rozmiar symulacji rośnie, co jest średnią z początkowego poziomu (trzecie znaczenie), a to równa się średniej z próby (czwarte znaczenie). (A to szacuje średnią populacji - piąte znaczenie!)
whuber