Powiedzmy, że mam próbkę i próbkę bootstrap z tej próbki dla stastitic (np. Średnia). Jak wszyscy wiemy, że ta próbka bootstrap szacuje się podział próbkowania estymatora statystyki.
Czy średnia dla tej próby ładowania początkowego jest lepszym oszacowaniem statystyki populacji niż statystyka oryginalnej próbki ? Na jakich warunkach tak by było?
estimation
bootstrap
Amelio Vazquez-Reina
źródło
źródło
Odpowiedzi:
Uogólnijmy, aby skupić się na istocie sprawy. Sprecyzuję najdrobniejsze szczegóły, aby nie pozostawiać wątpliwości. Analiza wymaga tylko następujących czynności:
Średnią arytmetyczną z zestawu liczb określa sięz1, … , Zm
Oczekiwanie jest operatorem liniowym. Oznacza to, że gdy są zmiennymi losowymi, a są liczbami, to oczekiwanie kombinacji liniowej jest kombinacją liniową oczekiwań,α iZja, i = 1 , … , m αja
Niech będzie próbką uzyskaną z zestawu danych poprzez pobranie elementów równomiernie z zamianą. Niech jest średnią arytmetyczną z . To jest zmienna losowa. Następnie( B 1 , … , B k ) x = ( x 1 , … , x n ) k x m ( B ) Bb ( B1, … , Bk) x = ( x1, ... ,xn) k x m ( B ) b
następuje liniowość oczekiwań. Ponieważ wszystkie elementy są otrzymywane w ten sam sposób, wszystkie mają takie same oczekiwania, powiedzmy:bb b
Upraszcza to powyższe
Z definicji oczekiwanie jest sumą wartości ważoną prawdopodobieństwem. Ponieważ zakłada się, że każda wartość ma jednakową szansę na wybranie ,1 / nX 1 / n
średnia arytmetyczna danych.
Aby odpowiedzieć na pytanie, jeśli używa się średniej danych do oszacowania średniej populacji, to średnia ładowania początkowego (tak jest w przypadku ) również równa się , a zatem jest identyczna jak estymator średniej populacji . k=n ˉ xx¯ k = n x¯
W przypadku statystyk, które nie są liniowymi funkcjami danych, ten sam wynik niekoniecznie się utrzymuje. Jednak błędem byłoby po prostu zastąpienie średniej wartości ładowania początkowego wartością statystyki w danych: nie tak działa ładowanie początkowe. Zamiast tego, porównując średnią ładowania początkowego ze statystyką danych , uzyskujemy informacje na temat błędu statystycznego statystyki. Można to wykorzystać do dostosowania oryginalnej statystyki w celu usunięcia błędu. W związku z tym oszacowanie skorygowane o błąd systematyczny staje się w ten sposób algebraiczną kombinacją oryginalnej statystyki i średniej początkowej. Aby uzyskać więcej informacji, wyszukaj „BCa” (bootstrap z korekcją błędów i przyspieszeniem) i „ABC”. Wikipedia zawiera pewne odniesienia.
źródło
Ponieważ rozkład ładowania początkowego jest zdefiniowany jako średnia dystrybucja bootstrap to Gdy (jeśli musisz) zaimplementujesz wersję symulacyjną tego oczekiwania, tj. średnią losowych losowań, występuje zmienność Monte Carlo w to przybliżenie , ale jego średnia (obliczenie średniej empirycznej) i jego limit, gdy liczba symulacji ładowania początkowego rośnie do nieskończoności, są dokładnie .E F N [ X ] = 1
źródło