Dlaczego nie zgłosić średniej dystrybucji bootstrap?

30

Kiedy jeden ładuje parametr, aby uzyskać standardowy błąd, otrzymujemy rozkład parametru. Dlaczego nie wykorzystamy średniej tego rozkładu jako wyniku lub oszacowania parametru, który próbujemy uzyskać? Czy rozkład nie powinien być zbliżony do rzeczywistego? Dlatego otrzymalibyśmy dobre oszacowanie „prawdziwej” wartości? Podajemy jednak oryginalny parametr uzyskany z naszej próbki. Dlaczego?

Dzięki

Guillermo Perez
źródło

Odpowiedzi:

24

Ponieważ statystyki ładowania początkowego są jedną dodatkową abstrakcją od parametru populacji. Masz parametr populacji, przykładową statystykę i tylko na trzeciej warstwie masz bootstrap. Średnia wartość bootstrapped nie jest lepszym oszacowaniem parametru populacji. To tylko oszacowanie.

Ponieważ rozkład ładowania początkowego zawierający wszystkie możliwe kombinacje ładowania początkowego koncentruje się wokół statystyki próbki, podobnie jak statystyka statystyki próbki wokół parametru populacji w tych samych warunkach. Ten artykuł tutaj całkiem ładnie podsumowuje te rzeczy i jest jednym z najłatwiejszych, jakie mogłem znaleźć. Bardziej szczegółowe dowody znajdują się w dokumentach, do których się odnoszą. Godne uwagi przykłady to Efron (1979) i Singh (1981)n

Bootstrapped dystrybucja następujący rozkład θ - θ co czyni go użytecznym w oszacowaniu błędu standardowego szacunków próbce w budowie przedziałów ufności oraz w oszacowaniu błędu danego parametru. Nie czyni go lepszym estymatorem parametru populacji. To po prostu stanowi czasami lepszą alternatywę dla zwykłego rozkładu parametrycznego dla rozkładu statystyki.θb-θ^θ^-θ

Cristian Dima
źródło
13

Istnieje co najmniej jeden przypadek, w którym ludzie nie używać średnia rozkładu bootstrap: pakowanie (skrót bootstrap agregacji ).

Podstawową ideą jest to, że jeśli twój estymator jest bardzo wrażliwy na zakłócenia danych (tj. Estymator ma dużą wariancję i niskie odchylenie), możesz uśrednić na wielu próbkach bootstrap, aby zmniejszyć ilość przypadków dopasowania do konkretnych przykładów.

Strona, do której odsyłam, wskazuje, że wprowadza to pewne odchylenie w twoich szacunkach, dlatego średnia próbka często ma większy sens niż uśrednianie próbek bootstrap. Ale jeśli masz coś w rodzaju drzewa decyzyjnego lub klasyfikatora najbliższego sąsiada, który może radykalnie zmienić się w odpowiedzi na niewielkie zmiany danych, to uprzedzenie może nie być tak duże, jak nadmierne dopasowanie.

David J. Harris
źródło
1
yθ
Zwykle widzę workowanie w celu zmniejszenia wariancji własnych oszacowań odpowiedzi (tj. Jego wrażliwości na wahania danych). Najczęściej spakowane modele (np. Drzewa) zazwyczaj nie mają dobrze zdefiniowanych parametrów, które można łatwo porównać z próbkami bootstrap.
David J. Harris
Dzięki, dokładnie tak myślałem. Wydaje mi się, że pakowanie nie ma większego sensu dla niczego poza oszacowaniem odpowiedzi, więc jest ograniczone w tym sensie.
Momo
10

θbθ^θ^θ

Jeromy Anglim
źródło