Plusy i minusy ładowania początkowego

11

Właśnie dowiedziałem się o koncepcji bootstrapowania i przyszło mi do głowy naiwne pytanie: jeśli zawsze możemy wygenerować wiele próbek bootstrap naszych danych, po co w ogóle starać się uzyskać więcej „prawdziwych” danych?

Wydaje mi się, że mam wyjaśnienie, proszę mi powiedzieć, czy mam rację: myślę, że proces ładowania początkowego zmniejsza wariancję, ALE jeśli mój oryginalny zestaw danych jest BIASED, to utknąłem z niską wariancją i dużym odchyleniem, bez względu na to, ile replik Biorę.

Noale
źródło
4
ładowanie nie tworzy więcej informacji niż jest już w danych (i modelu) ... rzeczywiste dane mogą dać ci więcej informacji
Glen_b
2
Zgadzam się z Glen_b, że nie tworzy więcej informacji, ale nie zgadzam się, że może dać ci mniej informacji. Jak powiedziałem w mojej odpowiedzi, nie zawsze działa to dobrze, ale można to powiedzieć o każdej metodzie statystycznej.
Michael R. Chernick
1
Interesujące pytanie - być może powiązaną koncepcją jest to, dlaczego działa bootstrap? . Zrozumienie tego pomoże wiedzieć, kiedy jest to przydatne. Pomyślałem, że bootstrap to ulepszenie w stosunku do normalnego przybliżenia rozkładów próbkowania. Może obsłużyć odstępstwa od normalności, które nie są zbyt ekstremalne. Inną atrakcyjną cechą jest to, że nie musisz wykonywać prac analitycznych / algebraicznych - replikacja robi to za Ciebie.
probabilityislogic

Odpowiedzi:

15

Bootstrap to metoda wnioskowania w sposób, który nie wymaga przyjęcia parametrycznej postaci dla rozkładu populacji. Nie traktuje oryginalnej próbki tak, jakby była populacją, nawet jeśli obejmuje próbkę z zastąpieniem z oryginalnej próbki. Zakłada się, że pobieranie próbek z zastąpieniem z oryginalnej próbki o wielkości n naśladuje pobieranie próbki o wielkości n z większej populacji. Ma również wiele wariantów, takich jak m out of bootstrap, który ponownie próbkuje czas m z próbki o rozmiarze n, gdzie m <n. Ładne właściwości bootstrapu zależą od teorii asymptotycznej. Jak wspomnieli inni, bootstrap nie zawiera więcej informacji o populacji niż podane w oryginalnej próbce. Z tego powodu czasami nie działa dobrze w małych próbkach.

W mojej książce „Bootstrap Methods: A Practitioners Guide”, wydanej przez Wiley w 2007 roku, wskazuję sytuacje, w których bootstrap może się nie powieść. Obejmuje to rozkład, który nie ma momentów skończonych, małe liczebności próby, oszacowanie skrajnych wartości z rozkładu i oszacowanie wariancji w próbkowaniu ankietowym, w którym wielkość populacji wynosi N i pobierana jest duża próbka n. W niektórych przypadkach warianty bootstrap mogą działać lepiej niż oryginalne podejście. Dzieje się tak z niektórymi aplikacjami m out of n bootstrap. W przypadku szacowania poziomów błędów w analizie dyskryminacyjnej, bootstrap 632 stanowi ulepszenie w stosunku do innych metod, w tym innych metod bootstrap.

Powodem tego jest to, że czasami nie można polegać na założeniach parametrycznych, aw niektórych sytuacjach bootstrap działa lepiej niż inne metody nieparametryczne. Można go zastosować do wielu różnych problemów, w tym do regresji nieliniowej, klasyfikacji, oszacowania przedziału ufności, oszacowania obciążenia wstępnego, dostosowania wartości p i analizy szeregów czasowych, aby wymienić tylko kilka.

Michael R. Chernick
źródło
6

Próbka bootstrap może tylko powiedzieć ci coś o oryginalnej próbce i nie dostarczy ci żadnych nowych informacji o prawdziwej populacji. Jest to po prostu nieparametryczna metoda konstruowania przedziałów ufności i tym podobnych.

Jeśli chcesz uzyskać więcej informacji o populacji, musisz zebrać więcej danych z populacji.

einar
źródło