Właśnie dowiedziałem się o koncepcji bootstrapowania i przyszło mi do głowy naiwne pytanie: jeśli zawsze możemy wygenerować wiele próbek bootstrap naszych danych, po co w ogóle starać się uzyskać więcej „prawdziwych” danych?
Wydaje mi się, że mam wyjaśnienie, proszę mi powiedzieć, czy mam rację: myślę, że proces ładowania początkowego zmniejsza wariancję, ALE jeśli mój oryginalny zestaw danych jest BIASED, to utknąłem z niską wariancją i dużym odchyleniem, bez względu na to, ile replik Biorę.
Odpowiedzi:
Bootstrap to metoda wnioskowania w sposób, który nie wymaga przyjęcia parametrycznej postaci dla rozkładu populacji. Nie traktuje oryginalnej próbki tak, jakby była populacją, nawet jeśli obejmuje próbkę z zastąpieniem z oryginalnej próbki. Zakłada się, że pobieranie próbek z zastąpieniem z oryginalnej próbki o wielkości n naśladuje pobieranie próbki o wielkości n z większej populacji. Ma również wiele wariantów, takich jak m out of bootstrap, który ponownie próbkuje czas m z próbki o rozmiarze n, gdzie m <n. Ładne właściwości bootstrapu zależą od teorii asymptotycznej. Jak wspomnieli inni, bootstrap nie zawiera więcej informacji o populacji niż podane w oryginalnej próbce. Z tego powodu czasami nie działa dobrze w małych próbkach.
W mojej książce „Bootstrap Methods: A Practitioners Guide”, wydanej przez Wiley w 2007 roku, wskazuję sytuacje, w których bootstrap może się nie powieść. Obejmuje to rozkład, który nie ma momentów skończonych, małe liczebności próby, oszacowanie skrajnych wartości z rozkładu i oszacowanie wariancji w próbkowaniu ankietowym, w którym wielkość populacji wynosi N i pobierana jest duża próbka n. W niektórych przypadkach warianty bootstrap mogą działać lepiej niż oryginalne podejście. Dzieje się tak z niektórymi aplikacjami m out of n bootstrap. W przypadku szacowania poziomów błędów w analizie dyskryminacyjnej, bootstrap 632 stanowi ulepszenie w stosunku do innych metod, w tym innych metod bootstrap.
Powodem tego jest to, że czasami nie można polegać na założeniach parametrycznych, aw niektórych sytuacjach bootstrap działa lepiej niż inne metody nieparametryczne. Można go zastosować do wielu różnych problemów, w tym do regresji nieliniowej, klasyfikacji, oszacowania przedziału ufności, oszacowania obciążenia wstępnego, dostosowania wartości p i analizy szeregów czasowych, aby wymienić tylko kilka.
źródło
Próbka bootstrap może tylko powiedzieć ci coś o oryginalnej próbce i nie dostarczy ci żadnych nowych informacji o prawdziwej populacji. Jest to po prostu nieparametryczna metoda konstruowania przedziałów ufności i tym podobnych.
Jeśli chcesz uzyskać więcej informacji o populacji, musisz zebrać więcej danych z populacji.
źródło