Niedawno użyłem ładowania początkowego, aby oszacować przedziały ufności dla projektu. Ktoś, kto niewiele wie o statystykach, ostatnio poprosił mnie o wyjaśnienie, dlaczego działa ładowanie początkowe, tj. Dlaczego ponowne próbkowanie tej samej próbki w kółko daje dobre wyniki. Zdałem sobie sprawę, że chociaż spędziłem dużo czasu na zrozumieniu, jak z niego korzystać, tak naprawdę nie rozumiem, dlaczego działa ładowanie początkowe.
W szczególności: jeśli dokonujemy ponownego próbkowania z naszej próby, w jaki sposób uczymy się czegoś o populacji, a nie tylko o próbie? Wydaje się, że nastąpił skok, który jest nieco sprzeczny z intuicją.
Znalazłem tutaj kilka odpowiedzi na to pytanie, które do połowy rozumiem. Szczególnie ten . Jestem „konsumentem” statystyk, a nie statystykami, i pracuję z ludźmi, którzy wiedzą o statystyce znacznie mniej niż ja. Czy ktoś może wyjaśnić, z minimalnymi odniesieniami do twierdzeń itp., Podstawowe uzasadnienie bootstrapu? Oznacza to, że gdybyś musiał to wyjaśnić swojemu sąsiadowi, co byś powiedział?
źródło
Odpowiedzi:
fwiw średniej długości wersja, którą zwykle daję, wygląda następująco:
Chcesz zadać pytanie dotyczące populacji, ale nie możesz. Więc weź próbkę i zadaj pytanie. To, czy powinieneś być pewny, że próbna odpowiedź jest zbliżona do populacji, oczywiście zależy od struktury populacji. Jednym ze sposobów, w jaki możesz się o tym dowiedzieć, jest wielokrotne pobieranie próbek z populacji, zadawanie im pytań i sprawdzanie, jak zmienne były przykładowe odpowiedzi. Ponieważ nie jest to możliwe, możesz albo poczynić pewne założenia dotyczące kształtu populacji, albo możesz użyć informacji z próbki, której faktycznie musisz się dowiedzieć.
Wyobraź sobie, że decydujesz się na przypuszczenia, np. Że to Normalny, Bernoulli lub inna wygodna fikcja. Postępując zgodnie z poprzednią strategią, możesz ponownie dowiedzieć się, jak bardzo odpowiedź na twoje pytanie, gdy zostaniesz poproszony o próbkę, może się różnić w zależności od konkretnej próbki, którą otrzymałeś, wielokrotnie generując próbki tego samego rozmiaru, co masz i pytając je o to samo pytanie. Byłoby to proste, o ile wybrałeś dogodne obliczeniowo założenia. (Rzeczywiście, szczególnie dogodne założenia oraz nietrywialna matematyka mogą pozwolić ci całkowicie ominąć część próbkowania, ale celowo zignorujemy to tutaj.)
Wydaje się, że to dobry pomysł, pod warunkiem, że z przyjemnością przyjmujesz założenia. Wyobraź sobie, że nie jesteś. Alternatywą jest pobranie pobranej próbki i pobranie z niej próbki. Możesz to zrobić, ponieważ próbka, którą masz, jest również populacją, tylko bardzo małą dyskretną; wygląda jak histogram twoich danych. Pobieranie próbek „z wymianą” jest po prostu wygodnym sposobem traktowania próbki tak, jakby była populacją i pobierania próbek z niej w sposób odzwierciedlający jej kształt.
Jest to rozsądne , ponieważ nie tylko próbka jest najlepsza, ale jedyna posiadana informacja o tym, jak faktycznie wygląda populacja, ale także dlatego, że większość próbek, jeśli zostaną losowo wybrane, będzie wyglądać jak populacja, z której pochodzą. W związku z tym prawdopodobnie Twoje również.
Dla intuicji ważne jest, aby pomyśleć o tym, jak można dowiedzieć się o zmienności, agregując próbkowane informacje, które są generowane na różne sposoby i przy różnych założeniach. Całkowite zignorowanie możliwości rozwiązań matematycznych w formie zamkniętej jest ważne, aby wyjaśnić to.
źródło
+1 do @ConjugatePrior, chcę tylko podkreślić jeden punkt, który jest ukryty w jego odpowiedzi. Pytanie brzmi: „jeśli ponownie próbkujemy naszą próbkę, to w jaki sposób uczymy się czegoś o populacji, a nie tylko o próbie?”. Ponowne próbkowanie nie ma na celu oszacowania rozkładu populacji - sama próbka jest traktowana jako model populacji. Zamiast tego dokonuje się ponownego próbkowania w celu oszacowania rozkładu próbkowania danej statystyki próbki.
źródło
Jest to prawdopodobnie bardziej techniczne wyjaśnienie skierowane do osób, które rozumieją niektóre statystyki i matematykę (przynajmniej rachunek różniczkowy). Oto slajd z kursu na temat bootstrapów ankiet, których nauczyłem jakiś czas temu:
Oczywiście potrzebne są pewne wyjaśnienia. jest procedurą uzyskiwania statystyki z istniejących danych (lub, aby być precyzyjnym technicznie, funkcją od funkcji rozkładu do liczb rzeczywistych; np. Średnia to , gdzie dla funkcji rozkładu próbki , jest rozumiane jako masa punktowa w punkcie próbki). W populacji, oznaczonej przez , zastosowanie daje parametr zainteresowania . Teraz pobraliśmy próbkę (pierwsza strzałka u góry) i mamy funkcję rozkładu empirycznego - stosujemy do niej , aby uzyskać oszacowanieE [ X ] = ∫ x d F F n ( ) d F F ( ) T θ F n ( ) T θ n θ θ n θT. mi[ X] = ∫x d F. fan( ) d F. fa( ) T. θ fan( ) T. θ^n . Zastanawiamy się, jak daleko jest od ? Jaki rozkład może mieć losowa ilość wokół ? To znak zapytania w lewym dolnym rogu diagramu i na to pytanie próbuje odpowiedzieć bootstrap. Aby powtórzyć punkt Gunga, nie chodzi tu o populację, ale o konkretną statystykę i jej rozkład.θ θ^n θ
Gdybyśmy mogli powtórzyć procedurę pobierania próbek, moglibyśmy uzyskać ten rozkład i dowiedzieć się więcej. Cóż, to zwykle przekracza nasze możliwości. Jeśli jednak
możemy mieć nadzieję, że procedura ładowania początkowego zadziała. Mianowicie, udajemy, że nasza dystrybucja jest zamiast , a co za tym możemy zabawiać wszystkich możliwych próbek - i nie będzie takie próbki, które jest praktyczne tylko dla . jeszcze raz: bootstrap działa w celu utworzenia rozkładu próbkowania wokół „prawdziwego” parametru , i mamy nadzieję, że przy dwóch powyższych warunkach ten rozkład próbkowania będzie informował o rozkładzie próbkowania z wokół :fan( ) fa( ) nn n ≤ 5 θ^∗n θ^n θ^n θ
Teraz zamiast po prostu iść w jedną stronę wzdłuż strzał i stracić trochę informacji / dokładności wzdłuż tych strzałek, możemy wrócić i powiedzieć coś o zmienności wokół .θ^∗n θ^n
Powyższe warunki zostały przedstawione w książce Halla (1991) jako najwyższa technika . Zrozumienie rachunku różniczkowego, o którym mówiłem, że może być wymagane jako warunek wpatrywania się w ten slajd, to drugie założenie dotyczące gładkości: w bardziej formalnym języku funkcjonalna musi mieć słabą pochodną. Pierwszym warunkiem jest oczywiście stwierdzenie asymptotyczne: im większa próba, tym bliżej powinno stać się ; a odległości od do powinny być tego samego rzędu wielkości co od do . Warunki te mogą się zepsuć i się zepsująT Fn F θ^∗n θ^n θ^n θ w wielu praktycznych sytuacjach tyle dziwnych statystyk i / lub systemów pomiarowych, które nie produkują rozkładów empirycznych, które są wystarczająco blisko .F
Skąd więc bierze się 1000 próbek lub jakakolwiek magiczna liczba? Wynika to z naszej niemożności narysowania wszystkich próbek , więc pobieramy po prostu ich losowy podzbiór. Najbardziej strzałka w prawo „symulująca” podaje kolejne przybliżenie, które robimy po drodze, aby uzyskać rozkład wokół , a to znaczy, że nasza symulacja Monte Carlo jest wystarczająco dobrym przybliżeniem pełnej dystrybucji bootstrap wokół .θ n θ θ ( * R ) n θ * n θ nnn θ^n θ θ^(∗r)n θ^∗n θ^n
źródło
Odpowiadam na to pytanie, ponieważ zgadzam się, że jest to trudna rzecz i istnieje wiele nieporozumień. Efron i Diaconis próbowali to zrobić w swoim artykule z 1983 r. W Scientific American i moim zdaniem się nie udało. Obecnie dostępnych jest kilka książek poświęconych bootstrapowi, które wykonują dobrą robotę. Efron i Tibshirani wykonali świetną robotę w swoim artykule w Science Science w 1986 roku. Szczególnie ciężko usiłowałem uczynić bootstrap dostępnym dla praktyka w mojej książce metod bootstrap, a moje wprowadzenie do bootstrap z aplikacjami do książki R. Halla jest świetne, ale bardzo zaawansowane i teoretyczne . Tim Hesterberg napisał wspaniały rozdział uzupełniający do jednej ze wstępnych książek statystycznych Davida Moore'a. Nieżyjący już Clifford Lunneborg miał fajną książkę. Chihara i Hesterberg niedawno wydali książkę statystyk matematycznych na poziomie średniozaawansowanym, która obejmuje bootstrap i inne metody ponownego próbkowania. Nawet zaawansowane książki, takie jak Lahiri czy Shao i Tu, dają dobre wyjaśnienia pojęciowe. Manly dobrze sobie radzi ze swoją książką, która opisuje permutacje i bootstrap. Nie ma powodu, aby zastanawiać się nad bootstrapem. Należy pamiętać, że bootstrap zależy od zasady bootstrapu. „Próbkowanie z zamiennikiem zachowuje się na oryginalnej próbce, tak jak oryginalna próbka zachowuje się w populacji. Istnieją przykłady, w których zasada ta zawodzi. Ważne jest, aby wiedzieć, że bootstrap nie jest odpowiedzią na każdy problem statystyczny. dają dobre wyjaśnienia pojęciowe. Manly dobrze sobie radzi ze swoją książką, która opisuje permutacje i bootstrap. Nie ma powodu, aby zastanawiać się nad bootstrapem. Należy pamiętać, że bootstrap zależy od zasady bootstrapu. „Próbkowanie z zamiennikiem zachowuje się na oryginalnej próbce, tak jak oryginalna próbka zachowuje się w populacji. Istnieją przykłady, w których zasada ta zawodzi. Ważne jest, aby wiedzieć, że bootstrap nie jest odpowiedzią na każdy problem statystyczny. dają dobre wyjaśnienia pojęciowe. Manly dobrze sobie radzi ze swoją książką, która opisuje permutacje i bootstrap. Nie ma powodu, aby zastanawiać się nad bootstrapem. Należy pamiętać, że bootstrap zależy od zasady bootstrapu. „Próbkowanie z zamiennikiem zachowuje się na oryginalnej próbce, tak jak oryginalna próbka zachowuje się w populacji. Istnieją przykłady, w których zasada ta zawodzi. Ważne jest, aby wiedzieć, że bootstrap nie jest odpowiedzią na każdy problem statystyczny. Próbkowanie z zamiennikiem zachowuje się na oryginalnej próbce, tak jak oryginalna próbka zachowuje się na populacji. Istnieją przykłady, w których zasada ta zawodzi. Ważne jest, aby wiedzieć, że bootstrap nie jest odpowiedzią na każdy problem statystyczny. Próbkowanie z zamiennikiem zachowuje się na oryginalnej próbce, tak jak oryginalna próbka zachowuje się na populacji. Istnieją przykłady, w których zasada ta zawodzi. Ważne jest, aby wiedzieć, że bootstrap nie jest odpowiedzią na każdy problem statystyczny.
Oto linki Amazon do wszystkich książek, o których wspomniałem i nie tylko.
Statystyka matematyczna z ponownym próbkowaniem i R
Metody ładowania początkowego i ich zastosowanie
Metody ładowania początkowego: przewodnik dla praktyków i badaczy
Wprowadzenie do metod Bootstrap z aplikacjami do R.
Metody ponownego próbkowania danych zależnych
Randomizacja, metody Bootstrap i metody Monte Carlo w biologii
Wprowadzenie do Bootstrap
Praktyka towarzysząca statystyce biznesowej Rozdział 18: Metody ładowania początkowego i testy permutacyjne
Analiza danych poprzez ponowne próbkowanie: koncepcje i zastosowania
Jackknife, Bootstrap i inne plany ponownego próbkowania
Jackknife i Bootstrap
Testy hipotez na permutację, parametry i bootstrap
Rozszerzenie Bootstrap i Edgeworth
źródło
Za pomocą ładowania początkowego po prostu pobierasz próbki z tej samej grupy danych (dane z próbki), aby oszacować, jak dokładne są twoje oszacowania dotyczące całej populacji (co tak naprawdę jest w prawdziwym świecie).
Jeśli miałbyś pobrać jedną próbkę i dokonać szacunków na podstawie rzeczywistej populacji, możesz nie być w stanie oszacować, jak dokładne są twoje szacunki - mamy tylko jedną ocenę i nie zidentyfikowaliśmy, jak ta ocena różni się w zależności od różnych próbek, które mogliśmy napotkać.
W przypadku ładowania początkowego używamy tej głównej próbki do generowania wielu próbek. Na przykład, jeśli mierzymy zysk codziennie przez 1000 dni, możemy pobrać losowe próbki z tego zestawu. Możemy czerpać zysk z jednego losowego dnia, nagrywać go, uzyskiwać zysk z innego losowego dnia (który może się zdarzyć tego samego dnia co poprzednio - pobieranie próbek z zamianą), nagrywać go i tak dalej, aż otrzymamy „nowy” próbka 1000 dni (z oryginalnej próbki).
Ta „nowa” próbka nie jest identyczna z próbką oryginalną - rzeczywiście możemy wygenerować kilka „nowych” próbek, jak wyżej. Kiedy spojrzymy na zmiany średnich i oszacowań, jesteśmy w stanie odczytać, jak dokładne były pierwotne oszacowania.
Edytuj - w odpowiedzi na komentarz
„Nowsze” próbki nie są identyczne z pierwszą, a nowe oparte na nich szacunki będą się różnić. To symuluje powtarzające się próbki populacji. Różnice w szacunkach „nowszych” próbek generowanych przez pasek startowy rzucą światło na to, jak szacunki próbek będą się różnić w zależności od różnych próbek z populacji. W ten sposób możemy spróbować zmierzyć dokładność pierwotnych szacunków.
Oczywiście zamiast ładowania początkowego możesz pobrać kilka nowych próbek z populacji, ale może to być niemożliwe.
źródło
Zdaję sobie sprawę, że to stare pytanie z zaakceptowaną odpowiedzią, ale chciałbym przedstawić mój pogląd na metodę bootstrap. W żadnym wypadku nie jestem ekspertem (bardziej użytkownikiem statystyk, jako OP) i chętnie przyjmuję wszelkie poprawki lub komentarze.
Lubię postrzegać bootstrap jako uogólnienie metody jackknife. Powiedzmy, że masz próbkę S o wielkości 100 i oszacuj jakiś parametr za pomocą statystyki T (S). Teraz chcesz poznać przedział ufności dla tego oszacowania punktu. Jeśli nie masz modelu i wyrażenia analitycznego dla standardowego błędu, możesz usunąć jeden element z próbki, tworząc podpróbkę z elementem i usuniętym. Teraz możesz obliczyć T ( S i )Si T(Si) i uzyskać 100 nowych oszacowań parametru, na podstawie których możesz obliczyć np. Błąd standardowy i utworzyć przedział ufności. To jest metoda jackknife JK-1.
Zamiast tego możesz rozważyć wszystkie podzbiory rozmiaru 98 i otrzymać JK-2 (2 elementy usunięte) lub JK-3 itp.
Teraz bootstrap jest tylko losową wersją tego. Wykonując ponowne próbkowanie poprzez selekcję z zamiennikami, „usuniesz” losową liczbę elementów (prawdopodobnie żadnych) i „zamienisz” je na jedną (lub więcej) replik.
Zastępując replikami zestaw danych po ponownym próbkowaniu ma zawsze ten sam rozmiar. W przypadku scyzoryka możesz zapytać, jaki jest wpływ scyzoryka na próbki wielkości 99 zamiast 100, ale jeśli wielkość próbki jest „wystarczająco duża”, prawdopodobnie nie stanowi to problemu.
W jackknife nigdy nie miesza się delete-1 i delete-2 itd., Aby upewnić się, że oszacowane wartości pochodzą z próbek o tym samym rozmiarze.
Możesz również rozważyć podzielenie próbki o wielkości 100 na np. 10 próbek o rozmiarze 10. W niektórych aspektach teoretycznych byłoby to czystsze (niezależne podzbiory), ale zmniejszyło wielkość próbki (ze 100 do 10) do tego stopnia, że byłoby niepraktyczne (w większości skrzynie).
Można również rozważyć częściowo pokrywające się podzbiory określonego rozmiaru. Wszystko to odbywa się w sposób automatyczny, jednolity i losowy metodą bootstrap.
Ponadto metoda ładowania początkowego daje oszacowanie rozkładu próbkowania statystyki na podstawie empirycznego rozkładu oryginalnej próbki, dzięki czemu można analizować dalsze właściwości statystyki oprócz błędu standardowego.
źródło
Parafrazując Foxa , zacznę od stwierdzenia, że proces wielokrotnego ponownego próbkowania od zaobserwowanej próbki naśladuje proces pierwotnego pobierania próbek z całej populacji.
źródło
Skończone próbkowanie populacji aproksymuje rozkład w ten sam sposób, w jaki przybliża go histogram. Dzięki ponownemu próbkowaniu liczba poszczególnych pojemników jest zmieniana i otrzymujesz nowe przybliżenie. Wartości dużych liczb zmieniają się mniej niż wartości małych liczb zarówno w pierwotnej populacji, jak i w zbiorze próbkowanym. Ponieważ wyjaśniasz to laikowi, możesz argumentować, że w przypadku dużych liczb bin jest to w przybliżeniu pierwiastek kwadratowy liczby bin w obu przypadkach.
Jeśli znajdę rudych i innych na próbie , ponowne próbkowanie oszacuje fluktuację rudych jako , co jest jak założenie, że pierwotna populacja była naprawdę dystrybuowane80 100 √20 80 100 1:4(0.2×0.8)×100−−−−−−−−−−−−−√ 1:4 . Jeśli więc przybliżymy prawdziwe prawdopodobieństwo jako próbkowane, możemy uzyskać oszacowanie błędu próbkowania „wokół” tej wartości.
Myślę, że ważne jest, aby podkreślić, że bootstrap nie odkrywa „nowych” danych, to po prostu wygodny, nieparametryczny sposób przybliżonego określenia wahań między próbkami, jeśli prawdziwe prawdopodobieństwo jest podane przez próbkę.
źródło
Należy zauważyć, że w klasycznych statystykach wnioskowania jednostką teoretyczną, która łączy próbkę z populacją jako dobry estymator populacji, jest rozkład próbkowania (wszystkie możliwe próbki, które można pobrać z populacji). Metoda bootstrap polega na tworzeniu pewnego rodzaju rozkładu próbkowania (rozkład oparty na wielu próbkach). Oczywiście, jest to metoda największego prawdopodobieństwa, ale podstawowa logika nie różni się tak bardzo od tradycyjnej teorii prawdopodobieństwa leżącej u podstaw klasycznych statystyk opartych na rozkładzie normalnym.
źródło
Moja uwaga jest bardzo mała.
Bootstrap działa, ponieważ intensywnie obliczeniowo wykorzystuje główną przesłankę naszego programu badań.
Mówiąc ściślej, w statystyce lub biologii lub w większości nauk nie teoretycznych, badamy osoby, pobierając w ten sposób próbki.
Jednak z takich próbek chcemy wyciągać wnioski na temat innych osób, prezentując nam je w przyszłości lub na różnych próbkach.
Dzięki bootstrapowi, jednoznacznie opierając nasze modelowanie na poszczególnych komponentach naszej próbki, możemy lepiej (przy mniejszej liczbie założeń, zwykle) wnioskować i przewidywać dla innych osób.
źródło
Wyjaśniając początkującym, myślę, że warto wziąć konkretny przykład ...
Wyobraź sobie, że masz losową próbkę 9 pomiarów z pewnej populacji. Średnia z próby wynosi 60. Czy możemy być pewni, że średnia dla całej populacji wynosi również 60? Oczywiście nie dlatego, że małe próbki będą się różnić, więc oszacowanie 60 prawdopodobnie będzie niedokładne. Aby dowiedzieć się, ile takich próbek będzie się różnić, możemy przeprowadzić kilka eksperymentów - stosując metodę o nazwie bootstrapping.
Pierwsza liczba w próbie to 74, a druga 65, więc wyobraźmy sobie dużą populację „udawaną”, składającą się z jednej dziewiątej 74, jednej dziewiątej 65 i tak dalej. Najłatwiejszym sposobem na pobranie losowej próbki z tej populacji jest pobranie losowej liczby z próbki dziewięciu, a następnie zastąpienie jej, aby uzyskać oryginalną próbkę dziewięciu i wybrać kolejną losową próbkę, i tak dalej, aż uzyskasz „resample” z 9. Gdy to zrobiłem, 74 wcale się nie pojawiło, ale niektóre inne liczby pojawiły się dwukrotnie, a średnia wyniosła 54,4. (Jest to ustawione w arkuszu kalkulacyjnym pod adresem http://woodm.myweb.port.ac.uk/SL/resample.xlsx - kliknij kartę ładowania początkowego u dołu ekranu.)
Kiedy wziąłem 1000 próbek w ten sposób, ich średnie wahały się od 44 do 80, z 95% między 48 a 72. Co sugeruje, że wystąpił błąd do 16-20 jednostek (44 to 16 poniżej udawanej średniej populacji wynoszącej 60, 80 to 20 jednostek powyżej) przy użyciu próbek o rozmiarze 9 w celu oszacowania średniej populacji. i że możemy być w 95% pewni, że błąd wyniesie 12 lub mniej. Możemy więc być w 95% pewni, że średnia populacji będzie wynosić między 48 a 72.
Istnieje tutaj kilka założeń, z których oczywistym jest założenie, że próba daje użyteczny obraz populacji - doświadczenie pokazuje, że ogólnie działa dobrze, pod warunkiem, że próbka jest dość duża (9 jest trochę mała, ale ułatwia zobacz co się dzieje). Arkusz kalkulacyjny na stronie http://woodm.myweb.port.ac.uk/SL/resample.xlsx pozwala zobaczyć poszczególne próbki, wydrukować histogramy 1000 próbek, eksperymentować z większymi próbkami itp. W artykule znajduje się bardziej szczegółowe wyjaśnienie na https://arxiv.org/abs/1803.06214 .
źródło