Uczę się o ładowaniu jako sposobie szacowania wariancji przykładowej statystyki. Mam jedną podstawową wątpliwość.
Cytowanie z http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :
• Ile obserwacji powinniśmy przeskalować ponownie? Dobrą sugestią jest pierwotna wielkość próby.
Jak możemy ponownie próbkować tyle obserwacji, ile w oryginalnej próbce?
Jeśli mam próbkę o wielkości 100 i próbuję oszacować wariancję średniej. Jak mogę uzyskać wiele próbek ładowania początkowego o wielkości 100 z łącznej wielkości próbki 100? W tym przypadku możliwa byłaby tylko 1 próbka bootstrapu, która byłaby odpowiednikiem oryginalnej próbki, prawda?
Oczywiście nie rozumiem czegoś bardzo podstawowego. Rozumiem, że liczba od idealnych próbek bootstrapowych zawsze jest nieskończona, a do określenia liczby próbek bootstrapowych niezbędnych do moich danych Musiałbym badania zbieżności utrzymywanie mój wymaganą precyzję w umyśle.
Ale jestem naprawdę zdezorientowany co do wielkości każdej pojedynczej próbki bootstrap.
źródło
Odpowiedzi:
Bootstrap jest przeprowadzany przez pobieranie próbek z wymianą . Wydaje się, że termin „z zastępstwem” jest dla ciebie niejasny. Jak zauważył whuber , ilustracja pobierania próbek z wymianą znajduje się na str. 3 referatu, do którego się odwołujesz (reprodukowany poniżej).
(źródło: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )
Ogólna idea próbkowania z zamiennikiem polega na tym, że w każdym przypadku można próbkować wiele razy (zielony marmur na pierwszym zdjęciu powyżej; niebieskie i fioletowe kulki na ostatnim zdjęciu). Jeśli chcesz sobie wyobrazić ten proces, pomyśl o misce wypełnionej kolorowymi kulkami. Powiedz, że chcesz narysować pewną liczbę kulek z tej miski. Jeśli próbkowałeś bez wymiany, po prostu wyjmowałbyś kulki z miski i odłożył próbki na bok. Jeśli spróbowałeś z zamiennikiem, wówczas próbkowałbyś kulki jeden po drugim, wyjmując pojedynczy marmur z miski, zapisując jego kolor w swoim notatniku, a następnie zwracając go z powrotemdo miski. Tak więc przy pobieraniu próbek z wymianą ten sam marmur można próbkować wiele razy.
Dlatego podczas próbkowania bez zamiany można tylko próbkowaćn kulki z miski zawierające n kulki, podczas gdy w przypadku próbkowania z wymianą można próbkować dowolną liczbę kul (nawet większąn ) ze skończonej populacji. Jeśli próbkowałeśn poza n kulki bez wymiany uzyskasz dokładnie taką samą próbkę, ale w kolejności losowej. Jeśli próbkowałeśn poza n kulki z wymianą, za każdym razem możesz spróbować innej kombinacji kulek.
Jest(nk) sposoby pobierania próbek bez zamiany przypadków z populacji o wielkości i sposobów pobierania próbek z zastępowaniem. Jeśli chcesz przeczytać więcej o matematyce, możesz sprawdzić 2.1. Rozdział o kombinatoryce w internetowym podręczniku Wprowadzenie do prawdopodobieństwa autorstwa Hossein Pishro-Nik. Na stronie WolframMathWorld znajduje się także przydatny ściągawka .k n (n+k−1k)
źródło
Kiedy oryginalny rozmiar próbki jest zbyt duży i nie chcesz / nie możesz trenować modelu na pełnym zestawie danych, „dobra sugestia” nie jest tak dobra.
PS: Chciałem dodać to jako komentarz do pytania, ale nie mogę dodawać żadnych komentarzy ...
źródło