Wiem, że jest to dość gorący temat, na który nikt tak naprawdę nie jest w stanie udzielić prostej odpowiedzi. Niemniej jednak zastanawiam się, czy poniższe podejście nie byłoby przydatne.
Metoda ładowania początkowego jest użyteczna tylko wtedy, gdy twoja próbka odpowiada mniej więcej (dokładnie odczytać) tej samej dystrybucji, co pierwotna populacja. Aby mieć to pewność, należy odpowiednio zwiększyć wielkość próbki. Ale co jest wystarczająco duże?
Jeśli moje założenie jest poprawne, masz ten sam problem, gdy używasz twierdzenia o granicy środkowej do określenia średniej populacji. Tylko wtedy, gdy liczebność próby jest wystarczająco duża, możesz być pewien, że populacja średnich z próby jest normalnie rozmieszczona (wokół średniej populacji). Innymi słowy, twoje próbki muszą wystarczająco dobrze reprezentować populację (rozkład). Ale znowu, co jest wystarczająco duże?
W moim przypadku (procesy administracyjne: czas potrzebny na zakończenie zapotrzebowania a ilość żądań) mam populację o rozkładzie multimodalnym (wszystkie żądania zakończone w 2011 r.), Z czego jestem w 99% pewien, że jest jeszcze mniej zwykle rozłożone niż populacja (wszystkie wymagania, które są spełnione między dniem dzisiejszym a dniem w przeszłości, najlepiej ten przedział czasowy jest tak mały, jak to możliwe) Chcę zbadać.
Moja populacja z 2011 r. Nie ma wystarczającej liczby jednostek, aby wykonać próbek o wielkości próby . Wybieram wartość , przypuśćmy, że ( ). Teraz używam metody prób i błędów, aby określić dobry rozmiar próbki. Przyjmuję i sprawdzam, czy średnia populacji mojej próby jest normalnie rozłożona przy użyciu Kołmogorowa-Smirnowa. Jeśli tak, powtarzam te same kroki, ale z wielkością próbki , jeśli nie, powtarzam z wielkością próbki (itp.).n x 10 x = 10 n = 50 40 60
Po chwili dochodzę do wniosku, że jest absolutną minimalną wielkością próby, aby uzyskać mniej więcej dobrą reprezentację mojej populacji z 2011 roku. Ponieważ wiem, że moja populacja stanowiąca przedmiot zainteresowania (wszystkie wymagania, które zostały spełnione między dniem dzisiejszym a dniem w przeszłości) ma mniejszą wariancję, mogę bezpiecznie użyć próby o wielkości do uruchomienia. (Pośrednio, określa rozmiar mojego przedziału czasowego: czas potrzebny do ukończenia żądań).n = 45 n = 45 45
To w skrócie mój pomysł. Ale ponieważ nie jestem statystykiem, ale inżynierem, którego lekcje statystyki odbywały się w dniach poprzednich, nie mogę wykluczyć możliwości, że właśnie wygenerowałem dużo śmieci :-). Co wy myślicie Jeśli moja przesłanka ma sens, czy muszę wybrać większy niż lub mniejszy? W zależności od twoich odpowiedzi (czy muszę się czuć zawstydzony czy nie? :-) Zamieszczę jeszcze kilka pomysłów na dyskusję.10
odpowiedź na pierwszą odpowiedź Dziękuję za odpowiedź, Twoja odpowiedź była dla mnie bardzo przydatna, zwłaszcza linki do książek.
Obawiam się jednak, że przy próbie przekazania informacji całkowicie zaciemniłem swoje pytanie. Wiem, że próbki bootstrap przejmują rozkład próby populacji. Podążam za tobą całkowicie, ale ...
Oryginalna próbka populacji musi być wystarczająco duża, aby mieć umiarkowaną pewność, że rozkład próby populacji odpowiada (równy) „rzeczywistemu” rozkładowi populacji.
Jest to jedynie pomysł na określenie, jak duża powinna być pierwotna wielkość próby, aby mieć pewność, że rozkład próby odpowiada rozkładowi populacji.
Załóżmy, że masz bimodalny rozkład populacji, a jeden szczyt jest znacznie większy niż drugi. Jeśli twoja próbka ma wielkość 5, istnieje duża szansa, że wszystkie 5 jednostek ma wartość bardzo zbliżoną do dużego szczytu (szansa na losowe narysowanie jednostki jest największa). W takim przypadku rozkład próbek będzie wyglądał monomodalnie.
Przy wielkości próby wynoszącej sto szansa, że rozkład próbek jest również bimodalny, jest znacznie większa !! Problem z ładowaniem polega na tym, że masz tylko jedną próbkę (i budujesz dalej na tej próbce). Jeśli rozkład próbek naprawdę nie odpowiada rozkładowi populacji, masz kłopoty. Jest to po prostu pomysł, aby ryzyko wystąpienia „złego rozkładu próbki” było jak najniższe, bez konieczności zwiększania nieskończenie dużej wielkości próbki.
źródło
kasa Bayesian bootstrap sampling, który może poradzić sobie z małą wielkością próby Więcej informacji można znaleźć na stronie http://www.sumsar.net/blog/2015/04/the-non-parametric-bootstrap-as-a-bayesian-model/
źródło