Dynamiczne obliczanie liczby próbek wymaganych do oszacowania średniej

9

Próbuję oszacować średnią mniej więcej rozkładu Gaussa za pomocą próbkowania. Nie mam wcześniejszej wiedzy na temat jego średniej lub wariancji. Każda próbka jest droga do uzyskania. Jak dynamicznie decydować, ile próbek potrzebuję, aby uzyskać określony poziom pewności / dokładności? Alternatywnie, skąd mam wiedzieć, kiedy mogę przestać pobierać próbki?

Wszystkie odpowiedzi na takie pytania, które potrafię znaleźć, wydają się zakładać pewną wiedzę na temat wariancji, ale muszę to również odkryć po drodze. Inne są nastawione na przeprowadzanie ankiet i nie jest dla mnie (początkujący jestem), jak to się uogólnia - moja średnia nie jest w / w [0,1] itd.

Myślę, że jest to prawdopodobnie proste pytanie ze znaną odpowiedzią, ale mój Google-fu mnie zawodzi. Pomocne byłoby nawet powiedzenie mi, czego szukać.

rev. Josh Bleecher Snyder
źródło
Czy jest jakiś powód, dla którego oznaczyłeś to jako CW? Pytanie wydaje się wystarczająco szczegółowe, aby umożliwić jedną prawidłową odpowiedź, a zatem nie powinno być CW.
1
@ josh w porządku. Byłem ciekawy twojego wyboru.
1
Google „próbkowanie adaptacyjne” i „próbkowanie sekwencyjne”. Jeśli nadal utkniesz, włącz słowo „Wald” jako słowo kluczowe, a następnie kontynuuj historycznie (tj. Spójrz na artykuły odnoszące się do pracy Wald'a na temat sekwencyjnego próbkowania, a następnie spójrz na dokumenty, które się do nich odnoszą itp.).
whuber
1
@Robby McKilliam: Ale jakich danych używasz? To pytanie powstaje, zanim jakiekolwiek dane zostaną zebrane. Jeśli kolekcjonujesz wartości pojedynczo i obliczasz CI po dodaniu każdego nowego do zbioru danych, nie możesz używać standardowych formuł dla przedziałów ze względu na skorelowane wielokrotne porównania. Dlatego potrzebujesz reguły zatrzymującej, która optymalizuje sumę ryzyka statystycznego twojego estymatora i kosztu pobrania każdej dodatkowej próbki.
whuber
1
@ whuber dzięki! Nadal trawię materiał, ale myślę, że właśnie tego szukam. Gdyby to była odpowiedź, zaakceptowałbym ją ...
Josh Bleecher Snyder

Odpowiedzi:

2

Musisz wyszukać „Bayesowskie projekty adaptacyjne”. Podstawowa idea jest następująca:

  1. Inicjujesz pierwszeństwo dla parametrów będących przedmiotem zainteresowania.

    Przed jakimkolwiek gromadzeniem danych twoje priorytety będą rozproszone. W miarę pojawiania się dodatkowych danych należy ponownie ustawić przedtem, aby był późniejszy, co odpowiada „wcześniejszemu + dane do tego momentu”.

  2. Zbieraj dane.

  3. Oblicz a posteriorę na podstawie danych + priory. Tylny jest następnie używany jako poprzedni w kroku 1, jeśli faktycznie zbierasz dodatkowe dane.

  4. Oceń, czy Twoje kryteria zatrzymania są spełnione

    Kryteria zatrzymania mogą obejmować coś w rodzaju 95% wiarygodnego przedziału czasu, który nie powinien być większy niż ±ϵjednostki dla parametrów będących przedmiotem zainteresowania. Można również mieć bardziej formalne funkcje straty związane z parametrami odsetek i obliczać oczekiwaną stratę w odniesieniu do rozkładu tylnego dla parametru odsetek.

Następnie powtarzaj kroki 1, 2 i 3, aż zostaną spełnione kryteria zatrzymania od kroku 4.

użytkownik 28
źródło
0

Zwykle chciałbyś, aby co najmniej 30 odwoływało się do twierdzenia o limicie centralnym (choć jest to nieco arbitralne). W przeciwieństwie do ankiet itp., Które są modelowane przy użyciu rozkładu dwumianowego, nie można wcześniej ustalić wielkości próbki, co gwarantuje poziom dokładności w procesie Gaussa - zależy to od otrzymanych resztek, które określają błąd standardowy.

Należy zauważyć, że jeśli masz solidną strategię próbkowania, możesz uzyskać znacznie dokładniejsze wyniki niż przy znacznie większym rozmiarze próby przy złej strategii.

James
źródło
3
Dlaczego trzeba wywoływać CLT podczas próbkowania ze znanego (lub zakładanego) rozkładu Gaussa? Średnia nawet jednej próbki będzie normalnie dystrybuowana!
whuber
Słuszna uwaga! Nie zrobił poprawnie RTQ.
James