Duży obraz:
Próbuję zrozumieć, jak zwiększenie wielkości próbki zwiększa moc eksperymentu. Slajdy mojego wykładowcy wyjaśniają to za pomocą obrazu 2 rozkładów normalnych, jednego dla hipotezy zerowej i drugiego dla hipotezy alternatywnej i progu decyzyjnego c między nimi. Twierdzą, że zwiększenie wielkości próby obniży wariancję, a tym samym spowoduje wyższą kurtozę, zmniejszając wspólny obszar pod krzywymi, a zatem prawdopodobieństwo błędu typu II.
Małe zdjęcie:
Nie rozumiem, jak większy rozmiar próbki obniży wariancję.
Zakładam, że po prostu obliczasz wariancję próbki i używasz jej jako parametru w rozkładzie normalnym.
Próbowałem:
- googling , ale większość akceptowanych odpowiedzi ma 0 głosów pozytywnych lub są jedynie przykładami
- myślenie : Zgodnie z prawem wielkich liczb każda wartość powinna ostatecznie ustabilizować się wokół prawdopodobnej wartości zgodnie z założonym rozkładem normalnym. Dlatego wariancja powinna zatem zbiegać się z wariancją naszego założonego rozkładu normalnego. Ale jaka jest wariancja tego rozkładu normalnego i czy jest to wartość minimalna, tj. Czy możemy być pewni, że nasza wariancja próbki spadnie do tej wartości?
Odpowiedzi:
Standardowe odchylenia średnich są mniejsze niż standardowe odchylenia poszczególnych obserwacji. [Tutaj przyjmuję niezależne, identycznie rozmieszczone obserwacje ze skończoną wariancją populacji; coś podobnego można powiedzieć, jeśli rozluźnisz pierwsze dwa warunki.]
Jest to konsekwencja prostego faktu, że odchylenie standardowe sumy dwóch zmiennych losowych jest mniejsze niż suma odchyleń standardowych (może być równe tylko wtedy, gdy dwie zmienne są doskonale skorelowane).
W rzeczywistości, gdy mamy do czynienia z nieskorelowanymi zmiennymi losowymi, możemy powiedzieć coś bardziej szczegółowego: wariancja sumy zmiennych jest sumą ich wariancji.
Oznacza to, że przy niezależnych (a nawet po prostu nieskorelowanych) zmianach z tym samym rozkładem, wariancja średniej jest wariancją osobnika podzieloną przez wielkość próby .n
Odpowiednio do niezależnych (lub nawet po prostu nieskorelowanych) wahań z tym samym rozkładem, odchylenie standardowe ich średniej jest odchyleniem standardowym danej osoby podzielonym przez pierwiastek kwadratowy z wielkości próby:n
W miarę dodawania kolejnych danych otrzymujesz coraz bardziej precyzyjne szacunki średnich grupowych. Podobny efekt dotyczy problemów z regresją.
Ponieważ możemy uzyskać bardziej precyzyjne oszacowania średnich poprzez zwiększenie wielkości próby, łatwiej jest nam rozróżnić środki, które są blisko siebie - nawet jeśli rozkłady dość się pokrywają, biorąc dużą liczbę próbek nadal możemy oszacować ich populacja oznacza wystarczająco dokładnie, aby powiedzieć, że nie są takie same.
źródło
Zmienność, która maleje wraz ze wzrostem N, jest zmiennością średniej próbki, często wyrażaną jako błąd standardowy. Lub, innymi słowy, rośnie pewność prawdziwości średniej próby.
Wyobraź sobie, że prowadzisz eksperyment, w którym zbierasz 3 mężczyzn i 3 kobiety i mierzysz ich wysokości. Czy jesteś pewien, że średnie wysokości każdej grupy są prawdziwym środkiem oddzielnych populacji mężczyzn i kobiet? Powinienem pomyśleć, że wcale nie byłbyś bardzo pewien. Możesz łatwo zebrać nowe próbki 3 i znaleźć nowe środki kilka cali od pierwszych. Kilka takich powtarzanych eksperymentów może nawet sprawić, że kobiety będą wyraźnie wyższe niż mężczyźni, ponieważ środki będą się tak bardzo różnić. Przy niskiej wartości N nie masz dużej pewności w średniej z próbki i różni się ona znacznie w zależności od próbki.
Teraz wyobraź sobie 10 000 obserwacji w każdej grupie. Trudno będzie znaleźć nowe próbki 10 000, które mają znacznie różniące się od siebie środki. Będą znacznie mniej zmienne, a będziesz bardziej pewny ich dokładności.
Jeśli możesz zaakceptować ten tok myślenia, możemy wprowadzić go do obliczeń statystyk jako błąd standardowy. Jak widać z jego równania, jest to oszacowanie parametru (który powinien stać się bardziej dokładny w miarę wzrostu n) podzielonego przez wartość, która zawsze wzrasta z n, . Ten błąd standardowy reprezentuje zmienność średnich lub efektów w twoich obliczeniach. Im jest mniejszy, tym silniejszy jest twój test statystyczny.σ n−−√
Oto mała symulacja w R, aby wykazać związek między błędem standardowym a odchyleniem standardowym średnich z wielu wielu powtórzeń początkowego eksperymentu. W tym przypadku zaczniemy od średniej populacji 100 i odchylenia standardowego 15.
Zwróć uwagę, że końcowe odchylenie standardowe jest zbliżone do teoretycznego błędu standardowego. Grając tutaj zmienną n, możesz zobaczyć, że miara zmienności będzie się zmniejszać wraz ze wzrostem n.
[Nawiasem mówiąc, kurtoza na wykresach tak naprawdę się nie zmienia (zakładając, że są to rozkłady normalne). Obniżenie wariancji nie zmienia kurtozy, ale rozkład będzie wyglądał na węższy. Jedynym sposobem na wizualne zbadanie zmian kurtozy jest umieszczenie rozkładów w tej samej skali.]
źródło
Jeśli chcesz wiedzieć, jaka jest średnia waga obywateli amerykańskich, w idealnym przypadku natychmiast poprosisz każdego obywatela, aby stanął na wadze i zebrał dane. Otrzymasz dokładną odpowiedź. Jest to bardzo trudne, więc może uda ci się nakłonić kilku obywateli do zwiększenia skali, obliczenia średniej i zorientowania się, jaka jest średnia populacji. Czy spodziewałbyś się, że średnia próby będzie dokładnie równa średniej populacji? Mam nadzieję, że nie.
Czy zgodziłbyś się, że gdybyś miał coraz więcej ludzi, w pewnym momencie zbliżylibyśmy się do liczby ludności? Powinniśmy, prawda? Ostatecznie większość ludzi, których możemy pozyskać, to cała populacja, a jej średnia jest tym, czego szukamy. To jest intuicja.
To był wyidealizowany eksperyment myślowy. W rzeczywistości są komplikacje. Dam ci dwa.
źródło
Uważam, że Prawo Dużych Liczb wyjaśnia, dlaczego wariancja (błąd standardowy) maleje wraz ze wzrostem wielkości próby. Artykuł Wikipedii na ten temat mówi:
W kategoriach centralnego twierdzenia granicznego:
Podczas losowania pojedynczej próby losowej, im większa jest próbka, tym bliższa jest średnia próbki w stosunku do średniej populacji (w powyższym cytacie pomyśl o „liczbie prób” jako o „wielkości próby”, więc każda „próba” jest obserwacją ). Dlatego podczas rysowania nieskończonej liczby losowych próbek wariancja rozkładu próbkowania będzie mniejsza, im większy będzie rozmiar każdej próbki.
Innymi słowy, kształt dzwonu będzie węższy, gdy każda próbka będzie duża, a nie mała, ponieważ w ten sposób każda średnia próbki będzie bliżej środka dzwonu.
źródło
Wraz ze wzrostem wielkości próbki rośnie wariancja próbki (różnica między obserwacjami), ale wariancja średniej próbki (błąd standardowy) maleje, a tym samym zwiększa się precyzja.
źródło