Błąd standardowy dla średniej próbki dwumianowych zmiennych losowych

44

Załóżmy, że przeprowadzam eksperyment, który może mieć 2 wyniki i zakładam, że leżący u podstaw „prawdziwy” rozkład 2 wyników jest rozkładem dwumianowym o parametrach i : .p B i n o m i a l ( n , p )npBinomial(n,p)

Mogę obliczyć błąd standardowy, , z postaci wariancji : gdzie . Tak więc . Za standardowy błąd dostaję: , ale widziałem gdzieś, że . Co zrobiłem źle? Binomial(n,p)σ2X=npqq=1-pσX=SEX=σXnBinomial(n,p)

σX2=npq
q=1p SEX=σX=npq SEX=SEX=pqSEX=pqn
Szczery
źródło
Ten artykuł jest bardzo pomocny w zrozumieniu standardowego błędu średniego wpływowegopoints.com
Training/...
Z mojego google wynika, że ​​ściśle powiązany temat uzyskiwania przedziałów ufności dla rozkładu dwumianowego jest raczej niuansowy i skomplikowany. W szczególności wygląda na to, że przedziały ufności uzyskane z tej formuły, którymi byłyby „Wald Intervals” (patrz en.wikipedia.org/wiki/Binomial_proportion_confidence_interval ), są raczej źle zachowane i należy ich unikać. Aby uzyskać więcej informacji, zobacz jstor.org/stable/2676784?seq=1#metadata_info_tab_contents .
aquirdturtle,

Odpowiedzi:

58

Wygląda na to, że używasz dwa razy na dwa różne sposoby - zarówno jako wielkość próby, jak i liczbę prób bernoulli, które składają się na losową zmienną dwumianową; aby wyeliminować wszelkie dwuznaczności, użyję aby odnieść się do tego drugiego.knk

Jeśli masz niezależnych próbek z rozkładu , wariancja ich średniej próbki wynosiB i n o m i a l ( k , p )nBinomial(k,p)

var(1ni=1nXi)=1n2i=1nvar(Xi)=nvar(Xi)n2=var(Xi)n=kpqn

gdzie i to ta sama średnia. Wynika to późniejq=1pX¯

(1) , dla dowolnej zmiennej losowej, i dowolnej stałej .var(cX)=c2var(X)Xc

(2) wariancja sumy niezależnych zmiennych losowych jest równa sumie wariancji .

Standardowy błąd to pierwiastek kwadratowy wariancji: . W związku z tym,X¯kpqn

  • Gdy , otrzymujesz wskazaną formułę:k=npq

  • Kiedy , a zmienne dwumianowe są tylko próbami bernoulli , otrzymujesz wzór, który widziałeś gdzie indziej:k=1pqn

Makro
źródło
3
Gdy jest losową zmienną bernoulli , wtedy . Gdy ma dwumianową zmienną losową opartą na próbach z prawdopodobieństwem powodzenia , wtedyXvar(X)=pqXnpvar(X)=npq
Macro
2
Dzięki! Pozbyłeś się zamieszania. Przepraszam, że to było tak elementarne, wciąż się uczę :-)
Frank
6
Czy dla Franka jest jasne, że wykorzystujemy fakt, że dla dowolnej stałej c Var (cX) = c Var (x)? Ponieważ próbna ocena proporcji wynosi X / n, mamy Var (X / n) = Var (X) / n = npq / n = pq / n, a SEx jest pierwiastkiem kwadratowym z tego. Myślę, że dla wszystkich będzie to zrozumiałsze, jeśli przeliterujemy wszystkie kroki. 222
Michael Chernick
1
@MichaelChernick, wyjaśniłem szczegóły, o których wspomniałeś. Na podstawie opisu problemu doszedłem do wniosku, że Frank znał te fakty, ale masz rację, że dla przyszłych czytelników bardziej szczegółowe byłoby podanie szczegółów.
Makro
2
Sol Lago - W tym przypadku k = 1. Jeśli rzuciłeś monetą 50 razy i obliczyłeś liczbę sukcesów, a następnie powtórzyłeś eksperyment 50 razy, to k = n = 50. Rzut monetą daje 1 lub 0. Jest to rv Bernoulliego
B_Miner
9

Łatwo jest pomylić dwie rozkłady dwumianowe:

  • rozkład liczby sukcesów
  • rozkład odsetka sukcesów

npq to liczba sukcesów, podczas gdy npq / n = pq to stosunek sukcesów. Powoduje to różne standardowe formuły błędów.

Vlad
źródło
6

Możemy na to spojrzeć w następujący sposób:

Załóżmy, że przeprowadzamy eksperyment, w którym musimy rzucić obiektywną monetę razy. Ogólnym wynikiem eksperymentu jest które jest sumą poszczególnych rzutów (powiedzmy, głowa jako 1, a ogon jako 0). Tak więc dla tego eksperymentu , gdzie są wynikami poszczególnych rzutów.nYY=i=1nXiXi

Tutaj wynik każdego rzutu zgodny z rozkładem Bernoulliego, a ogólny wynik jest rozkładem dwumianowym.XiY

Cały eksperyment można traktować jako pojedynczą próbkę. Zatem, jeśli powtórzymy eksperyment, możemy uzyskać kolejną wartość , która utworzy kolejną próbkę. Wszystkie możliwe wartości będą stanowić całkowitą populację.YY

Wracając do pojedynczego rzutu monetą, który następuje po rozkładzie Bernoulliego, wariancję podaje , gdzie jest prawdopodobieństwem główki (sukcesu), a .pqpq=1p

Teraz, jeśli spojrzymy na wariancję , . Ale dla wszystkich indywidualnych eksperymentów Bernoulliego . Ponieważ istnieje rzutów lub badań Bernoulliego w doświadczeniu . Oznacza to, że ma wariancję .YV(Y)=V(Xi)=V(Xi)V(Xi)=pqnV(Y)=V(Xi)=npqYnpq

Teraz proporcja próbki jest podawana przez , co daje „proporcję sukcesu lub głów”. Tutaj jest stałą, ponieważ planujemy wziąć taką samą liczbę rzutów monetą dla wszystkich eksperymentów w populacji.p^=Ynn

Zatem .V(Yn)=(1n2)V(Y)=(1n2)(npq)=pq/n

Zatem standardowy błąd dla (przykładowa statystyka) top^pq/n

Tarashankar
źródło
Możesz używać składu lateksu, umieszczając dolary wokół swojej matematyki, np. $x$Daje . x
Silverfish,
Zauważ, że krok naprawdę zasługuje na uzasadnienie! V(Xi)=V(Xi)
Silverfish
W ostatniej dedukcji jest literówka, V (Y / n) = (1 / n ^ 2) * V (Y) = (1 / n ^ 2) * npq = pq / n powinno być poprawną dedukcją.
Tarashankar
Przepraszam, przedstawiłem to podczas pisania. Mam nadzieję, że teraz posortowane.
Silverfish,
1
To prawda, jeśli są nieskorelowane - w celu uzasadnienia tego wykorzystujemy fakt, że próby są założone jako niezależne. Xi
Silverfish,
2

Myślę, że istnieje również pewne zamieszanie w początkowym poście między błędem standardowym a odchyleniem standardowym. Odchylenie standardowe to sqrt wariancji rozkładu; błąd standardowy jest standardowym odchyleniem szacunkowej średniej próbki od tego rozkładu, tj. rozkładem średnich, które zaobserwowałbyś, gdybyś zrobił tę próbkę nieskończenie wiele razy. Ten pierwszy jest nieodłączną własnością dystrybucji; to drugie jest miarą jakości twojego oszacowania własności (średniej) rozkładu. Kiedy przeprowadzasz eksperyment z próbami N Bernouilli w celu oszacowania nieznanego prawdopodobieństwa sukcesu, niepewność twojego szacunkowego p = k / N po zobaczeniu k sukcesów jest standardowym błędem szacowanej proporcji, sqrt (pq / N) gdzie q = 1 -p. Prawdziwy rozkład charakteryzuje parametr P, prawdziwe prawdopodobieństwo sukcesu.

Stan
źródło