Czy można znaleźć połączone odchylenie standardowe?

32

Załóżmy, że mam 2 zestawy:

Zestaw A : liczba pozycji , ,n=10μ=2.4σ=0.8

Zestaw B : liczba pozycji , ,n=5μ=2σ=1.2

Mogę łatwo znaleźć połączoną średnią ( ), ale jak mam znaleźć połączone odchylenie standardowe?μ

kype
źródło

Odpowiedzi:

30

Tak więc, jeśli chcesz po prostu połączyć dwie z tych próbek w jedną, masz:

s1=1n1Σi=1n1(xiy¯1)2

s2=1n2Σi=1n2(yiy¯2)2

gdzie i są średnimi próbkami, a i są przykładowymi odchyleniami standardowymi.y¯1y¯2s1s2

Aby je dodać, masz:

s=1n1+n2Σi=1n1+n2(ziy¯)2

co nie jest takie proste, ponieważ nowa średnia różni się od i :y¯y¯1y¯2

y¯=1n1+n2Σi=1n1+n2zi=n1y¯1+n2y¯2n1+n2

Ostateczna formuła to:

s=n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2

W przypadku powszechnie stosowanej wersji odchylenia standardowego z poprawką Bessela („ mianownik ”) wyniki dla średnich są takie same, jak wcześniej, alen1

s=(n11)s12+(n21)s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n21

Możesz przeczytać więcej informacji tutaj: http://en.wikipedia.org/wiki/Standard_deviation

sashkello
źródło
1
Jeśli OP używa skorygowanej Bessela ( mianownik dla wariancji) wersji odchylenia standardowego próbki (jak robi to prawie każdy, kto o to pyta), ta odpowiedź nie da im dokładnie tego, czego szukają. n1
Glen_b
W takim przypadku ta sekcja rozwiązuje problem. (edytuj link do starej wersji Wikipedii, ponieważ została ona usunięta z nowej)
Glen_b -Reinstate Monica
@Glen_b Dobry połów. Czy możesz to zmienić w odpowiedzi, aby uczynić ją bardziej przydatną?
sashkello
Poszedłem do Wikipedii, aby znaleźć dowód, ale niestety tej formuły już nie ma. Chcesz opracować (dowód) lub ulepszyć Wikipedię? :)
Rauni Lillemets,
8

Dotyczy to oczywiście grup :K

s=k=1K(nk1)sk2+nk(y¯ky¯)2(k=1Knk)1
Ravi Varadhan
źródło
7
Jest to nieco krótkie jak na nasze standardy. Czy możesz powiedzieć coś więcej o tym, jak to się wywodzi i dlaczego jest to poprawna odpowiedź?
Sycorax mówi Przywróć Monikę
1

Miałem ten sam problem: mając odchylenie standardowe, średnie i rozmiary kilku podzbiorów z pustym przecięciem, obliczyć standardowe odchylenie sumy tych podzbiorów.

Lubię odpowiedź sashkello i Glen_b ♦ , ale chciałem znaleźć na to dowód. Zrobiłem to w ten sposób i zostawiam to tutaj na wypadek, gdyby było to pomocne dla kogokolwiek.


Dlatego celem jest przekonanie się, że rzeczywiście:

s=(n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2

Krok po kroku:

(n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2=(i=1n1(xiy1¯)2+i=1n2(yiy2¯)2+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2=(i=1n1((xiy1¯)2+(y¯1y¯)2)+i=1n2((yiy2¯)2+(y¯2y¯)2)n1+n2)1/2=(i=1n1(xi2+y¯2+2y1¯22xiy1¯2y1¯y¯)n1+n2+i=1n2(yi2+y¯2+2y2¯22yiy2¯2y2¯y¯)n1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)+2n1y1¯22y1¯i=1n1xin1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)+2n2y2¯22y2¯i=1n2yin1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)+2n1y1¯22y1¯n1y1¯n1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)+2n2y2¯22y2¯n2y2¯n1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)n1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)n1+n2)1/2

Teraz sztuczka polega na uświadomieniu sobie, że możemy zmienić kolejność sum: ponieważ każdy termin pojawia się razy, możemy ponownie wpisz licznik jako

2y¯j=1n1xjn1
n1
i=1n1(xi2+y¯22y¯xi),

i stąd kontynuacja łańcucha równości:

=(i=1n1(xiy¯)2n1+n2+i=1n2(yiy¯)2n1+n2)1/2=(i=1n1+n2(ziy¯)2n1+n2)1/2=s

Powiedziano, że istnieje prawdopodobnie prostszy sposób na zrobienie tego.

Wzór można rozszerzyć na podzestawów, jak podano wcześniej. Dowodem będzie indukcja liczby zestawów. Przypadek podstawowy został już udowodniony, a na etapie indukcyjnym należy zastosować do tego drugiego podobny łańcuch równości.k

iipr
źródło
Nie rozumiem, jak pytanie jest jasne. Czy zakłada się, że dwa zestawy danych pochodzą z tej samej dystrybucji? Czy w PO dostępne są rzeczywiste obserwacje, czy tylko przykładowe oszacowania średniej i odchylenia standardowego?
Michael R. Chernick
Tak, zakłada się, że pochodzą z tej samej dystrybucji. Obserwacje nie są dostępne, tylko średnia i standardowe odchylenie podzbiorów.
iipr
Dlaczego więc stosuje się formułę obejmującą indywidualne obserwacje?
Michael R. Chernick
Może moja odpowiedź nie jest jasna. Po prostu zamieszczam matematyczny dowód powyższej formuły, który pozwala obliczyć sze standardowych odchyleń, średnich i rozmiarów dwóch podzbiorów. We wzorze nie ma odniesienia do poszczególnych obserwacji. W dowodzie jest, ale to tylko dowód, i z mojego punktu widzenia, poprawny.
iipr