Jaka jest wariancja ważonej mieszanki dwóch gaussów?

38

Powiedzieć, że mają dwa normalnych rozkładów A i B ze środkami i i wariancje i . Chcę wziąć ważoną mieszaninę tych dwóch rozkładów przy użyciu wag i gdzie i . Wiem, że średnia tej mieszaniny to .μAμBσAσBpq0p1q=1pμAB=(p×μA)+(q×μB)

Jaka byłaby ta wariancja?


Konkretnym przykładem byłoby, gdybym znał parametry rozkładu wysokości męskiej i żeńskiej. Gdybym miał pokój ludzi w 60% płci męskiej, mógłbym uzyskać oczekiwaną średnią wysokość dla całego pokoju, ale co z wariancją?

JoFrhwld
źródło
Terminologia: mieszanina ma po prostu średnią i wariancję; nie ma sensu kwalifikować ich jako „oczekiwanych”, chyba że sugerujesz, że i powinny być uważane za zmienne losowe. pq
whuber
Wiem, że mieszanina dwóch rozkładów gaussowskich jest możliwa do zidentyfikowania. Ale jeśli te dwie dystrybucje mają te same emany? Tj .: czy można zidentyfikować mieszaninę dwóch rozkładów normalnych o tych samych średnich wartościach i różnych odchyleniach standardowych? W tym kontekście są dokumenty? Z góry
1
Podobne pytanie z odpowiedziami (dotyczące również COVARIANCES) znajduje się tutaj: math.stackexchange.com/q/195911/96547
hplieninger

Odpowiedzi:

62

Wariancja jest drugim momentem minus kwadrat pierwszego momentu, więc wystarczy obliczyć momenty mieszanin.

Ogólnie biorąc, biorąc pod uwagę rozkłady z plikami PDF i stałymi (nieprzypadkowymi) wagami , PDF mieszanki tofipi

f(x)=ipifi(x),

z którego wynika bezpośrednio na dowolnej chwili tymk

μ(k)=Ef[xk]=ipiEfi[xk]=ipiμi(k).

I napisane dla momentu i dla momentu .μ(k)kthfμi(k)kthfi

Korzystając z tych wzorów, można zapisać wariancję

Var(f)=μ(2)(μ(1))2=ipiμi(2)(ipiμi(1))2.

Odpowiednio, jeśli wariancje są podane jako , to , umożliwiając zapisanie wariancji mieszaniny pod względem wariancji i środków jej składników jakfiσi2μi(2)=σi2+(μi(1))2f

Var(f)=ipi(σi2+(μi(1))2)(ipiμi(1))2=ipiσi2+ipi(μi(1))2(ipiμi(1))2.

Innymi słowy, jest to (ważona) średnia wariancja powiększona o średnią kwadratową średnią minus kwadrat średniej średniej. Ponieważ kwadratowanie jest funkcją wypukłą, Nierówność Jensena stwierdza, że ​​średnia kwadratowa średnia może być nie mniejsza niż kwadrat średniej średniej. To pozwala nam zrozumieć formułę, w której stwierdzono, że wariancja mieszaniny jest mieszaniną wariancji plus nieujemny termin uwzględniający (ważoną) dyspersję średnich.

W twoim przypadku wariancja jest

pAσA2+pBσB2+[pAμA2+pBμB2(pAμA+pBμB)2].

Możemy zinterpretować, że jest to ważona mieszanina dwóch wariancji, , plus (koniecznie dodatni) składnik korekcyjny uwzględniający przesunięcia od poszczególnych średnich w stosunku do ogólnej średniej mieszaniny.pAσA2+pBσB2

Przydatność tej wariancji w interpretacji danych, takich jak podana w pytaniu, jest wątpliwa, ponieważ rozkład mieszaniny nie będzie Normalny (i może znacznie od niego odstąpić, do tego stopnia, że ​​wykaże bimodalność).

Whuber
źródło
8
W szczególności, zauważając, że , twoje ostatnie wyrażenie upraszcza do . pA+pB=1σ2=μ(2)μ2=pAσA2+pBσB2+pApB(μAμB)2
Ilmari Karonen
2
Lub jeśli nakładają probabilistyczny wyjaśnienie gęstości mieszaniny (to jest zdarzenie z probabiity i warunkowe gęstość podano jest a uwarunkowane gęstość podane to ), a następnie var jest sumą średniej wariancji warunkowej plus wariancji średniej warunkowej. Ta ostatnia jest dyskretną RV o wartościach z prawdopodobieństwami iApAXAN(μA,σA2)XAc=BN(μB,σB2)(X)YμA,μBpqa twoje wyrażenie w nawiasach kwadratowych jest łatwo rozpoznawane jako . E[Y2](E[Y])2
Dilip Sarwate,
1
@Neodyme Z definicji wariancja jest drugim momentem minus średnia kwadratowa. Dlatego drugim momentem jest wariancja plus średnia kwadratowa.
whuber
1
@Neodyme użyj . E(X)=μ
whuber
1
@Kiran Chociaż w niektórych przypadkach mieszanina może wyglądać normalnie, nie będzie. Jednym ze sposobów, aby to sprawdzić, jest obliczenie nadmiaru kurtozy za pomocą podanych tu wzorów. Będzie niezerowy, chyba że wszystkie standardowe odchylenia są równe - w takim przypadku „mieszanina” nie jest tak naprawdę mieszaniną.
whuber