Dlaczego mieszanka dwóch normalnie rozłożonych zmiennych jest bimodalna tylko wtedy, gdy ich średnie różnią się co najmniej dwa razy częściej niż standardowe odchylenie standardowe?

28

Pod mieszaniną dwóch normalnych rozkładów:

https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distribution

„Mieszanina dwóch rozkładów normalnych ma do oszacowania pięć parametrów: dwa średnie, dwie wariancje i parametr mieszania. Mieszanina dwóch rozkładów normalnych z jednakowymi odchyleniami standardowymi jest bimodalna tylko wtedy, gdy ich średnie różnią się co najmniej dwukrotnie wspólnym odchyleniem standardowym . ”

Szukam pochodnej lub intuicyjnego wyjaśnienia, dlaczego tak jest. Uważam, że można to wyjaśnić w formie testu t dwóch próbek:

μ1μ2σp

gdzie σp jest zbiorczym odchyleniem standardowym.

M. Waz
źródło
1
intuicja jest taka, że ​​jeśli środki są zbyt blisko, to będzie zbyt duże nakładanie się masy 2 gęstości, więc różnica średnich nie będzie widoczna, ponieważ różnica zostanie po prostu uchwycona przez masę dwóch gęstość. Jeśli dwa środki są wystarczająco różne, wówczas masy dwóch gęstości nie będą się na siebie nakładały, a różnica w środkach będzie zauważalna. Ale chciałbym zobaczyć matematyczny dowód na to. To ciekawe stwierdzenie. Nigdy wcześniej tego nie widziałem.
mlofton
2
Bardziej formalnie, dla mieszaniny 50:50 dwóch rozkładów normalnych o tym samym SD jeśli zapiszesz gęstość f ( x ) = 0,5 g 1 ( x ) + 0,5 g 2 ( x ) w pełnej postaci pokazującej parametry, zobaczymy, że jego druga pochodna zmienia znak w punkcie środkowym między dwoma średnimi, gdy odległość między średnimi wzrasta od poniżej 2 σ do powyżej. σ,f(x)=0.5g1(x)+0.5g2(x)2σ
BruceET
1
Zobacz „Rayleigh Criterion”, en.wikipedia.org/wiki/Angular_resolution#Explanation
Carl Witthoft

Odpowiedzi:

53

Ta figura z papieru, do którego link znajduje się w tym artykule wiki, stanowi dobrą ilustrację: wprowadź opis zdjęcia tutaj

Dostarczony przez nich dowód opiera się na fakcie, że rozkłady normalne są wklęsłe w granicach jednej średniej SD (SD jest punktem przegięcia normalnego pdf, gdzie przechodzi od wklęsłego do wypukłego). Tak więc, jeśli dodasz dwa normalne pliki pdf razem (w równych proporcjach), tak długo, jak ich średnie różnią się o mniej niż dwa SD, suma pdf (tj. Mieszanina) będzie wklęsła w regionie między tymi dwoma środkami, a zatem globalne maksimum musi znajdować się dokładnie w punkcie między tymi dwoma środkami.

Odnośnik: Schilling, MF, Watkins, AE i Watkins, W. (2002). Czy bimodal wysokości człowieka? The American Statistician, 56 (3), 223–229. doi: 10.1198 / 00031300265

Ruben van Bergen
źródło
11
+1 To miły, niezapomniany argument.
whuber
2
Podpis postaci stanowi również dobrą ilustrację błędnej interpretacji podwiązania „fl” w „przegięciu” :-P
nekomatic
2
@Axeman: Dziękuję za dodanie tego odniesienia - ponieważ to trochę wybuchło, sam planowałem go dodać, ponieważ tak naprawdę tylko powtarzam ich argument i nie chcę za bardzo tego przypisywać.
Ruben van Bergen
14

Jest to przypadek, w którym zdjęcia mogą wprowadzać w błąd, ponieważ wynik ten jest specjalną cechą normalnych mieszanin: analog niekoniecznie obowiązuje w przypadku innych mieszanin, nawet gdy komponenty są symetrycznymi, nieimodalnymi rozkładami! Na przykład równa mieszanina dwóch rozkładów t Studenta oddzielonych nieco mniej niż dwa razy ich wspólne odchylenie standardowe będzie bimodalna. Aby uzyskać prawdziwy wgląd, musimy wykonać matematykę lub odwołać się do specjalnych właściwości rozkładów normalnych.


±μ, μ0,p, 0<p<1,

2πf(x;μ,p)=pexp((xμ)22)+(1p)exp((x+μ)22).

x<μx>μ,μxμ.fx

0=e2xμp(xμ)+(1p)(x+μ).

fe2xμ

f(x;μ,p)(1+x2μ2)xμ.

μ<x<μ,f(1μ2+x2).μ1,μ1

2μ,

Mieszanina rozkładów normalnych jest jednomodalna, ilekroć średnie są oddzielone nie więcej niż dwukrotnością wspólnego odchylenia standardowego.

Jest to logicznie równoważne stwierdzeniu w pytaniu.

Whuber
źródło
12

Komentarz z góry wkleił tutaj dla ciągłości:

f(x)=0.5g1(x)+0.5g2(x)

Komentarz ciąg dalszy:

σ=1.3σ,2σ,σ,

wprowadź opis zdjęcia tutaj

Kod R na rysunku:

par(mfrow=c(1,3))
  curve(dnorm(x, 0, 1)+dnorm(x,3,1), -3, 7, col="green3", 
    lwd=2,n=1001, ylab="PDF", main="3 SD: Dip")
  curve(dnorm(x, .5, 1)+dnorm(x,2.5,1), -4, 7, col="orange", 
    lwd=2, n=1001,ylab="PDF", main="2 SD: Flat")
  curve(dnorm(x, 1, 1)+dnorm(x,2,1), -4, 7, col="violet", 
    lwd=2, n=1001, ylab="PDF", main="1 SD: Peak")
par(mfrow=c(1,3))
BruceET
źródło
1
wszystkie odpowiedzi były świetne. dzięki.
mlofton
3
2/30.001.
1
0.1% fx0)
f(x0)f(x)0.001f(x0)  |xx0|0.333433,
0.0010.95832
f(x0)f(x)0.001  |xx0|0.47916.
Słuszne uwagi. W rzeczywistości to, co miałem na myśli w skrócie „mieszkanie”, było zerową drugą pochodną dokładnie w punkcie środkowym.
BruceET