Czerpać próbki ze skończonej mieszanki normalnych rozkładów?

Po kilku krokach aktualizacji bayesowskiej pozostaję z tylnym rozkładem postaci mieszaniny rozkładów normalnych,Oznacza to, że parametr jest pobierany z rozkładu, którego plik PDF jest podany jako ważona mieszanina normalnych plików PDF i nie jest sumą normalnych wartości RV. Chciałbym narysować próbki aby wykorzystać je w przybliżeniu próbkowania tego tylnego. W praktyce suma nad może mieć dużą liczbę terminów, więc wybranie terminu według wag może być niepraktyczne, a następnie narysowanie

Par (θ | dane) = \sum_{ja = 1}^{k} w_{ja} N. (μ_{ja}, σ^{2)}) .

$\Pr(\theta| \text{data} ) = \sum_{i=1}^k w_i N(\mu_i, \sigma^2).$

θ

$\theta$

θ \sim Pr (θ | data)

$\theta\sim\Pr(\theta|\text{data})$

i

$i$

i

$i$

{w_{i}}

$\{w_i\}$

θ \sim N (μ_{i}, σ^{2})

$\theta\sim N(\mu_i, \sigma^2)$ . Czy istnieje skuteczny sposób pobierania próbek z tylnej części tego formularza?

monte-carlo probability Chris Granade
źródło

Czy rzeczywiście wypróbowałeś metodę wybierz, a następnie rzuć? Wyboru można dokonać dość szybko po przejściu kroków O (k).

dmckee --- były moderator kociak

Jeśli rozwiązanie Barrona jest naprawdę niepoprawne, a w rzeczywistości masz na myśli „model mieszanki”, czy mógłbyś użyć tego terminu?

Neil G

Neil G: Nie jestem statystykiem z zawodu, raczej fizykiem, który czasami musi korzystać ze statystyk. Jako taki nie znałem odpowiedniego terminu, aby opisać to, czego potrzebowałem. Mogę jednak kontynuować edycję pytania, aby było bardziej jasne, że pliki PDF są sumowane, a nie RV.

Chris Granade,

@ChrisGranade: Nie próbowałem cię zrzucić. Chciałem tylko upewnić się, że o to ci chodzi, i zasugerować edycję.

Neil G

Dlaczego niepraktyczne jest wybieranie na podstawie wag i próbki z rozkładu jednolitego na , a następnie próbki ? Jest to tylko umiarkowanie droższe niż próbkowanie pojedynczego rozkładu normalnego, koszt jest niezależny od liczby rozkładów mieszanych i nie zależy od normalności tych rozkładów.

i

$i$

{w_{i}}

$\{w_i\}$

[0, 1]

$[0,1]$

N (μ_{i}, σ^{2})

$N(\mu_i,\sigma^2)$

k

$k$

Jed Brown

Odpowiedzi:

Zasadniczo można wstępnie wybrać liczbę próbek do pobrania z każdej pod-dystrybucji, a następnie odwiedzić każdą pod-dystrybucję tylko raz i narysować niż liczbę punktów.

To jest

Znajdź zestaw losowy taki, że i uwzględniając wagi. $<n_1, n_2, \dots, n_k>$ $n = \sum_{i=1}^k n_i$

Wierzę, że robisz to, ~~rysując rozkład Poissona rozkład~~ wielomianowy (patrz komentarze) średniej dla każdego pod-rozkładu, a następnie normalizując sumę do . $w_i * n$ $n$

Praca tutaj to $\mathcal{O}(k) * \mathcal{O}(n)$

Więc zrób

for (i=1; i<=k; ++i)
   for (j=1; j<=n[i]; ++j)
      theta ~ N(mu[i],sigma[i])

Praca tutaj to $\mathcal{O}(n)$

Chociaż oznacza to, że nie otrzymujesz kolejności losowej. Jeśli wymagane jest losowe zamówienie, musisz potasować losowania (także duże ). $\mathcal{O}(n)$

Wygląda na to pierwszym krokiem jest dominują w czasie wykonywania i tej samej kolejności co algorytmu naiwnego, ale jeśli jesteś pewien, że wszystko można zbliżenie Poissona z rozkładów normalnych i przyspieszenia pierwszego kroku. $w_i * n \gg 1$

dmckee --- były kot moderator
źródło

Rozkład

nie jest rozkładem Poissona, jeśli

jest stały, ale rozkład dwumianowy.

n_{i}

$n_i$

n

$n$

Frédéric Grosshans

@ FrédéricGrosshans Uhm ... tutaj przyznam się do mojej niepokojącej słabości prawdopodobieństwa. Patrząc, myślę, że masz rację. Nie mam linku do wyrzucania dowolnych rozkładów dwumianowych, ale wikipedia ma pewne odniesienia . Istnieje również związek między Poissonem i Binomialem, który, jak twierdzę, był odpowiedzialny za moją niepewność. Tak, to jest bilet.

dmckee --- były moderator kociąt

@dmckee: Dobra odpowiedź na rysowanie z modelu mieszanego, z tym wyjątkiem, że powinien to być rozkład wielomianowy, a nie rozkład Poissona w kroku 1.

Neil G

Uwaga: Oryginalna wersja tego pytania dotyczyła „ważonej sumy rozkładów normalnych”, na którą może być przydatna następująca odpowiedź. Jednak po dłuższej dyskusji na temat tej odpowiedzi, odpowiedzi @Geoff i samego pytania stało się jasne, że tak naprawdę chodziło o próbkowanie „mieszanki normalnych rozkładów”, na które ta odpowiedź nie ma zastosowania.

Suma rozkładów normalnych jest rozkładem normalnym, więc można obliczyć parametry tego pojedynczego rozkładu, a następnie po prostu wyciągnąć z niego próbki. Jeśli nazwiemy ten rozkład , to: $N(\mu_{sum},\sigma_{sum}^2)$

μ_{s u m} = \sum_{ja = 1}^{k} w_{ja} μ_{ja}

$\mu_{sum} = \sum_{i=1}^k w_i\mu_i$

σ_{s u m}^{2)} = \sum_{ja = 1}^{k} w_{ja}^{2)} σ_{ja}^{2)}

$\sigma_{sum}^2=\sum_{i=1}^k w_i^2 \sigma_i^2$

Barron
źródło

Mówiąc krótko, Chris sumuje funkcje gęstości prawdopodobieństwa, a nie zmienne losowe.

Geoff Oxberry

Chris chce pliku PDF, który ma (przynajmniej w zasadzie) wiele nierówności. To znaczy, był sumą plików PDF, a nie pliku PDF sumy.

dmckee --- były moderator kociąt

X_{1} \sim N (μ_{1}, σ_{1}^{2})

$X_{1} \sim N(\mu_{1},\sigma_{1}^2)$

X_{2} \sim N (μ_{2}, σ_{2}^{2})

$X_{2} \sim N(\mu_{2}, \sigma_{2}^{2})$

X_{1} + X_{2} \sim N (μ_{1} + μ_{2}, σ_{1}^{2} + σ_{2}^{2})

$X_{1} + X_{2} \sim N(\mu_{1} + \mu_{2}, \sigma_{1}^{2} + \sigma_{2}^{2})$

P D F (X_{1} + X_{2}) \neq P D F (X_{1}) + P D F (X_{2})

$PDF(X_{1} + X_{2}) \neq PDF(X_{1}) + PDF(X_{2})$

@dmckee: to nie jest „ważona suma rozkładów normalnych”, to „mieszanina rozkładów normalnych”.

Neil G

Komentarze @Barron nie są uważane za istotną część strony. Zdecydowanie powinieneś edytować swoją odpowiedź, tak aby zawierała treść komentarzy, aby czytelnicy, którzy nie patrzą na komentarze, nie zostali wprowadzeni w błąd.

David Ketcheson

Aktualizacja : Ta odpowiedź jest niepoprawna, wynikająca z nieporozumień w terminologii (szczegółowe informacje zawiera poniższy łańcuch komentarzy); Pozostawiam to tylko jako drogowskaz, aby ludzie nie pisali ponownie tej odpowiedzi (oprócz Barrona). Nie głosuj w górę ani w dół.

$X_{1} \sim N(\mu_{1}, \sigma_{1}^{2})$ $X_{2} \sim N(\mu_{2}, \sigma_{2}^{2})$

X_{1} + X_{2} \sim N (μ_{1} + μ_{2}, σ_{1}^{2} + σ_{2}^{2}) .

$X_{1} + X_{2} \sim N(\mu_{1} + \mu_{2}, \sigma_{1}^{2} + \sigma_{2}^{2}).$

$w_{1} \in \mathbb{R}$

w_{1} X_{1} \sim N (w_{1} μ_{1}, w_{1}^{2} σ_{1}^{2}) .

$w_{1}X_{1} \sim N(w_{1}\mu_{1}, w_{1}^{2}\sigma_{1}^{2}).$

Zatem łącząc te dwa wyniki

P r (θ | d a t a) \sim N (\sum_{i = 1}^{k} w_{i} μ_{i}, \sum_{i = 1}^{k} w_{i}^{2} σ_{i}^{2}) .

$Pr(\theta | \rm{data}) \sim N\big(\sum_{i=1}^{k}w_{i}\mu_{i}, \sum_{i=1}^{k}w_{i}^{2}\sigma_{i}^{2}\big).$

W takim przypadku musisz pobrać próbki tylko z jednej dystrybucji, co powinno być znacznie łatwiejsze w obsłudze.

Geoff Oxberry
źródło

Jest to rozwiązanie innego problemu, który wynika z faktu, że pierwotna dystrybucja jest multimodalna, a twoja sugestia jest jednomodalna.

Chris Ferrie,

@ChrisFerrie: Wierzę ci, ale w oparciu o notację jestem zdezorientowany, dlaczego powyższy rozkład miałby być multimodalny, podczas gdy suma dwóch niezależnych zmiennych losowych Gaussa nie byłaby. Czego tu brakuje?

Geoff Oxberry

p (X_{1} + X_{2}) \neq p (X_{1}) + p (X_{2})

$p(X_1 + X_2)\ne p(X_1) + p(X_2)$

i

$i$

Ach, przeglądasz sumy plików PDF. Tak, to zupełnie inna bestia. Teraz, gdy uważniej przeczytałem pytanie, widzę, co mówisz, i zamierzam usunąć moją odpowiedź. Dzięki!

Geoff Oxberry

Cofnąłem poprzednio usuniętą odpowiedź tylko po to, aby służyć jako drogowskaz dla innych, aby nikt inny nie odpowiedział na to pytanie, jak ja i Barron. Proszę nie głosować w górę lub w dół mojej odpowiedzi.

Geoff Oxberry