Czerpać próbki ze skończonej mieszanki normalnych rozkładów?

10

Po kilku krokach aktualizacji bayesowskiej pozostaję z tylnym rozkładem postaci mieszaniny rozkładów normalnych,Oznacza to, że parametr \ theta jest pobierany z rozkładu, którego plik PDF jest podany jako ważona mieszanina normalnych plików PDF i nie jest sumą normalnych wartości RV. Chciałbym narysować próbki \ theta \ sim \ Pr (\ theta | \ text {data}), aby wykorzystać je w przybliżeniu próbkowania tego tylnego. W praktyce suma nad i może mieć dużą liczbę terminów, więc wybranie terminu i według wag \ {w_i \} może być niepraktyczne, a następnie narysowanie \ theta \ sim N (\ mu_i, \ sigma ^ 2)

Par(θ|dane)=ja=1kwjaN.(μja,σ2)).
θθPar(θ|dane)jaja{wja}θN.(μja,σ2)). Czy istnieje skuteczny sposób pobierania próbek z tylnej części tego formularza?
Chris Granade
źródło
Czy rzeczywiście wypróbowałeś metodę wybierz, a następnie rzuć? Wyboru można dokonać dość szybko po przejściu kroków O (k).
dmckee --- były moderator kociak
1
Jeśli rozwiązanie Barrona jest naprawdę niepoprawne, a w rzeczywistości masz na myśli „model mieszanki”, czy mógłbyś użyć tego terminu?
Neil G
1
Neil G: Nie jestem statystykiem z zawodu, raczej fizykiem, który czasami musi korzystać ze statystyk. Jako taki nie znałem odpowiedniego terminu, aby opisać to, czego potrzebowałem. Mogę jednak kontynuować edycję pytania, aby było bardziej jasne, że pliki PDF są sumowane, a nie RV.
Chris Granade,
1
@ChrisGranade: Nie próbowałem cię zrzucić. Chciałem tylko upewnić się, że o to ci chodzi, i zasugerować edycję.
Neil G
1
Dlaczego niepraktyczne jest wybieranie na podstawie wag i próbki z rozkładu jednolitego na , a następnie próbki ? Jest to tylko umiarkowanie droższe niż próbkowanie pojedynczego rozkładu normalnego, koszt jest niezależny od liczby rozkładów mieszanych i nie zależy od normalności tych rozkładów. i{wi}N ( μ i , σ 2 ) k[0,1]N(μi,σ2)k
Jed Brown

Odpowiedzi:

6

Zasadniczo można wstępnie wybrać liczbę próbek do pobrania z każdej pod-dystrybucji, a następnie odwiedzić każdą pod-dystrybucję tylko raz i narysować niż liczbę punktów.

To jest

  1. Znajdź zestaw losowy taki, że i uwzględniając wagi.n = k i = 1 n i<n1,n2,,nk>n=i=1kni

    Wierzę, że robisz to, rysując rozkład Poissona rozkład wielomianowy (patrz komentarze) średniej dla każdego pod-rozkładu, a następnie normalizując sumę do .Nwinn

    Praca tutaj toO(k)O(n)

  2. Więc zrób

    for (i=1; i<=k; ++i)
       for (j=1; j<=n[i]; ++j)
          theta ~ N(mu[i],sigma[i])
    

    Praca tutaj toO(n)

Chociaż oznacza to, że nie otrzymujesz kolejności losowej. Jeśli wymagane jest losowe zamówienie, musisz potasować losowania (także duże ).O(n)

Wygląda na to pierwszym krokiem jest dominują w czasie wykonywania i tej samej kolejności co algorytmu naiwnego, ale jeśli jesteś pewien, że wszystko można zbliżenie Poissona z rozkładów normalnych i przyspieszenia pierwszego kroku.win1

dmckee --- były kot moderator
źródło
Rozkład nie jest rozkładem Poissona, jeśli n jest stały, ale rozkład dwumianowy. nin
Frédéric Grosshans
@ FrédéricGrosshans Uhm ... tutaj przyznam się do mojej niepokojącej słabości prawdopodobieństwa. Patrząc, myślę, że masz rację. Nie mam linku do wyrzucania dowolnych rozkładów dwumianowych, ale wikipedia ma pewne odniesienia . Istnieje również związek między Poissonem i Binomialem, który, jak twierdzę, był odpowiedzialny za moją niepewność. Tak, to jest bilet.
dmckee --- były moderator kociąt
1
@dmckee: Dobra odpowiedź na rysowanie z modelu mieszanego, z tym wyjątkiem, że powinien to być rozkład wielomianowy, a nie rozkład Poissona w kroku 1.
Neil G
3

Uwaga: Oryginalna wersja tego pytania dotyczyła „ważonej sumy rozkładów normalnych”, na którą może być przydatna następująca odpowiedź. Jednak po dłuższej dyskusji na temat tej odpowiedzi, odpowiedzi @Geoff i samego pytania stało się jasne, że tak naprawdę chodziło o próbkowanie „mieszanki normalnych rozkładów”, na które ta odpowiedź nie ma zastosowania.


Suma rozkładów normalnych jest rozkładem normalnym, więc można obliczyć parametry tego pojedynczego rozkładu, a następnie po prostu wyciągnąć z niego próbki. Jeśli nazwiemy ten rozkład , to:N.(μsum,σsum2))

μsum=ja=1kwjaμja

σsum2)=ja=1kwja2)σja2)
Barron
źródło
3
Mówiąc krótko, Chris sumuje funkcje gęstości prawdopodobieństwa, a nie zmienne losowe.
Geoff Oxberry
2
Chris chce pliku PDF, który ma (przynajmniej w zasadzie) wiele nierówności. To znaczy, był sumą plików PDF, a nie pliku PDF sumy.
dmckee --- były moderator kociąt
1
X1N(μ1,σ12)X2N(μ2,σ22)X1+X2N(μ1+μ2,σ12+σ22)PDF(X1+X2)PDF(X1)+PDF(X2)
2
@dmckee: to nie jest „ważona suma rozkładów normalnych”, to „mieszanina rozkładów normalnych”.
Neil G
2
Komentarze @Barron nie są uważane za istotną część strony. Zdecydowanie powinieneś edytować swoją odpowiedź, tak aby zawierała treść komentarzy, aby czytelnicy, którzy nie patrzą na komentarze, nie zostali wprowadzeni w błąd.
David Ketcheson
2

Aktualizacja : Ta odpowiedź jest niepoprawna, wynikająca z nieporozumień w terminologii (szczegółowe informacje zawiera poniższy łańcuch komentarzy); Pozostawiam to tylko jako drogowskaz, aby ludzie nie pisali ponownie tej odpowiedzi (oprócz Barrona). Nie głosuj w górę ani w dół.

X1N(μ1,σ12)X2N(μ2,σ22)

X1+X2N(μ1+μ2,σ12+σ22).

w1R

w1X1N(w1μ1,w12σ12).

Zatem łącząc te dwa wyniki

Pr(θ|data)N(i=1kwiμi,i=1kwi2σi2).

W takim przypadku musisz pobrać próbki tylko z jednej dystrybucji, co powinno być znacznie łatwiejsze w obsłudze.

Geoff Oxberry
źródło
2
Jest to rozwiązanie innego problemu, który wynika z faktu, że pierwotna dystrybucja jest multimodalna, a twoja sugestia jest jednomodalna.
Chris Ferrie,
@ChrisFerrie: Wierzę ci, ale w oparciu o notację jestem zdezorientowany, dlaczego powyższy rozkład miałby być multimodalny, podczas gdy suma dwóch niezależnych zmiennych losowych Gaussa nie byłaby. Czego tu brakuje?
Geoff Oxberry
p(X1+X2)p(X1)+p(X2)i
Ach, przeglądasz sumy plików PDF. Tak, to zupełnie inna bestia. Teraz, gdy uważniej przeczytałem pytanie, widzę, co mówisz, i zamierzam usunąć moją odpowiedź. Dzięki!
Geoff Oxberry
Cofnąłem poprzednio usuniętą odpowiedź tylko po to, aby służyć jako drogowskaz dla innych, aby nikt inny nie odpowiedział na to pytanie, jak ja i Barron. Proszę nie głosować w górę lub w dół mojej odpowiedzi.
Geoff Oxberry