Modele mieszanin gaussowskich (GMM) są atrakcyjne, ponieważ są łatwe do pracy zarówno w analityce, jak i w praktyce, i są w stanie modelować niektóre egzotyczne rozkłady bez zbytniej złożoności. Istnieje kilka właściwości analitycznych, których należy się spodziewać, które nie są ogólnie jasne. W szczególności:
- Powiedzmy, że mamy ciągły rozkład i znaleźliśmy mieszankę Gaussa N- składnik \ hat {P}, która jest zbliżona do P w całkowitej zmienności: \ delta (P, \ hat {P}) <\ varepsilon . Czy możemy związać D (P || \ hat {P}) w kategoriach \ epsilon ?P P δ ( P , P ) < ε D ( P | | P ) ε
- Jeśli chcemy obserwować przez niezależny szum addytywny (zarówno rzeczywisty, ciągły), a mamy GMM gdzie , więc ta wartość jest mała: tzn. Czy to prawda, że oszacowanie szumu do jest tak samo trudne, jak oszacowanie hałasu poprzez ?
- Czy można to zrobić w przypadku nieaddytywnych modeli hałasu, takich jak szum Poissona?
Mój (krótki) przegląd literatury do tej pory przedstawił bardzo dobrze zastosowane samouczki. Czy ktoś ma jakieś referencje, które rygorystycznie pokazują, w jakich warunkach jesteśmy uzasadnieni w stosowaniu modeli mieszanin?
Odpowiedzi:
W ekonometrii, gdzie kontekstem są rozkłady mieszanin współczynników w modelach logit, standardowe odniesienie to: MIESZANE MODELE MNL DLA DYSKRETNEJ ODPOWIEDZI DANIEL MCFADDEN I KENNETH TRAIN, DZIENNIK ZASTOSOWANEJ GOSPODARKI, J. Appl. Econ. 15: 447-470 (2000).
źródło
W odniesieniu do twoich pytań:
źródło
Oto częściowa odpowiedź.
Nie można tylko mieć nadzieję, że KL rozbieżność jest niewielka, jeśli wiesz, że „s ogony są ostatecznie z tej samej kolejności co ” s. To ogólnie nie jest prawda. Nietrudno zauważyć, że dla Cauchy to dla dowolnego ,P P P N inf P ∈ S n R ( P | | P ) = ∞D(P∥Q) Q P P n
Aby to powiedzieć, potrzeba więcej warunków naP
Nie. Obowiązuje ten sam przykład powyżej.
Nie wiem Jeśli mają skończoną średnią i wariancję, wówczas MMSE to i (proste wyprowadzenie tutaj ). Przy tych założeniach celem jest ustalenie, czyjest mały, gdy jest mały. Związane z.X,Y,X^,Y^ E[X|Y] E[X^|Y^] |EP[(EP[X|Y]−X)2]−EQ[(EQ[X|Y]−X)2]| TV(P,Q)
Nie byłem w stanie tego udowodnić ani ogólnie, ani używając dodatkowej struktury addytywnej, którą założyliśmy na P, Q, ani nie wymyśliłem żadnych kontrprzykładów.
To jest dwuznaczne. W kontekście poprzedniego pytania, jeśli stwierdzenie w tej odpowiedzi można ogólnie udowodnić, wówczas odpowiedź brzmi „tak”.
źródło