Estymator największego prawdopodobieństwa wspólnego rozkładu, biorąc pod uwagę tylko marginalne liczby

12

Niech będzie łącznym rozkładem dwóch zmiennych kategorialnych , z . Powiedzmy, że próbek pobrano z tego rozkładu, ale podano nam tylko liczby krańcowe, mianowicie dla :px,yX,Yx,y{1,,K}nj=1,,K

Sj=i=1nδ(Xi=l),Tj=i=1nδ(Yi=j),

Jaki jest estymator największej wiarygodności dla , biorąc uwagę ? Czy to jest znane? Wykonalne obliczeniowo? Czy istnieją inne uzasadnione podejścia do tego problemu inne niż ML?px,ySj,Tj

RS
źródło
2
Marginesy tak naprawdę nie zawierają informacji * o wspólnym rozkładzie (w rzeczy samej jest to punkt kopul). * lub przynajmniej prawie wcale - oczywiście marginesy zawierają co najmniej pewne informacje, ponieważ wewnętrzne liczby nie mogą przekraczać marginesów, w których występują. Czy masz na myśli konkretny wspólny rozkład? Dlaczego użyłeś tagu? Czy szukasz rozwiązania z maksymalną entropią? maximum-entropy
Glen_b
Nie znam się na kopulach. Czy mają również zastosowanie do przypadku kategorycznego? Co to znaczy - że każda wspólna dystrybucja z tymi samymi marżami miałaby takie samo prawdopodobieństwo? (Oznacziłem maksymalną entropię, ponieważ myślałem, że może być istotna.)
RS
Nie mamy nawet określonego modelu dystrybucji, więc tak naprawdę nie jesteśmy w stanie obliczyć . Jest tu wiele możliwości. Istnieją kopuły dla uporządkowanego przypadku kategorycznego (jeśli nie unikatowego), ale moim celem w podniesieniu go było uzasadnienie, dlaczego marginesy nie były ogólnie bardzo pouczające. Jeśli chodzi o przypadek liczenia kategorycznego, Fisher traktował marginesy jako mało informujące o połączeniu, skąd dokładny test Fisher-Irwin. Jeśli chcesz maksymalnej entropii, prawdopodobnie możesz uzyskać rozwiązanie maksymalnej entropii, ale nie wiem, że będzie to bardzo pouczające o ...P(x|θ)
Glen_b
(ctd) ... struktura. W obu przypadkach ME lub ML myślę, że najpierw będziesz potrzebować jakiegoś modelu, czy to będzie dwuwymiarowa wielomianowa, dwuwymiarowa hipergeometryczna, czy coś o większej strukturze. Zobacz to pytanie , w którym autor umieszcza odniesienie w odpowiedzi. To może być pomocne.
Glen_b
1
Miałem na myśli ogólny dwumianowy rozkład wielomianowy. Pytanie dotyczy przypadku, w którym podane są sumy rozkładu i widzimy próbki ze wspólnego rozkładu. Tutaj mamy sumy próbki. Myślę, że problem jest dobrze zdefiniowany w przypadku ML (rozwiązanie może nie być unikalne, ale nie wiem).
RS

Odpowiedzi:

4

Tego rodzaju problem został zbadany w pracy „Augmentacja danych w wielostronnych tabelach nieprzewidzianych ze stałymi marginalnymi sumami” , Dobra i in. (2006). Niech oznacza parametry modelu, niech oznacza nieobserwowaną tablicę liczb całkowitych zliczeń dla każdej pary , i niech będzie zbiorem tablic liczb całkowitych, których liczby brzeżne są równe . Zatem prawdopodobieństwo zaobserwowania wartości krańcowych wynosi: gdzien ( x , y ) C ( S , T ) ( S , T ) ( S , T ) p ( S , T | θ ) = nC ( S , T ) p ( n | θ ) p ( n | θ ) n θ θθn(x,y)C(S,T)(S,T)(S,T)

p(S,T|θ)=nC(S,T)p(n|θ)
p(n|θ)jest wielomianowym rozkładem próbkowania. Definiuje to funkcję prawdopodobieństwa dla ML, ale bezpośrednia ocena jest niemożliwa, z wyjątkiem małych problemów. Zalecane przez nich podejście to MCMC, w którym na przemian aktualizujesz i , próbkując z rozkładu propozycji i akceptując zmianę zgodnie ze współczynnikiem akceptacji Metropolis-Hastings. Można to dostosować, aby znaleźć przybliżone maksimum ponad przy użyciu Monte Carlo EM. nθθ

Inne podejście zastosowałoby metody wariacyjne do przybliżenia sumy nad . Więzy krańcowe można zakodować jako wykres czynnikowy, a wnioskowanie nad można przeprowadzić za pomocą propagacji oczekiwań. θnθ

Aby zobaczyć, dlaczego ten problem jest trudny i nie pozwala na trywialne rozwiązanie, rozważ przypadek . Przyjmując jako sumy wierszy i jako sumy kolumn, istnieją dwie możliwe tabele zliczeń: Dlatego funkcja prawdopodobieństwo, MLE dla tego problemu to co odpowiada założeniu tabeli po lewej stronie. Natomiast szacunek, który można uzyskać, zakładając niezależność, to: S=(1,2),T=(2,1)ST

[0120][1011]
p(S,T|θ)=3p12p212+6p11p21p22
p^x,y=[01/32/30]
qx,y=[1/32/3][2/31/3]=[2/91/94/92/9]
który ma mniejszą wartość prawdopodobieństwa.
Tom Minka
źródło
Czy nie jest możliwe uzyskanie rozwiązania analitycznego?
Ben Kuhn
Dzięki! Artykuł wydaje się trafny, choć wydaje się, że pochodzi z perspektywy bayesowskiej. Co z konkretnym przypadkiem, w którym jest w rzeczywistości samym rozkładem, a mianowicie , dla wszystkich par ? Czy podejrzewałby, że w tym przypadku byłoby rozwiązanie analityczne? θθ={θx,y}(x,y)
RS
Nie podejrzewałbym, że istnieje rozwiązanie analityczne. Dodałem przykład, aby to zilustrować.
Tom Minka,
Dzięki. Być może jest to prawda asymptotycznie? Zatem warunkowanie na sumy marginesów jest takie samo jak warunkowanie na rozkładach marginesów (po normalizacji), a prawdopodobieństwo logarytmiczne dla każdej nieobserwowanej tabeli liczb całkowitych jest proporcjonalne do jej entropii. Może więc coś z AEP?
RS
1

Jak wskazał @Glen_b, nie jest to wystarczająco określone. Nie sądzę, abyś mógł wykorzystać maksymalne prawdopodobieństwo, chyba że możesz w pełni określić prawdopodobieństwo.

Jeśli byłeś gotów założyć niezależność, problem jest dość prosty (nawiasem mówiąc, myślę, że rozwiązaniem byłoby zaproponowane maksymalne rozwiązanie entropii). Jeśli nie chcesz ani nie jesteś w stanie narzucić dodatkowej struktury w swoim problemie i nadal chcesz jakieś przybliżenie wartości komórek, być może możesz użyć granic kopuły Frécheta – Hoeffdinga . Bez dodatkowych założeń nie sądzę, abyś mógł pójść dalej.

F. Tusell
źródło
Prawdopodobieństwo tego może być wielomianowe. Dlaczego to nie wystarcza?
RS
Jak rozumiem, prawdopodobieństwo jest funkcją parametrów podanych danych. Tutaj nie masz wartości dla każdej komórki, tylko marginesy, dlatego nie masz jednej funkcji parametrów, którą możesz obliczyć, a co dopiero maksymalizować. Zasadniczo istnieje wiele konfiguracji komórek zgodnych z marginesami i każda daje inne prawdopodobieństwo.
F. Tusell,
1
Tak, ale w porządku. Parametry to , dane to marginesy. Nadal mogę obliczyć prawdopodobieństwo podanych marginesów - jest to suma wszystkich prawdopodobieństw konfiguracji komórek, które dają marginesy. To jedna funkcja, którą mogę zmaksymalizować. pp
RS
1

Edycja: Ta odpowiedź opiera się na niepoprawnym założeniu, że prawdopodobieństwo podanych wartości krańcowych jest tylko funkcją prawdopodobieństw krańcowych i . Nadal o tym myślę.px,ypx=ypx,ypy=xpx,y

Następują złe rzeczy:

Jak wspomniano w komentarzu, problem ze znalezieniem „estymatora największego prawdopodobieństwa dla polega na tym, że nie jest on unikalny. Rozważmy na przykład przypadek z binarnymi i marginesami . Dwa estymatorypx,yX,YS1=S2=T1=T2=10

p=(120012),p=(14141414)

mają te same krańcowe prawdopodobieństwa i we wszystkich przypadkach, a zatem mają równe prawdopodobieństwo (oba z nich maksymalizują funkcję prawdopodobieństwa, jak można zweryfikować).pxpy


Rzeczywiście, bez względu na marginesy (o ile dwa z nich są niezerowe w każdym wymiarze), rozwiązanie maksymalnego prawdopodobieństwa nie jest unikalne. Udowodnię to w przypadku pliku binarnego. Niech będzie rozwiązaniem o najwyższym prawdopodobieństwie. Bez utraty ogólności załóżmy, że . Zatem ma te same marginesy, a zatem jest również rozwiązaniem o najwyższym prawdopodobieństwie.p=(abcd)0<adp=(0b+ac+ada)


Jeśli chcesz dodatkowo zastosować ograniczenie maksymalnej entropii, otrzymujesz unikalne rozwiązanie, które, jak stwierdził F. Tussell, jest rozwiązaniem, w którym są niezależne. Możesz to zobaczyć w następujący sposób:X,Y

Entropia rozkładu to ; maksymalizacja z zastrzeżeniem i (równoważnie, gdzie i ) stosując mnożników Lagrange podaje równanie:H(p)=x,ypx,ylogpx,yxpx,y=pyypx,y=pxg(p)=0gx(p)=ypx,ypxgy(p)=xpx,ypy

H(p)=kXYλkgk(p)

Wszystkie gradienty każdego wynoszą 1, więc współdziała togk

1logpx,y=λx+λypx,y=e1λxλy

plus oryginalne ograniczenia i . Możesz sprawdzić, czy jest to spełnione, gdy oraz , dającxpx,y=pyypx,y=pxe1/2λx=pxe1/2λy=py

px,y=pxpy.
Ben Kuhn
źródło
W pierwszym przykładzie: podane są liczby krańcowe , a nie krańcowe prawdopodobieństwa. W opisanym przypadku prawdopodobieństwo dla lewego oznacza prawdopodobieństwo które wynosi . Dla prawej jest to , czyli . Nawet jeśli nie ma unikalnego rozwiązania, nie oznacza to, że nie możemy wskazać jakiegoś rozwiązania. Maksymalna entropia daje unikalne rozwiązanie, ale może nie być maksymalnego prawdopodobieństwa. p [ [ 10 , 0 ] , [ 0 , 10 ] ] 2 - 20 p 0 a 10 P r [ [ a , 10 - a ] , [ 10 - a , a ] ] 10 4 -S1=S2=T1=T2=10p[[10,0],[0,10]]220p0a10Pr[[a,10a],[10a,a]]10420
RS
Niepoprawnie obliczyłeś prawdopodobieństwa; na przykład zapomniałeś podać współczynniki dwumianowe. Ale masz rację, że dwie macierze dają różne wspólne rozkłady wartości krańcowych, nawet jeśli dają taki sam rozkład krańcowy liczb krańcowych. (Yikes!) Pomyślę o tym więcej.
Ben Kuhn