Niech będzie łącznym rozkładem dwóch zmiennych kategorialnych , z . Powiedzmy, że próbek pobrano z tego rozkładu, ale podano nam tylko liczby krańcowe, mianowicie dla :
Jaki jest estymator największej wiarygodności dla , biorąc uwagę ? Czy to jest znane? Wykonalne obliczeniowo? Czy istnieją inne uzasadnione podejścia do tego problemu inne niż ML?
maximum-entropy
Odpowiedzi:
Tego rodzaju problem został zbadany w pracy „Augmentacja danych w wielostronnych tabelach nieprzewidzianych ze stałymi marginalnymi sumami” , Dobra i in. (2006). Niech oznacza parametry modelu, niech oznacza nieobserwowaną tablicę liczb całkowitych zliczeń dla każdej pary , i niech będzie zbiorem tablic liczb całkowitych, których liczby brzeżne są równe . Zatem prawdopodobieństwo zaobserwowania wartości krańcowych wynosi: gdzien ( x , y ) C ( S , T ) ( S , T ) ( S , T ) p ( S , T | θ ) = ∑ n ∈ C ( S , T ) p ( n | θ ) p ( n | θ ) n θ θθ n (x,y) C(S,T) (S,T) (S,T)
Inne podejście zastosowałoby metody wariacyjne do przybliżenia sumy nad . Więzy krańcowe można zakodować jako wykres czynnikowy, a wnioskowanie nad można przeprowadzić za pomocą propagacji oczekiwań. θn θ
Aby zobaczyć, dlaczego ten problem jest trudny i nie pozwala na trywialne rozwiązanie, rozważ przypadek . Przyjmując jako sumy wierszy i jako sumy kolumn, istnieją dwie możliwe tabele zliczeń: Dlatego funkcja prawdopodobieństwo, MLE dla tego problemu to co odpowiada założeniu tabeli po lewej stronie. Natomiast szacunek, który można uzyskać, zakładając niezależność, to:S=(1,2),T=(2,1) S T
źródło
Jak wskazał @Glen_b, nie jest to wystarczająco określone. Nie sądzę, abyś mógł wykorzystać maksymalne prawdopodobieństwo, chyba że możesz w pełni określić prawdopodobieństwo.
Jeśli byłeś gotów założyć niezależność, problem jest dość prosty (nawiasem mówiąc, myślę, że rozwiązaniem byłoby zaproponowane maksymalne rozwiązanie entropii). Jeśli nie chcesz ani nie jesteś w stanie narzucić dodatkowej struktury w swoim problemie i nadal chcesz jakieś przybliżenie wartości komórek, być może możesz użyć granic kopuły Frécheta – Hoeffdinga . Bez dodatkowych założeń nie sądzę, abyś mógł pójść dalej.
źródło
Edycja: Ta odpowiedź opiera się na niepoprawnym założeniu, że prawdopodobieństwo podanych wartości krańcowych jest tylko funkcją prawdopodobieństw krańcowych i . Nadal o tym myślę.px,y px=∑ypx,y py=∑xpx,y
Następują złe rzeczy:
Jak wspomniano w komentarzu, problem ze znalezieniem „estymatora największego prawdopodobieństwa dla polega na tym, że nie jest on unikalny. Rozważmy na przykład przypadek z binarnymi i marginesami . Dwa estymatorypx,y X,Y S1=S2=T1=T2=10
mają te same krańcowe prawdopodobieństwa i we wszystkich przypadkach, a zatem mają równe prawdopodobieństwo (oba z nich maksymalizują funkcję prawdopodobieństwa, jak można zweryfikować).px py
Rzeczywiście, bez względu na marginesy (o ile dwa z nich są niezerowe w każdym wymiarze), rozwiązanie maksymalnego prawdopodobieństwa nie jest unikalne. Udowodnię to w przypadku pliku binarnego. Niech będzie rozwiązaniem o najwyższym prawdopodobieństwie. Bez utraty ogólności załóżmy, że . Zatem ma te same marginesy, a zatem jest również rozwiązaniem o najwyższym prawdopodobieństwie.p=(acbd) 0<a≤d p=(0c+ab+ad−a)
Jeśli chcesz dodatkowo zastosować ograniczenie maksymalnej entropii, otrzymujesz unikalne rozwiązanie, które, jak stwierdził F. Tussell, jest rozwiązaniem, w którym są niezależne. Możesz to zobaczyć w następujący sposób:X,Y
Entropia rozkładu to ; maksymalizacja z zastrzeżeniem i (równoważnie, gdzie i ) stosując mnożników Lagrange podaje równanie:H(p)=−∑x,ypx,ylogpx,y ∑xpx,y=py ∑ypx,y=px g⃗ (p)=0 gx(p)=∑ypx,y−px gy(p)=∑xpx,y−py
Wszystkie gradienty każdego wynoszą 1, więc współdziała togk
plus oryginalne ograniczenia i . Możesz sprawdzić, czy jest to spełnione, gdy oraz , dając∑xpx,y=py ∑ypx,y=px e1/2−λx=px e1/2−λy=py
źródło