Jak przeprowadzić oszacowanie, gdy dostępne są tylko statystyki podsumowujące?

17

Wynika to częściowo z następującego pytania i następującej po nim dyskusji.

Załóżmy, że zaobserwowano próbkę iid, XiF(x,θ) . Celem jest oszacowanie θ . Ale oryginalna próbka nie jest dostępna. Co mamy w zamian pewne statystyki próbki T1,...,Tk . Załóżmy, że jest naprawiony. Jak oceniamy ? Jaki byłby w tym przypadku estymator maksymalnego prawdopodobieństwa?kθ

mpiktas
źródło
1
Jeśli Ti=f(Xi) dla znanej funkcji f a następnie można zapisać rozkład Ti a maksymalny estymator prawdopodobieństwa pochodzi w znany sposób. Ale nie sprecyzowane co to Ti ?
Stéphane Laurent,
3
Ja zainteresowany w przypadku gdy Ti=f(X1,...,Xn) dla znanej f . Właśnie to miałem na myśli, kiedy powiedziałem, że Ti są przykładowymi statystykami.
mpiktas,
Więc jaka jest różnica między Ti i Tj ?
Stéphane Laurent,
2
Niestety, to powinno być nie jeden f . Mamy kilka funkcji f I , które biorą jako próbki całego argumentem. fiffi
mpiktas,
Czy nie do tego przeznaczona jest maksymalna entropia?
prawdopodobieństwo prawdopodobieństwa

Odpowiedzi:

14

W takim przypadku można rozważyć przybliżenie prawdopodobieństwa ABC (aw konsekwencji MLE ) przy następujących założeniach / ograniczeniach:

Założenie. Oryginalny rozmiar próbki jest znany.n

Nie jest to dzikie założenie, biorąc pod uwagę, że jakość zbieżnych estymatorów pod względem zbieżności zależy od wielkości próby, dlatego nie można uzyskać arbitralnie dobrych estymatorów bez znajomości pierwotnej wielkości próby.

Chodzi o to, aby wygenerować próbkę z tylnego rozkładu a aby uzyskać przybliżenie MLE , można użyć ważnej techniki próbkowania jak w [1] lub rozważyć jednolity przed θ z poparciem na odpowiednim ustaw jak w [2] .θθ

Opiszę tę metodę w [2]. Przede wszystkim opiszę sampler ABC.

ABC Sampler

Niech będzie modelem, który generuje próbkę, gdzie θ Θ jest parametrem (do oszacowania), T jest statystyką (funkcją próbki), a T 0 jest statystyką obserwowaną, w żargonie ABC nazywa się to statystyką podsumowującą , ρ być metryką, π ( θ ) wcześniejszy rozkład na θ i ϵ > 0 tolerancją. Następnie próbnik odrzucania ABC można zaimplementować w następujący sposób.f(|θ)θΘTT0ρπ(θ)θϵ>0

  1. Próbka z π ( ) .θπ()
  2. Wygeneruj próbkę o rozmiarze n z modelu f ( | θ ) .xnf(|θ)
  3. Oblicz .T=T(x)
  4. Jeśli , zaakceptuj θ jako symulację z tyłu θ .ρ(T,T0)<ϵθθ

Algorytm ten generuje przybliżoną próbkę z rozkładu tylnego danej T ( x ) = T 0 . Dlatego najlepszym scenariuszem jest sytuacja, w której statystyka T jest wystarczająca, ale można zastosować inne statystyki. Bardziej szczegółowy opis tego znajduje się w tym dokumencie .θT(x)=T0T

Teraz, w ogólnym kontekście, jeśli ktoś użyje jednolitego przeora, który zawiera MLE w swoim wsparciu, wówczas Maximum a posteriori (MAP) pokrywa się z estymatorem Maximum Likelihood Estimator (MLE). Dlatego jeśli weźmiesz pod uwagę odpowiedni mundur wcześniej w Próbniku ABC, możesz wygenerować przybliżoną próbkę rozkładu tylnego, którego MAP pokrywa się z MLE. Pozostały krok polega na oszacowaniu tego trybu. Problem ten został omówiony w CV, na przykład w „Wydajnie obliczeniowym oszacowaniu trybu wielowymiarowego” .

Przykład zabawki

Niech jest próbką z N ( ľ , 1 ), i załóżmy, że tylko informacja dostępna z tej próbki jest ˉ x = 1(x1,...,xn)N(μ,1). Niechρbędzie miarą euklidesową wR,aϵ=0,001. Poniższy kod R pokazuje, jak uzyskać przybliżony MLE przy użyciu metod opisanych powyżej, stosując symulowaną próbkę on=100iμ=0, próbkę rozkładu tylnego o wielkości1000, jednolity wcześniej dlaμon(-0,3,0,3)oraz estymator gęstości jądra do oszacowania trybu próbki tylnej (MAP = MLE).x¯=1nj=1nxjρRϵ=0.001n=100μ=01000μ(0.3,0.3)

rm(list=ls())

# Simulated data
set.seed(1)
x = rnorm(100)

# Observed statistic
T0=mean(x)

# ABC Sampler using a uniform prior 

N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1

while(i<N+1){
u = runif(1,-0.3,0.3)
t.samp = rnorm(100,u,1)
Ts = mean(t.samp)
if(abs(Ts-T0)<eps){
ABCsamp[i]=u
i=i+1
print(i)
}
}

# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]

Jak widać, przy małej tolerancji uzyskujemy bardzo dobre przybliżenie MLE (które w tym trywialnym przykładzie można obliczyć ze statystyki, biorąc pod uwagę, że jest wystarczające). Należy zauważyć, że wybór statystyki podsumowującej ma kluczowe znaczenie. Kwantyle są zazwyczaj dobrym wyborem dla statystyki podsumowującej, ale nie wszystkie wybory dają dobre przybliżenie. Może się zdarzyć, że statystyki podsumowujące nie są zbyt pouczające, a zatem jakość aproksymacji może być niska, co jest dobrze znane w społeczności ABC.

Aktualizacja: Podobne podejście opublikowano niedawno w Fan et al. (2012) . Zobacz ten wpis, aby uzyskać dyskusję na papierze.

Społeczność
źródło
2
(+1) Za podanie poprawnego wyniku dotyczącego związku między MLE i MAP oraz za ostrzeżenie w ostatnim akapicie (między innymi). Aby uściślić to ostrzeżenie, to (lub dowolne!) Podejście zawiedzie nieszczęśliwie, jeśli dostępne statystyki są pomocnicze lub prawie takie. Można na przykład rozważyć przykład zabawki i . T=i(XiX¯)2
kardynał
1
+1 @prrastrastator Chciałem po prostu powiedzieć tak, możesz użyć wystarczających statystyk, jeśli są one dostępne dla twojego modelu. Ale twoje obszerne odpowiedzi wydają się to obejmować.
Michael R. Chernick
Jedno proste pytanie, wspominasz, że jednolity przeor musi zawierać MLE na jego poparcie. Ale MLE jest zmienną losową, która jest tylko stochastycznie ograniczona, tzn. Może znajdować się poza dowolnym ograniczonym zestawem z dodatnim prawdopodobieństwem.
mpiktas,
1
@mpiktas Dla konkretnej próbki musisz wybrać odpowiednie wsparcie munduru przed. To może się zmienić, jeśli zmienisz próbkę. Ważne jest, aby pamiętać, że nie jest to procedura bayesowska, po prostu używamy jej jako metody numerycznej, dlatego nie ma problemu z graniem z wyborem wcześniejszego. Im mniejsze wsparcie przeora, tym lepiej. Zwiększyłoby to szybkość samplera ABC, ale gdy twoje informacje są niejasne w tym sensie, że nie masz wiarygodnego pojęcia, gdzie znajduje się MLE, możesz potrzebować większego wsparcia (i zapłacisz cenę).
@mpiktas W przykładzie zabawki możesz na przykład użyć munduru z obsługą na lub munduru z obsługą na ( 0,1 , 0,15 ), uzyskując te same wyniki, ale z bardzo różnymi wskaźnikami akceptacji. Wybór tego wsparcia jest doraźny i nie można wymyślić wcześniej ogólnego przeznaczenia, biorąc pod uwagę, że MLE nie jest stochastycznie ograniczony, jak wspomniałeś. Ten wybór można uznać za dźwignię metody, którą należy dostosować w każdym konkretnym przypadku. (1000000,1000000)(0.1,0.15)
5

Wszystko zależy od tego, czy znany jest wspólny rozkład tych . Jeśli jest to np. ( T 1 , , T k ) g ( t 1 , , t k | θ , n ) , możesz przeprowadzić oszacowanie maksymalnego prawdopodobieństwa na podstawie tego wspólnego rozkładu. Pamiętaj, że jeśli ( T 1 , , T k ) nie jest wystarczające, prawie zawsze będzie to inne maksymalne prawdopodobieństwo niż w przypadku korzystania z surowych danych (Ti

(T1,,Tk)g(t1,,tk|θ,n)
(T1,,Tk)(X1,,Xn)

g

Xi'an
źródło
1

(Częstotliwość) estymator maksymalnego prawdopodobieństwa jest następujący:

Dla fa w rodzinie wykładniczej, a jeśli statystyki są wystarczające, prawdopodobieństwo maksymalizacji można zawsze zapisać w postaci:

l(θ|T.)=exp(-ψ(θ)+T.,ϕ(θ)),
gdzie , jest produktem skalarnym, T.jest wektorem suff. statystyki. iψ() i ϕ() są w sposób ciągły dwukrotnie różnicowalne.

The way you actually maximize the likelihood depends mostly on the possiblity to write the likelihood analytically in a tractable way. If this is possible you will be able to consider general optimisation algorithms (newton-raphson, simplex...). If you do not have a tractable likelihood, you may find it easier to compute a conditional expection as in the EM algorithm, which will also yield maximum likelihood estimates under rather affordable hypotheses.

Best

julien stirnemann
źródło
For problems I am interested in, analytical tractability is not possible.
mpiktas
The reason for non-tractability then conditions the optimization scheme. However, extensions of the EM usually allow to get arround most of these reasons. I don"t think I can be more specific in my suggestions without seeing the model itself
julien stirnemann