Czy MLE zawsze oznacza, że znamy plik PDF naszych danych, a EM oznacza, że nie?

Mam kilka prostych pytań koncepcyjnych, które chciałbym wyjaśnić w odniesieniu do MLE (oszacowanie maksymalnego prawdopodobieństwa) i jaki ma związek z EM (maksymalizacja oczekiwań).

Jak rozumiem, jeśli ktoś powie „Użyliśmy MLE”, czy to automatycznie oznacza, że ma wyraźny model pliku PDF swoich danych? Wydaje mi się, że odpowiedź na to pytanie brzmi „tak”. Innymi słowy, jeśli w dowolnym momencie ktoś powie „MLE”, należy zapytać go, jaki plik PDF zakłada. Czy to byłoby poprawne?

Wreszcie, jeśli chodzi o EM, rozumiem, że w EM tak naprawdę nie znamy - ani nie musimy wiedzieć - podstawowego pliku PDF naszych danych. To jest moje zrozumienie.

Dziękuję Ci.

estimation maximum-likelihood expectation-maximization Creatron
źródło

„M” w EM oznacza Maksymalizację ... prawdopodobieństwa. Aby zapisać prawdopodobieństwo, potrzebujemy pdf. EM jest sposobem na znalezienie MLE w obecności „nieobserwowalnych” w pewnym sensie (które są wypełniane w kroku E). Oznacza to, że do korzystania z EM potrzebny jest wyraźny model.

Glen_b

@Glen_b Dzięki Gleb_b. 1) czy poprawne byłoby stwierdzenie, że w EM, podobnie jak w MLE, zawsze zakładamy jakiś model pliku PDF danych? ”Oznacza to, że jeśli ktoś powie„ Użyliśmy MLE / EM ”, możemy uczciwie zapytać:„ Co Pliki PDF, które zakładałeś ". Czy to byłaby poprawna ocena? 2) Wreszcie, w odniesieniu do EM, uważam, że nieobserwowalne, o których mówisz, są prawdopodobieństwem określonych plików PDF tworzących mieszaninę, prawda? Z góry dziękuję.

Creatron

Należy pamiętać, że istnieją nieparametryczne metody największej wiarygodności. Spójrz Kaplan-Meier.

soakley,

Creatron - on (1) Należy pamiętać, że EM jest algorytmem do obliczania MLE, z którymi w innym przypadku trudno byłoby sobie poradzić. W obu przypadkach zadałbym nieco bardziej ogólne pytanie „jaki był twój model?”, Ponieważ jest całkiem możliwe, że model jest bardziej złożony niż jakiś pojedynczy plik pdf. On (2) Algorytm EM nie dotyczy tylko mieszanin; to jest bardziej ogólne niż to.

Glen_b

Odpowiedzi:

Metodę MLE można zastosować w przypadkach, gdy ktoś zna podstawową formę funkcjonalną pliku pdf (np. Jest to gaussowski, logarytmiczny normalny, wykładniczy lub cokolwiek innego), ale nie podstawowe parametry; np. nie znają wartości i w pliku pdf: $\mu$ $\sigma$ lub jakikolwiek inny typ pdf, który zakładają. Praca metodą MLE jest, aby wybrać najlepsze (czyli najbardziej prawdopodobnych) wartości dla nieznanych parametrów, ze względu na szczególne pomiary danychktóre faktycznie zaobserwowano. Tak więc, aby odpowiedzieć na pierwsze pytanie, tak, zawsze masz prawo zapytać kogoś, jakąformępdf przyjmują w celu oszacowania maksymalnego prawdopodobieństwa; w rzeczywistości szacunkowe wartości parametrów, które ci mówią, nie mają nawet znaczenia, chyba że najpierw przekażą ten kontekst.

fa (x | μ, σ) = \frac{1}{\sqrt{2) π σ^{2)}}} \exp [\frac{- (x - μ)^{2)}}{2) σ^{2)}}]

$f(x|\mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\left[\frac{-(x-\mu)^{2}}{2 \sigma^{2}}\right]$

x_{1}, x_{2}, x_{3}, . . .

$x_{1}, x_{2}, x_{3}, ...$

fa (x | {ZA}_{1}, . . ., {ZA}_{N.}, μ_{1}, . . ., μ_{N.}, σ_{1}, . . . σ_{N.}) = \sum_{k = 1}^{N.} \frac{{ZA}_{k}}{\sqrt{2) π σ_{k}^{2)}}} \exp [\frac{- (x - μ_{k})^{2)}}{2) σ_{k}^{2)}}]

$f(x|A_{1},...,A_{N},\mu_{1},...,\mu_{N}, \sigma_{1},...\sigma_{N}) = \sum_{k=1}^{N} \frac{A_{k}}{\sqrt{2\pi\sigma_{k}^{2}}} \exp\left[\frac{-(x-\mu_{k})^{2}}{2 \sigma_{k}^{2}}\right]$

A_{k}

$A_{k}$

N

$N$

x_{1}, x_{2}, x_{3}, . . .

$x_{1}, x_{2}, x_{3}, ...$

$N$ $N=1$ $A_{1}$ $\mu_{1}$ $\sigma_{1}$ $N=2$ $A_{1}$ $A_{2}$ $\mu_{1}$ $\mu_{2}$ $\sigma_{1}$ $\sigma_{2}$ $A_{1}$ $\mu_{1}$ $\sigma_{1}$ $N=1$ $N=2$

$N$ $N$

$N=1$ $N=2$ $N=3$

stachyra
źródło

\sum A_{k} = 1

$\sum A_k = 1$

N

$N$

N

$N$

\sum A_{k} = 1

$\sum A_{k} = 1$

N

$N$

N

$N$

N = 4

$N=4$

N = 5

$N=5$

Dziękuję Stachyra. Ostatnie pytanie, plik PDF naszej mieszanki danych (podany w twoim drugim równaniu złożonym z ważonej sumy plików PDF), NIE jest taki sam jak łączny plik PDF wszystkich próbek naszych danych, który jest produktem ich plików PDF, poprawne ? (Załóżmy, że próbki danych to IID).

Creatron,

Nie, wcale nie są - to dwie zupełnie różne rzeczy. Wspólny plik pdf, który opisujesz, brzmi bardziej podobnie do formy funkcji wiarygodności stosowanej w MLE. Pomocny może być tutaj podręcznik. W przypadku MLE podoba mi się rozdział 10 „Redukcji danych i analizy błędów w naukach fizycznych” Philipa R. Bevingtona i D. Keitha Robinsona lub rozdział 6.1 „Analizy danych statystycznych” autorstwa Glen Cowan. Dla konkretnego przykładu, jak wykonać jeden konkretny typ implementacji EM, podoba mi się to wyjaśnienie, sekcje od 2 do 5.

stachyra,

MLE wymaga znajomości przynajmniej rozkładów krańcowych. Używając MLE, zwykle szacujemy parametry rozkładu połączeń, przyjmując założenie idid, a następnie uwzględniając rozkład połączeń jako iloczyn marginesów, które znamy. Istnieją odmiany, ale taki jest pomysł w większości przypadków. Zatem MLE jest metodą parametryczną.

Algorytm EM to metoda maksymalizacji funkcji prawdopodobieństwa, które pojawiają się jako część algorytmu MLE. Jest często (zwykle?) Stosowany w rozwiązaniach numerycznych.

Ilekroć używamy MLE, potrzebujemy przynajmniej rozkładów krańcowych i pewnych założeń na temat tego, jak połączenie jest powiązane z marginesami (niezależność itp.). Dlatego obie metody opierają się na wiedzy o rozkładach.

Charles Pehlivanian
źródło

Dzięki @Charles ma to sens. Co to znaczy wtedy, gdy ludzie mówią o „nieparametrycznym MLE”. To zdanie nie ma sensu na pierwszy rzut oka. MLE zawsze szacuje parametr rozkładu, prawda?

Creatron

Mogą mówić o ELE (estymacja prawdopodobieństwa empirycznego). Nigdy tego nie użyłem; W razie potrzeby postaram się wyjaśnić. W przeciwnym razie nie jestem pewien.

Charles Pehlivanian,

Czy MLE zawsze oznacza, że ​​znamy plik PDF naszych danych, a EM oznacza, że ​​nie?

Odpowiedzi:

Czy MLE zawsze oznacza, że znamy plik PDF naszych danych, a EM oznacza, że nie?