Funkcja prawdopodobieństwa jest definiowana jako prawdopodobieństwo zdarzenia E (zbiór danych x ) jako funkcja parametrów modelu θ
L(θ;x)∝P(Event E;θ)=P(observing x;θ).
Dlatego nie ma założenia niezależności obserwacji. W klasycznym podejściu nie ma definicji niezależności parametrów, ponieważ nie są to zmienne losowe; niektórymi powiązanymi pojęciami mogą być identyfikowalność , ortogonalność parametrów i niezależność estymatorów maksymalnego prawdopodobieństwa (które są zmiennymi losowymi).
Kilka przykładów,
(1). Dyskretna obudowa . jest próbką (niezależny) obserwacje w dyskretnych P ( obserwując x j ; θ ) > 0 , wtedyx=(x1,...,xn)P(observing xj;θ)>0
L(θ;x)∝∏j=1nP(observing xj;θ).
W szczególności, jeśli , przy znanym N , mamy toxj∼Binomial(N,θ)N
L(θ;x)∝∏j=1nθxj(1−θ)N−xj.
(2). Ciągłe zbliżenie . Niech jest próbką z ciągłej zmiennej losowej X , o rozkładzie F i gęstość f z błędu pomiaru ε , to jest, można zaobserwować zestawy ( x J - ε , x j + ϵ ) . Następniex=(x1,...,xn)XFfϵ(xj−ϵ,xj+ϵ)
L(θ;x)∝∏j=1nP[observing (xj−ϵ,xj+ϵ);θ]=∏j=1n[F(xj+ϵ;θ)−F(xj−ϵ;θ)]
Gdy jest małe, można to aproksymować (używając twierdzenia o wartości średniej) oϵ
L(θ;x)∝∏j=1nf(xj;θ)
Na przykład w normalnym przypadku, spójrz na to .
(3). Model zależny i Markowa . Załóżmy, że to zestaw może obserwacji i zależnych pozwalają F jest wspólną gęstości X , a następniex=(x1,...,xn)fx
L(θ;x)∝f(x;θ).
If additionally the Markov property is satisfied, then
L(θ;x)∝f(x;θ)=f(x1;θ)∏j=1n−1f(xj+1|xj;θ).
Take also a look at this.
(+1) Very good question.
Minor thing, MLE stands for maximum likelihood estimate (not multiple), which means that you just maximize the likelihood. This does not specify that the likelihood has to be produced by IID sampling.
If the dependence of the sampling can be written in the statistical model, you just write the likelihood accordingly and maximize it as usual.
The one case worth mentioning when you do not assume dependence is that of the multivariate Gaussian sampling (in time series analysis for example). The dependence between two Gaussian variables can be modelled by their covariance term, which you incoroporate in the likelihood.
wherez is
This is not the product of the individual likelihoods. Still, you would maximize this with parameters(μ,σ,ρ) to get their MLE.
źródło
Of course, Gaussian ARMA models possess a likelihood, as their covariance function can be derived explicitly. This is basically an extension of gui11ame's answer to more than 2 observations. Minimal googling produces papers like this one where the likelihood is given in the general form.
Another, to an extent, more intriguing, class of examples is given by multilevel random effect models. If you have data of the form
źródło