Oszacowanie maksymalnego prawdopodobieństwa (MLE) w kategoriach laika

91

Czy ktoś mógłby mi szczegółowo wyjaśnić szacunek maksymalnego prawdopodobieństwa (MLE) w kategoriach laika? Chciałbym poznać podstawową koncepcję, zanim przejdę do matematycznego wyprowadzenia lub równania.

mathematical-statistics maximum-likelihood intuition definition philosophical StatsUser
źródło

9

Nie jest jasne, jakiej odpowiedzi szukasz. Czy wiesz na przykład, jakie jest prawdopodobieństwo? Jeśli nie, lepiej to najpierw dowiedzieć się.

Glen_b,

4

Ponadto uważam, że każda odpowiedź, która nie obejmuje matematyki na pewnym poziomie, będzie nieodpowiednia.

gregmacfarlane

1

Wypróbuj ten link . Ma dość dokładne wyjaśnienie dotyczące MLE, MAP, EM. Myślę, że obejmuje podstawowe pojęcie MLE w prostych słowach.

Nimish Kulkarni

2

Myślę, że ten zapewnia bardzo intuicyjne wyjaśnienie MLE. Powiedziałbym, że jeśli pojęcia są nadal niejasne, idealnie byłoby odświeżyć niektóre podstawowe statystyki.

KartikKannapur

75

Powiedz, że masz jakieś dane. Załóżmy, że chcesz założyć, że dane pochodzą z jakiejś dystrybucji - być może Gaussa. Istnieje nieskończona liczba różnych Gaussów, z których dane mogły pochodzić (co odpowiada kombinacji nieskończonej liczby średnich i wariancji, które może mieć rozkład Gaussa). MLE wybierze gaussowski (tj. Średnią i wariancję), który jest „najbardziej zgodny” z twoimi danymi (dokładne znaczenie spójności wyjaśniono poniżej).

Powiedzmy, że masz zestaw danych . Najbardziej spójny gaussowski, na podstawie którego te dane mogły pochodzić, ma średnią 3 i wariancję 16. Mógł zostać pobrany z innego Gaussa. Ale jedna ze średnią 3 i wariancją 16 jest najbardziej zgodna z danymi w następującym znaczeniu: prawdopodobieństwo otrzymania określonych wartości , które zaobserwowałeś, jest większe przy tym wyborze średniej i wariancji, niż w przypadku jakiegokolwiek innego wyboru. $y = \{-1, 3, 7\}$ $y$

Przejście do regresji: zamiast średniej jest stałą, średnia jest funkcją liniową danych, określoną przez równanie regresji. Powiedzmy, że masz dane takie jak wraz z wcześniej. Średnia tego Gaussa to teraz dopasowany model regresji , gdzie $x = \{ 2,4,10 \}$ $y$ $X'\hat\beta$ $\hat\beta =[-1.9,.9]$

Przejście do GLM: zastąp Gaussa innym rozkładem (z rodziny wykładniczej). Średnia jest teraz funkcją liniową danych, określoną przez równanie regresji, przekształconą przez funkcję link. Jest to , gdzie dla logit (z danymi dwumianowymi). $g(X'\beta)$ $g(x) = e^x/(1+e^x)$

użytkownik_ogólny
źródło

28

„ MLE wybierze Gaussa, który jest najbardziej prawdopodobny, biorąc pod uwagę twoje dane. ” Hmmm, czy tak naprawdę nie jest: MLE wybierze Gaussa, pod którym twoje dane są najbardziej prawdopodobne? Co nieco różni się od wybrania „najbardziej prawdopodobnego Gaussa” ... czy wybranie najbardziej prawdopodobnego Gaussa nie wymagałoby rozważenia wcześniejszych przekonań ?

Jake Westfall,

9

@ACD Nie sądzę, że jest to po prostu niekompletne, ale zapewnia właściwą intuicję. Na przykład nie widzę problemu z nie omawianiem specjalnych przypadków, takich jak funkcja prawdopodobieństwa, ma więcej niż jedno maksimum. Jednak różnica między rozkładem, który najprawdopodobniej wytworzy zaobserwowane dane, a najbardziej prawdopodobnym rozkładem, biorąc pod uwagę dane, jest bardzo fundamentalną różnicą między wnioskowaniem częstokrzyskim a bayesowskim. Więc jeśli to wytłumaczysz, po prostu tworzysz przeszkodę na przyszłość.

Erik,

6

Jasne, ale czy bardziej poprawne wyjaśnienie pojęciowe jest trudniejsze do zrozumienia niż to, które napisałeś? Nie wydaje mi się Myślę, że większość twoich odpowiedzi jest w porządku, ale zachęcam cię, dla potomności, do nieznacznej edycji niektórych sformułowań, aby uniknąć dyskusji na temat „najbardziej prawdopodobnego Gaussa” i wskazać, że to, czego chcemy bycie „prawdopodobnym” (w znaczeniu potocznym ) w ML nie jest hipotezą, ale danymi. Myślę, że może to być drobna, ale ważna zmiana w twojej skądinąd miłej odpowiedzi.

Jake Westfall,

7

@Max: Wielkie dzięki za to, że w końcu zdecydowaliśmy się na naprawę tej odpowiedzi! Wydaje mi się, że sensowne byłoby wyraźne napisanie tutaj dla przyszłych czytelników: krytyka wyrażona w wyżej ocenionych komentarzach Erika i Jake'a nie ma już zastosowania po zredagowaniu odpowiedzi.

ameba

7

Wystarczy wskoczyć: doceniam całą uwagę i ulepszenia poświęcone mojej odpowiedzi. Przepraszam, że początkowo wahałem się nad poprawkami (które są dobre) - niechętnie widziałem, jak prostota mojej odpowiedzi uległa erozji. W dużej mierze tak się nie stało.

generic_user

66

Szacowanie maksymalnego prawdopodobieństwa (MLE) to technika znajdowania najbardziej prawdopodobnej funkcji, która wyjaśnia obserwowane dane. Myślę, że matematyka jest konieczna, ale nie pozwól, aby cię przestraszyła!

Powiedzmy, że mamy zestaw punktów na płaszczyźnie i chcemy poznać parametry funkcji i które najprawdopodobniej pasują do danych (w tym przypadku znamy funkcję, ponieważ określiłem ją, aby ją utworzyć przykład, ale proszę o wyrozumiałość). $x,y$ $\beta$ $\sigma$

data   <- data.frame(x = runif(200, 1, 10))
data$y <- 0 + beta*data$x + rnorm(200, 0, sigma)
plot(data$x, data$y)

punkty danych

Aby wykonać MLE, musimy przyjąć założenia dotyczące formy funkcji. W modelu liniowym zakładamy, że punkty mają rozkład normalny (Gaussa) prawdopodobieństwa, ze średnią i wariancją : . Równanie tej funkcji gęstości prawdopodobieństwa jest następujące: $x\beta$ $\sigma^2$ $y = \mathcal{N}(x\beta, \sigma^2)$

\frac{1}{\sqrt{2 π σ^{2}}} \exp (- \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}})

$\frac{1}{\sqrt{2\pi\sigma^2}}\exp{\left(-\frac{(y_i-x_i\beta)^2}{2\sigma^2}\right)}$

Chcemy znaleźć parametry i które maksymalizują to prawdopodobieństwo dla wszystkich punktów . To jest funkcja „prawdopodobieństwa”, $\beta$ $\sigma$ $(x_i, y_i)$ $\mathcal{L}$

L = \prod_{i = 1}^{n} y_{i} = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} \exp (- \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}})

$\mathcal{L} = \prod_{i=1}^n y_i = \prod_{i=1}^n \dfrac{1}{\sqrt{2\pi\sigma^2}} \exp\Big({-\dfrac{(y_i - x_i\beta)^2}{2\sigma^2}}\Big)$ Z różnych powodów łatwiej jest korzystać z dziennika funkcji wiarygodności:

\log (L) = \sum_{i = 1}^{n} - \frac{n}{2} \log (2 π) - \frac{n}{2} \log (σ^{2}) - \frac{1}{2 σ^{2}} (y_{i} - x_{i} β)^{2}

$\log(\mathcal{L}) = \sum_{i = 1}^n-\frac{n}{2}\log(2\pi) -\frac{n}{2}\log(\sigma^2) - \frac{1}{2\sigma^2}(y_i - x_i\beta)^2$

Możemy to zakodować jako funkcję w R za pomocą . $\theta = (\beta,\sigma)$

linear.lik <- function(theta, y, X){
  n      <- nrow(X)
  k      <- ncol(X)
  beta   <- theta[1:k]
  sigma2 <- theta[k+1]^2
  e      <- y - X%*%beta
  logl   <- -.5*n*log(2*pi)-.5*n*log(sigma2) - ( (t(e) %*% e)/ (2*sigma2) )
  return(-logl)
}

Ta funkcja, przy różnych wartościach i , tworzy powierzchnię. $\beta$ $\sigma$

surface <- list()
k <- 0
for(beta in seq(0, 5, 0.1)){
  for(sigma in seq(0.1, 5, 0.1)){
    k <- k + 1
    logL <- linear.lik(theta = c(0, beta, sigma), y = data$y, X = cbind(1, data$x))
    surface[[k]] <- data.frame(beta = beta, sigma = sigma, logL = -logL)
  }
}
surface <- do.call(rbind, surface)
library(lattice)
wireframe(logL ~ beta*sigma, surface, shade = TRUE)

powierzchnia prawdopodobieństwa

Jak widać, gdzieś na tej powierzchni jest punkt maksymalny. Możemy znaleźć parametry określające ten punkt za pomocą wbudowanych poleceń optymalizacyjnych R. Jest to dość zbliżone do odkrycia prawdziwych parametrów $0, \beta = 2.7, \sigma = 1.3$

linear.MLE <- optim(fn=linear.lik, par=c(1,1,1), lower = c(-Inf, -Inf, 1e-8), 
                    upper = c(Inf, Inf, Inf), hessian=TRUE, 
                    y=data$y, X=cbind(1, data$x), method = "L-BFGS-B")
linear.MLE$par


## [1] -0.1303868  2.7286616  1.3446534

Zwykłe najmniejsze kwadraty to maksymalne prawdopodobieństwo dla modelu liniowego, więc ma sens, lmże dałoby nam te same odpowiedzi. (Zauważ, że służy do określania standardowych błędów). $\sigma^2$

summary(lm(y ~ x, data))

## 
## Call:
## lm(formula = y ~ x, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.3616 -0.9898  0.1345  0.9967  3.8364 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.13038    0.21298  -0.612    0.541    
## x            2.72866    0.03621  75.363   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.351 on 198 degrees of freedom
## Multiple R-squared:  0.9663, Adjusted R-squared:  0.9661 
## F-statistic:  5680 on 1 and 198 DF,  p-value: < 2.2e-16

gregmacfarlane
źródło

Dzięki @gregmacfarlane za tę miłą i przydatną odpowiedź. Drobna uwaga: czy nie powinniśmy najpierw zdefiniować wersji beta i sigma2 w wierszu kodu R data$y <- 0 + beta*data$x + rnorm(200, 0, sigma2) ? I jest 0 +przydatny?

emeryville,

1

Tak betai sigma2należy go zdefiniować, aby ten kod działał. Ukryłem je, abyśmy mogli „odkryć” parametry, które prawie zawsze są nieznane po uruchomieniu MLE.

gregmacfarlane,

Masz również rację, że 0 +nic tak naprawdę nic nie robi; Po prostu dołączyłem go, ponieważ modele regresji zwykle przechwytują. A jeśli MLE próbowałby zoptymalizować beta, sigma2 a alpha ja nie mogłem pokazać ładnej powierzchni (chyba że znasz pakiet R, który będzie

działał

2

@gregmacfarlane świetna odpowiedź i bardzo mi pomogła. Ale są pewne błędy w wariancji vs. odchylenie standardowe. Zobacz tutaj. stats.stackexchange.com/questions/267534/…

Haitao Du

2

@ hxd1011 Dziękujemy za zwrócenie uwagi na ten błąd; Poprawiłem błąd.

gregmacfarlane

28

Oszacowanie maksymalnego prawdopodobieństwa (ML) parametru to wartość tego parametru, przy której rzeczywiste obserwowane dane są najbardziej prawdopodobne w stosunku do wszelkich innych możliwych wartości parametru.

Chodzi o to, że istnieje dowolna liczba „prawdziwych” wartości parametrów, które mogłyby doprowadzić do faktycznie zaobserwowanych danych z pewnym niezerowym (choć być może małym) prawdopodobieństwem. Ale oszacowanie ML daje wartość parametru, która doprowadziłaby do twoich obserwowanych danych z najwyższym prawdopodobieństwem.

Nie należy tego mylić z wartością parametru, który najprawdopodobniej faktycznie wygenerował twoje dane!

Podoba mi się następujący fragment Sober (2008, s. 9–10) na temat tego rozróżnienia. W tym fragmencie mamy kilka obserwowanych danych oznaczony i hipotezy oznaczona . $O$ $H$

Musisz pamiętać, że „prawdopodobieństwo” jest terminem technicznym. Prawdopodobieństwo H, Pr (O | H) i prawdopodobieństwo późniejsze H, Pr (H | O) są różnymi wielkościami i mogą mieć różne wartości. Prawdopodobieństwo H to prawdopodobieństwo, że H przyznaje O, a nie prawdopodobieństwo, że O przyzna H. H. Załóżmy, że słyszysz hałas dochodzący z poddasza twojego domu. Rozważasz hipotezę, że kręgle są tam gremlinami. Prawdopodobieństwo tej hipotezy jest bardzo wysokie, ponieważ jeśli na strychu będą kręcone gremliny, prawdopodobnie będzie hałas. Ale na pewno nie uważasz, że hałas sprawia, że jest bardzo prawdopodobne, że są tam kręgle. W tym przykładzie Pr (O | H) jest wysoka, a Pr (H | O) jest niska. Hipoteza gremlinowa ma wysokie prawdopodobieństwo (w sensie technicznym), ale małe prawdopodobieństwo.

W odniesieniu do powyższego przykładu ML popiera hipotezę gremlinową. W tym konkretnym komicznym przykładzie jest to zdecydowanie zły wybór. Ale w wielu innych bardziej realistycznych przypadkach oszacowanie ML może być bardzo rozsądne.

Odniesienie

Sober, E. (2008). Dowody i ewolucja: logika nauki. Cambridge University Press.

Jake Westfall
źródło

8

Wydaje mi się, że jest to pierwsza odpowiedź, która jasno i prosto uwidacznia ten kluczowy punkt. Należy jednak zauważyć, że „tylko doprowadziłoby to do obserwowanych danych z najwyższym prawdopodobieństwem ”, gdyby dane były dyskretne (jak dane dwumianowe), ale „prowadziłoby do obserwowanych danych o największej gęstości połączeń ”, gdyby dane były ciągłe (jak normalne dane).

gung

6

Dzięki @gung. Zdaję sobie sprawę z wspomnianej przez ciebie techniki, ale byłem nieco zaniepokojony tym, że każda dyskusja na temat „wspólnych gęstości” byłaby nieco krótka dla „warunków laika” ...

Jake Westfall,

Zgadzam się z tobą i pomyślałem, że wiesz o tym. Pomyślałem, że o tym wspomnę, ponieważ pojawił się gdzie indziej w tym wątku.

gung

16

MLE to wartość parametru będącego przedmiotem zainteresowania, który maksymalizuje prawdopodobieństwo zaobserwowania zaobserwowanych danych. Innymi słowy, to wartość parametru sprawia, że obserwowane dane są najbardziej prawdopodobne.

TrynnaDoStat
źródło

2

A jeśli maksymalizowana w ten sposób funkcja prawdopodobieństwa jest z drugiej strony funkcją gęstości prawdopodobieństwa ciągłej zmiennej losowej? Czy MLE nadal maksymalizuje prawdopodobieństwo? A jeśli nie, co to robi?

Alecos Papadopoulos,

@AlecosPapadopoulos Rozumiem, że funkcję prawdopodobieństwa można uznać za funkcję prawdopodobieństwa parametru, a MLE jest wartością parametru, która maksymalizuje tę funkcję prawdopodobieństwa. Jednak twoje pytanie sugeruje, że jest więcej niuansów?

Heisenberg

4

@Heisenberg Odpowiedź potraktowała funkcję prawdopodobieństwa jako łączną funkcję prawdopodobieństwa próbki (dla której ML zapewnia maks wrt parametrów, a zatem maksymalizuje prawdopodobieństwo dla dowolnej próbki). I jest to poprawne, gdy wartości RV są dyskretne, ale nie, gdy są ciągłe, ponieważ gęstość połączenia przez konstrukcję nie jest prawdopodobieństwem połączenia. Nie scharakteryzowałbym tego jako „niuans”, jest to podstawowa różnica między światem dyskretnym a światem ciągłym.

Alecos Papadopoulos,

@AlecosPapadopoulos Rozumiem. Więc masz problem z użyciem słowa „funkcja prawdopodobieństwa” vs „funkcja gęstości”. To jest poprawne.

Heisenberg

@ Alecos Papadopoulos: Prawdziwym <punktem jest to, że uzasadnienie MLE w przypadku dyskretnym jest bezpośrednie, podczas gdy ciągły przypadek wymaga dodatkowego argumentu, możemy znaleźć wspólne prawdopodobieństwo dla pewnej kostki wokół punktu danych, a następnie zauważ, że dla wystarczająco małego konkretna wartość nie ma znaczenia.

ϵ

$\epsilon$

ϵ

$\epsilon$

ϵ

$\epsilon$

kjetil b halvorsen

10

To jest możliwe, aby coś powiedzieć bez użycia matematyki (dużo), ale dla rzeczywistych zastosowaniach statystycznych maksymalnego prawdopodobieństwa trzeba matematyki.

Szacowanie maksymalnego prawdopodobieństwa wiąże się z tym, co filozofowie nazywają wnioskowaniem do najlepszego wyjaśnienia lub uprowadzenia . Używamy tego cały czas! Uwaga: nie twierdzę, że maksymalne prawdopodobieństwo jest porwaniem, termin ten jest znacznie szerszy, a niektóre przypadki szacunku Bayesowskiego (z uprzednim doświadczeniem) prawdopodobnie można również uznać za porwanie. Niektóre przykłady zaczerpnięte z http://plato.stanford.edu/entries/abduction/#Aca Zobacz także https://en.wikipedia.org/wiki/Abductive_reasoning (w informatyce „uprowadzenie” jest również używane w kontekście -probabilistyczne modele.)

- Zdarza ci się wiedzieć, że Tim i Harry ostatnio mieli straszny kłótnię, która zakończyła ich przyjaźń. Teraz ktoś mówi ci, że widziała, jak Tim i Harry biegali razem. Najlepszym wyjaśnieniem tego, o czym możesz pomyśleć, jest to, że wymyślili. Stwierdzasz, że znowu są przyjaciółmi. ” Jest tak, ponieważ wniosek ten sprawia, że obserwacja, którą starasz się wyjaśnić, jest bardziej prawdopodobna niż alternatywna, że nadal nie rozmawiają.

Kolejny przykład: pracujesz w przedszkolu i pewnego dnia dziecko zaczyna chodzić w dziwny sposób, mówiąc, że złamał nogi. Badasz i nie znajdujesz nic złego. Następnie można rozsądnie wywnioskować, że jeden z jego rodziców złamał nogi, ponieważ dzieci często wtedy działają zgodnie z opisem, tak więc jest to „wnioskowanie o najlepsze wyjaśnienie” i przypadek (nieformalnego) maksymalnego prawdopodobieństwa. (i oczywiście to wyjaśnienie może być błędne, jest to tylko prawdopodobne, niepewne. Uprowadzenie / maksymalne prawdopodobieństwo nie może dać pewnych wniosków).

Uprowadzenie polega na znalezieniu wzorca w danych, a następnie poszukiwaniu możliwych teorii, które mogą sprawić, że wzorce te będą prawdopodobne. Zatem wybór możliwego wyjaśnienia, które sprawia, że obserwowany wzór jest maksymalnie prawdopodobny, jest po prostu maksymalnym prawdopodobieństwem!

Najlepszym przykładem uprowadzenia w nauce jest ewolucja . Nie ma jednej obserwacji sugerującej ewolucję, ale ewolucja sprawia, że zaobserwowane wzorce są bardziej prawdopodobne niż inne wyjaśnienia.

Innym typowym przykładem jest diagnoza medyczna? Który możliwy stan medyczny sprawia, że obserwowany wzór objawów jest najbardziej prawdopodobny? Ponownie, jest to również maksymalne prawdopodobieństwo! (Lub, w tym przypadku, być może lepsze jest oszacowanie bayesowskie, musimy wziąć pod uwagę wcześniejsze prawdopodobieństwo różnych możliwych wyjaśnień). Ale to jest technika, w tym przypadku możemy mieć empiryczne priory, które można postrzegać jako naturalną część modelu statystycznego, a to, co nazywamy modelem , to, co nazywamy wcześniej, jest jakąś arbitralną (*) konwencją statystyczną.

Aby powrócić do pierwotnego pytania na temat laickiego objaśnienia MLE, oto jeden prosty przykład: kiedy moje córki miały 6 i 7 lat, zadałem im to pytanie. Zrobiliśmy dwa urny (dwa pudełka na buty), w jednym umieściliśmy 2 czarne kule, 8 czerwonych, w drugim numery zostały zamienione. Następnie wymieszaliśmy urny i losowaliśmy jedną urnę. Potem wzięliśmy losowo jedną piłkę z tej urny. To było czerwone.

Potem zapytałem: Z jakiego urna sądzisz, że została wyciągnięta czerwona kula? Po około jednej sekundzie odpowiedzieli (w chórze): Od tej z 8 czerwonymi kulkami!

Potem zapytałem: Dlaczego tak myślisz? I na nowo, po około jednej sekundzie (znowu w calu): „Bo wtedy łatwiej jest narysować czerwoną piłkę!”. To znaczy, łatwiej = bardziej prawdopodobne . Było to maksymalne prawdopodobieństwo (napisanie modelu prawdopodobieństwa jest łatwym ćwiczeniem) i jest to „wnioskowanie na podstawie najlepszego wyjaśnienia”, to znaczy uprowadzenia.

(*) Dlaczego mówię „arbitralnie”? Aby kontynuować problem z diagnozą medyczną, powiedzmy, że pacjent ma trudności z rozpoznaniem stanu, którego lekarz wcześniej nie widział. Następnie, powiedzmy, w rozmowie z pacjentem okazuje się, że niedawno odwiedził jakieś miejsce w tropikalnej Afryce. To nowa informacja, ale jej efekt w typowych modelach (wykorzystywanych w tego rodzaju sytuacjach, czy to formalnych, czy nieformalnych) będzie polegał na zmianie wcześniejszych możliwych możliwych wyjaśnień, ponieważ choroby tropikalne, takie jak malaria, będą się teraz nasilać wcześniejsze prawdopodobieństwo. Tak więc nowe dane wchodzą w skład analizy wcześniej .

kjetil b halvorsen
źródło

wyszukiwanie w „rozumowaniu uprowadzającym i szacowaniu maksymalnego prawdopodobieństwa” daje wiele trafnych trafień.

kjetil b halvorsen

1

(1/2) Cześć kjetil, to fantastyczna odpowiedź i doceniam to. (Również krótką informację o swoich córek jest ładny. :)) W każdym razie walczę w budowaniu własne solidne zrozumienie „prawdopodobieństwo”, a ja sformalizowane moje pytanie na tutaj .

Creatron

1

(2/2) W szczególności staram się zrozumieć i) Jeśli prawidłowym sposobem określenia prawdopodobieństwa jest zawsze: „Prawdopodobieństwo PARAMETRÓW”, (a nigdy „Prawdopodobieństwo DANYCH”), oraz ii) Próbuję zrozumieć, czy jest czytane w języku angielskim, jako: „Prawdopodobieństwo parametru = theta PODAJ dane = x, jest równe prawdopodobieństwu data = x, PODAJ parametr = theta). ” Czy to poprawne parsowanie w języku angielskim? Lub czy lewą stronę czyta się jako „Prawdopodobieństwo danych = x, PARAMETRYZOWANE na params = theta”? Z góry dziękuję!

L (θ | x) = P (x | θ)

$L(\theta|x) = P(x | \theta)$

Creatron

9

Jeśli dane pochodzą z rozkładu prawdopodobieństwa o nieznanym parametrze , maksymalne oszacowanie prawdopodobieństwa jest tym, co sprawia, że dane, które faktycznie obserwowałeś, są najbardziej prawdopodobne. $\theta$ $\theta$

W przypadku, gdy twoje dane są niezależnymi próbkami z tego rozkładu prawdopodobieństwa, prawdopodobieństwo (dla danej wartości ) jest obliczane poprzez pomnożenie prawdopodobieństw wszystkich obserwacji (dla tej danej wartości ) - jest to po prostu prawdopodobieństwo łączne całej próbki. A wartość dla której jest to maksimum, jest oszacowaniem maksymalnego prawdopodobieństwa. $\theta$ $\theta$ $\theta$

(Jeśli dane są w trybie ciągłym, należy odczytać „gęstość prawdopodobieństwa” dla „prawdopodobieństwa”. Więc jeśli są mierzone w calach, gęstość byłaby mierzona w prawdopodobieństwie na cal.)

Scortchi
źródło

3

Jeden spór. Nie sądzę, że możesz myśleć o nich jako o prawdopodobieństwach, gdy jest ciągłe.

y

$y$

Dimitriy V. Masterov,

@ DimitriyV.Masterov Rzeczywiście, nie są. Nawet jeśli potrafisz, o ile dobrze pamiętam, prawdopodobieństwo zostało zdefiniowane (według Fishera) „aż do stałej multiplikatywnej”.

Glen_b

@Dimitriy, dobry punkt; Dodałem to.

Scortchi

1

@Glen, Dla większości celów - testy współczynnika wiarygodności, oszacowanie maksymalnego prawdopodobieństwa - możesz upuścić stałą. Do porównywania AIC między modelami nie zagnieżdżonymi nie można. Nie myśl, że i tak trzeba wprowadzić definicję laika.

Scortchi

1

Dopóki upuścisz tę samą stałą, nadal możesz.

Glen_b

6

Zagrajmy w grę: jestem w ciemnym pokoju, nikt nie widzi tego, co robię, ale wiesz, że (a) rzucam kostką i liczę liczbę „1” jako „sukces” lub (b) rzucam monetą i liczę głowy jako „sukces”.

Jak powiedziałem, nie widać, który z nich robię, ale daję wam tylko jedną informację: Mówię wam, że rzuciłem kostką 100 razy lub rzuciłem monetą 100 razy i że miałem 17 sukcesów .

Pytanie polega na odgadnięciu, czy rzuciłem kostką, czy rzuciłem monetą.

Prawdopodobnie odpowiesz, że rzuciłem kostką.

Jeśli to zrobisz, prawdopodobnie „zgadłeś, maksymalizując prawdopodobieństwo”, ponieważ jeśli zaobserwuję 17 sukcesów na 100 eksperymentów, bardziej prawdopodobne jest, że rzuciłem kostką niż rzuciłem monetą.

Więc to, co zrobiłeś, to wziąć tę wartość „prawdopodobieństwa sukcesu” (1/6 dla kości i 1/2 dla monety), co sprawia, że najprawdopodobniej zaobserwujesz 17 sukcesów na 100. „Bardziej prawdopodobne” oznacza, że szansa, że masz 17 razy „1” na 100 rzutów kostką, jest większa niż szansa na 17 głów na 100 rzutów monetą.

Jacques Wainer
źródło

Jak powiedziałem w mojej odpowiedzi, „uprowadzenie” lub „wnioskowanie na najlepsze wyjaśnienie”.

kjetil b halvorsen

@kjetil b halvorsen: Nie rozumiem, co chcesz powiedzieć?

Próbuję jedynie porównać z moją odpowiedzią powyżej. Terminy te są używane w innych dziedzinach (filozofia, CS) dla mniej więcej tego samego pomysłu: wybierz wyjaśnienie, które ogólnie najlepiej pasuje do faktów, z modelem probabilistycznym, który prowadzi do maksymalnego prawdopodobieństwa.

kjetil b halvorsen

@kjetil b halvorsen: czy mogę zatem stwierdzić, że mój przykład jest w porządku? Mówiąc to samo w kategoriach laika :-)?

1

Powiedzmy, że masz jakieś dane pochodzące z rozkładu normalnego o nieznanej średniej . Chcesz znaleźć wartość , jednak nie masz pojęcia, jak ją osiągnąć. Jedną rzeczą, którą możesz zrobić, to wypróbować kilka wartości i sprawdzić, która z nich jest najlepsza. Aby to zrobić, potrzebujesz jednak pewnej metody sprawdzania, która z wartości jest „lepsza” niż inne. Funkcja prawdopodobieństwa, , pozwala sprawdzić, które wartości są najprawdopodobniej biorąc pod uwagę posiadane dane. W tym celu wykorzystuje prawdopodobieństwa punktów danych oszacowane na podstawie funkcji prawdopodobieństwa o danej wartości : $X$ $\mu$ $\mu$ $\mu$ $L$ $\mu$ $f$ $\mu$

L (μ | X) = \prod_{i = 1}^{N} f (x_{i}, μ)

$L(\mu|X) = \prod^N_{i=1} f(x_i, \mu)$

lub prawdopodobieństwo dziennika:

\ln L (μ | X) = \sum_{i = 1}^{N} \ln f (x_{i}, μ)

$\ln L(\mu|X) = \sum^N_{i=1} \ln f(x_i, \mu)$

Za pomocą tej funkcji można sprawdzić, która wartość maksymalizuje prawdopodobieństwo, tj. Która jest najbardziej prawdopodobna, biorąc pod uwagę posiadane dane. Jak widać, można to osiągnąć iloczynem prawdopodobieństw lub sumą prawdopodobieństw logarytmicznych (prawdopodobieństwo logarytmiczne). W naszym przykładzie byłaby funkcją gęstości prawdopodobieństwa dla rozkładu normalnego, ale podejście można rozszerzyć na znacznie bardziej skomplikowane problemy. $\mu$ $f$

W praktyce nie włączasz niektórych odgadywanych wartości do funkcji prawdopodobieństwa, ale raczej używasz różnych podejść statystycznych, o których wiadomo, że zapewniają oszacowania maksymalnego prawdopodobieństwa parametrów będących przedmiotem zainteresowania. Istnieje wiele takich podejść, które są specyficzne dla problemu - niektóre są proste, inne skomplikowane ( więcej informacji można znaleźć w Wikipedii ). Poniżej przedstawiam prosty przykład działania ML w praktyce. $\mu$

Przykład

Najpierw wygenerujmy fałszywe dane:

set.seed(123)
x <- rnorm(1000, 1.78)

i zdefiniuj funkcję prawdopodobieństwa, którą chcemy zmaksymalizować (prawdopodobieństwo rozkładu normalnego z różnymi wartościami przy danych ): $\mu$ $X$

llik <- function(mu) sum(log(dnorm(x, mu)))

następnie sprawdzamy różne wartości za pomocą naszej funkcji: $\mu$

ll <- vapply(seq(-6, 6, by=0.001), llik, numeric(1))

plot(seq(-6, 6, by=0.001), ll, type="l", ylab="Log-Likelihood", xlab=expression(mu))
abline(v=mean(x), col="red")

To samo można osiągnąć szybciej dzięki algorytmowi optymalizacji, który szuka maksymalnej wartości funkcji w bardziej sprytny sposób niż brutalna siła . Istnieje wiele takich przykładów, np. Jednym z najbardziej podstawowych w języku R jest optimize:

optimize(llik, interval=c(-6, 6), maximum=TRUE)$maximum

wprowadź opis zdjęcia tutaj

Czarna linia pokazuje szacunki funkcji logarytmu wiarygodności przy różnych wartościach . Czerwona linia na wykresie oznacza wartość, która jest dokładnie taka sama jak średnia arytmetyczna (który faktycznie jest maksymalny estymator prawdopodobieństwa z ), najwyższy punkt funkcji log-prawdopodobieństwa szacunkowy z brute force i poszukiwania z algorytmem. $\mu$ $1.78$ $\mu$ optimize

Ten przykład pokazuje, jak można użyć wielu podejść, aby znaleźć wartość, która maksymalizuje funkcję prawdopodobieństwa, aby znaleźć „najlepszą” wartość parametru.

Tim
źródło

0

Jak chciałeś, użyję bardzo naiwnych terminów. Załóżmy, że zebrałeś pewne dane i masz uzasadnione założenie, że są one zgodne z pewnym rozkładem prawdopodobieństwa. Ale zwykle nie znasz parametrów tego rozkładu z takich próbek. Parametry to „charakterystyki populacji” rozkładu prawdopodobieństwa, który przyjęto dla danych. Załóżmy, że Twój spisek lub wcześniejsza wiedza sugerują, abyś wziął pod uwagę dane jako normalnie rozpowszechniane. Średnia i wariancja to dwa parametry reprezentujące rozkład normalny. Niech będzie zbiorem parametrów. Tak więc wspólne prawdopodobieństwo obserwacji danych biorąc pod uwagę zestaw parametrów $\{y_1, y_2,\ldots,y_n\}$ $\theta=\{\mu,\sigma^2\}$ $\{y_1, y_2,\ldots,y_n\}$ $\theta=\{\mu,\sigma^2\}$ jest podane przez, . $p(y_1, y_2,\ldots,y_n|\theta)$

Prawdopodobieństwo to „prawdopodobieństwo zaobserwowania danych”, co jest równoważne wspólnemu plikowi pdf (dla dystrybucji dyskretnej połączonym pmf). Jest to jednak wyrażane jako funkcja parametrów lub . Tak, że dla tego konkretnego zestawu danych można znaleźć wartość dla której jest maksymalna. Innymi słowy, znajdziesz dla których prawdopodobieństwo zaobserwowania tego konkretnego zestawu danych jest maksymalne. Tak więc pojawia się termin „Maksymalne prawdopodobieństwo”. Teraz znajdziesz zestaw dla którego jest zmaksymalizowane. Ten zestaw dla którego jest maksymalny, nazywa się oszacowaniem maksymalnego prawdopodobieństwa. $L(\theta|y_1, y_2,\ldots,y_n)$ $\theta$ $L(\theta)$ $\theta$ $\{\mu,\sigma^2\}$ $L$ $\{\mu,\sigma^2\}$ $L(\theta)$

Blain Waan
źródło

0

Załóżmy, że masz monetę. Podrzucanie może dać głowy lub ogony. Ale nie wiesz, czy to uczciwa moneta. Więc rzucasz nim 1000 razy. Pojawia się jako głowa 1000 razy i nigdy jako ogon.

Możliwe, że jest to w rzeczywistości uczciwa moneta z szansą 50/50 dla głów / ogonów, ale nie wydaje się prawdopodobne, prawda? Szansa na rzucenie uczciwą monetą 1000 razy, a główki nigdy się nie zbliżają, wynosi , naprawdę bardzo mała. $0.5^{2000}$

MLE stara się pomóc ci znaleźć najlepsze wytłumaczenie w takiej sytuacji - gdy masz jakiś wynik i chcesz dowiedzieć się, jaka jest wartość parametru, która najprawdopodobniej da taki wynik. Tutaj mamy 2000 główek z 2000 rzutów - więc użyjemy MLE, aby dowiedzieć się, jakie prawdopodobieństwo uzyskania główki najlepiej wyjaśnia otrzymanie 2000 główek z 2000 rzutów.

Jest to estymator maksymalnego prawdopodobieństwa . Oszacowuje parametr (tutaj jest to funkcja rozkładu prawdopodobieństwa), który najprawdopodobniej przyniósł wynik, na który obecnie patrzysz.

Podsumowując nasz przykład, biorąc MLE zwróciłoby, że prawdopodobieństwo uzyskania głowy, która najlepiej tłumaczy uzyskanie 2000 główek z 2000 rzutów wynosi . $1$

Newb
źródło

-1

Rozumiem MLE w ten sposób: widzisz tylko to, czego natura chce od ciebie. Rzeczy, które widzisz, to fakty. Fakty te leżą u podstaw procesu, który je wygenerował. Procesy te są ukryte, nieznane, należy je odkryć. Zatem pytanie brzmi: biorąc pod uwagę zaobserwowany fakt, jakie jest prawdopodobieństwo, że proces P1 go wygenerował? Jakie jest prawdopodobieństwo, że proces P2 go wygenerował? I tak dalej ... Jedno z tych prawdopodobieństw będzie maksymalne ze wszystkich. MLE to funkcja, która wyodrębnia to maksymalne prawdopodobieństwo.

Pomyśl o rzucie monetą; moneta jest stronnicza. Nikt nie zna stopnia uprzedzenia. Może wynosić od o (wszystkie ogony) do 1 (wszystkie głowy). Rzetelna moneta będzie wynosić 0,5 (głowa / ogon równie prawdopodobne). Kiedy wykonujesz 10 rzutów i obserwujesz 7 głów, wtedy MLE jest takim nastawieniem, które jest bardziej prawdopodobne, aby wytworzyć obserwowany fakt 7 głów na 10 rzutów.

Kingz
źródło

Oszacowanie maksymalnego prawdopodobieństwa (MLE) w kategoriach laika

Odpowiedzi: