Jaka jest różnica między oszacowaniem maksymalnego prawdopodobieństwa a spadkiem gradientu?

Jakie są zalety i wady obu metod?

maximum-likelihood predictive-models optimization gradient-descent GeorgeOfTheRF
źródło

Nie szukam tylko definicji tych dwóch metod, które już mam z wyszukiwarki Google. Próbuję zrozumieć, która metoda jest preferowana w takim przypadku. Np .: w przypadku Bigdata jeden będzie działał lepiej niż inny itp. Nie mogłem znaleźć żadnego dobrego materiału, który

mówiłby

Jak kruk jest jak biurko?

whuber

@ML_Pro GD w żaden sposób nie odnosi się do modelowania statystycznego, jest to algorytm. Prawdopodobnie możesz zacząć od podręcznika statystyki wprowadzającej, aby lepiej zrozumieć wnioskowanie statystyczne, zanim zaczniesz uczyć się narzędzi (takich jak GD) do rozwiązywania problemów statystycznych.

Tim

Czy chciałeś zapytać o różnicę między gradientem spadku a maksymalizacją oczekiwań (która jest zwykle używana do rozwiązania problemu optymalizacji w MLE)?

Sobi,

Odpowiedzi:

Szacowanie maksymalnego prawdopodobieństwa jest ogólnym podejściem do szacowania parametrów w modelach statystycznych przez maksymalizacjęfunkcji wiarygodności zdefiniowanej jako

L. (θ | X) = fa (X | θ)

$L(\theta|X) = f(X|\theta)$

to znaczy prawdopodobieństwo uzyskania danych danej wartości parametru . Znając funkcję prawdopodobieństwa dla danego problemu, możesz poszukać takiej która maksymalizuje prawdopodobieństwo uzyskania posiadanych danych. Czasami znamy estymatory, np. Średnia arytmetyczna jest estymatorem MLE parametru dla rozkładu normalnego , ale w innych przypadkach można użyć różnych metod, w tym algorytmów optymalizacji. Podejście ML nie mówi ci, jak znaleźć optymalną wartość - możesz po prostu zgadywać i wykorzystać prawdopodobieństwo, aby porównać, które zgadnięcie było lepsze - po prostu mówi ci, jak możesz porównać, jeśli jedna wartość $X$ $\theta$ $\theta$ $\mu$ $\theta$ jest „bardziej prawdopodobne” niż inne. $\theta$

Spadek gradientu jest algorytmem optymalizacji . Możesz użyć tego algorytmu, aby znaleźć minimum (lub maksimum, wtedy nazywa się to gradientem wznoszenia ) wielu różnych funkcji. Algorytm tak naprawdę nie przejmuje się funkcją, którą minimalizuje, po prostu robi to, o co został poproszony. Korzystając z algorytmu optymalizacyjnego, musisz więc w jakiś sposób wiedzieć, jak stwierdzić, czy jedna wartość parametru będącego przedmiotem zainteresowania jest „lepsza” niż druga. Musisz podać algorytmowi jakąś funkcję, aby zminimalizować, a algorytm poradzi sobie ze znalezieniem jego minimum.

Szacunki maksymalnego prawdopodobieństwa można uzyskać za pomocą różnych metod, a jednym z nich jest użycie algorytmu optymalizacji. Z drugiej strony opadanie gradientu może być również wykorzystane do maksymalizacji funkcji innych niż funkcja prawdopodobieństwa.

Tim
źródło

@ML_Pro Podałem dwa linki, w których można znaleźć szczegółowe informacje, nie sądzę, aby trzeba było powielać te odpowiedzi.

Tim

@ML_Pro, jak napisałem w odpowiedzi, są to różne rzeczy i nie można ich porównywać ...

Tim

Tak, ale MLE to ogólne podejście, a GD to tylko algorytm, którego można użyć do zminimalizowania wielu różnych funkcji. To tak, jakbyś porównał algebrę do kalkulatora kieszonkowego ...

Tim

MLE określa funkcję celu (funkcję prawdopodobieństwa); GD znajduje optymalne rozwiązanie problemu po określeniu funkcji celu. Możesz użyć GD (lub innych algorytmów optymalizacyjnych), aby rozwiązać problem największej wiarygodności, a wynikiem będzie estymator maksymalnej wiarygodności.

jbowman

@ML_Pro jest to opisane w linkach podanych w mojej odpowiedzi. W skrócie: tak, jest to produkt pdf. Produkt, ponieważ zakładamy, że dane są iid. Jest zdefiniowany w formacie pdf, ponieważ mówimy o modelu prawdopodobieństwa.

Tim

-3

f = l (θ)

$f = l(\theta)$

\frac{d f}{d θ} = 0

$\frac{ df }{ d\theta } = 0$

θ

$\theta$ f

Ale funkcja prawdopodobieństwa regresji logistycznej nie ma w ten sposób rozwiązania w formie zamkniętej . Musimy więc użyć innej metody, takiej jak gradient descent.

Belter
źródło

@Tim, możesz stąd coś zobaczyć, Kursy.cs.washington.edu/courses/cse446/13sp/slides/…

Belter

„Współczynniki regresji są zwykle szacowane przy użyciu oszacowania maksymalnego prawdopodobieństwa” ( en.wikipedia.org/wiki/Logistic_regression )

Tim

Szacowanie maksymalnego prawdopodobieństwa to rodzaj metody szacowania współczynników regresji, ale mamy kilka sposobów na znalezienie rozwiązania MLE. Zatem użycie likelihood function+ gradient descent(które pozwala uzyskać rozwiązanie funkcji wiarygodności) jest nadal sposobem na wykonanie MLE.

Belter,

Możesz także zobaczyć to zdanie

Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.

z Machine Learning: Probabilistic Perspective, Kevin Murphy.

Belter,

... to sformułowanie twojej odpowiedzi jest mylące, ponieważ brzmi, jakbyś powiedział, że do regresji logistycznej nie używamy ML, a zamiast tego używamy GD.

Tim