Jakie są zalety i wady obu metod?
maximum-likelihood
predictive-models
optimization
gradient-descent
GeorgeOfTheRF
źródło
źródło
Odpowiedzi:
Szacowanie maksymalnego prawdopodobieństwa jest ogólnym podejściem do szacowania parametrów w modelach statystycznych przez maksymalizacjęfunkcji wiarygodności zdefiniowanej jako
to znaczy prawdopodobieństwo uzyskania danych danej wartości parametru θ . Znając funkcję prawdopodobieństwa dla danego problemu, możesz poszukać takiej θ, która maksymalizuje prawdopodobieństwo uzyskania posiadanych danych. Czasami znamy estymatory, np. Średnia arytmetyczna jest estymatorem MLE parametru μ dla rozkładu normalnego , ale w innych przypadkach można użyć różnych metod, w tym algorytmów optymalizacji. Podejście ML nie mówi ci, jak znaleźć optymalną wartość θ - możesz po prostu zgadywać i wykorzystać prawdopodobieństwo, aby porównać, które zgadnięcie było lepsze - po prostu mówi ci, jak możesz porównać, jeśli jedna wartośćX θ θ μ θ jest „bardziej prawdopodobne” niż inne.θ
Spadek gradientu jest algorytmem optymalizacji . Możesz użyć tego algorytmu, aby znaleźć minimum (lub maksimum, wtedy nazywa się to gradientem wznoszenia ) wielu różnych funkcji. Algorytm tak naprawdę nie przejmuje się funkcją, którą minimalizuje, po prostu robi to, o co został poproszony. Korzystając z algorytmu optymalizacyjnego, musisz więc w jakiś sposób wiedzieć, jak stwierdzić, czy jedna wartość parametru będącego przedmiotem zainteresowania jest „lepsza” niż druga. Musisz podać algorytmowi jakąś funkcję, aby zminimalizować, a algorytm poradzi sobie ze znalezieniem jego minimum.
Szacunki maksymalnego prawdopodobieństwa można uzyskać za pomocą różnych metod, a jednym z nich jest użycie algorytmu optymalizacji. Z drugiej strony opadanie gradientu może być również wykorzystane do maksymalizacji funkcji innych niż funkcja prawdopodobieństwa.
źródło
f
Ale funkcja prawdopodobieństwa regresji logistycznej nie ma w ten sposób rozwiązania w formie zamkniętej . Musimy więc użyć innej metody, takiej jak
gradient descent
.źródło
likelihood function
+gradient descent
(które pozwala uzyskać rozwiązanie funkcji wiarygodności) jest nadal sposobem na wykonanie MLE.Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.
z Machine Learning: Probabilistic Perspective, Kevin Murphy.