Zastanawiam się, czy oszacowanie maksymalnego prawdopodobieństwa kiedykolwiek użyte w statystykach. Uczymy się jego koncepcji, ale zastanawiam się, kiedy jest faktycznie używana. Jeśli przyjmiemy rozkład danych, znajdziemy dwa parametry, jeden dla średniej i jeden dla wariancji, ale czy rzeczywiście używasz go w rzeczywistych sytuacjach?
Czy ktoś może mi powiedzieć prosty przypadek, w którym jest używany?
estimation
maximum-likelihood
użytkownik122358
źródło
źródło
Odpowiedzi:
Na pewno! Właściwie całkiem sporo - ale nie zawsze.
Gdy ludzie mają parametryczny model dystrybucji, dość często wybierają oszacowanie maksymalnego prawdopodobieństwa. Gdy model jest poprawny, istnieje szereg przydatnych właściwości estymatorów maksymalnego prawdopodobieństwa.
Na przykład - zastosowanie uogólnionych modeli liniowych jest dość rozpowszechnione, w takim przypadku parametry opisujące średnią są szacowane na podstawie maksymalnego prawdopodobieństwa.
Może się zdarzyć, że niektóre parametry są szacowane na podstawie maksymalnego prawdopodobieństwa, a inne nie. Rozważmy na przykład rozproszony Poisson GLM - parametr dyspersji nie zostanie oszacowany na podstawie maksymalnego prawdopodobieństwa, ponieważ MLE nie jest w tym przypadku przydatny.
Czasami możesz mieć dwa, ale czasami masz jeden parametr, czasem trzy lub cztery lub więcej.
Czy myślisz o konkretnym modelu? Nie zawsze tak jest. Rozważ oszacowanie parametru rozkładu wykładniczego lub rozkładu Poissona lub rozkładu dwumianowego. W każdym z tych przypadków występuje jeden parametr, a wariancja jest funkcją parametru opisującego średnią.
Lub rozważ ogólny rozkład gamma , który ma trzy parametry. Lub czteroparametrowa dystrybucja beta , która ma (być może nic dziwnego) cztery parametry. Należy również zauważyć, że (w zależności od konkretnej parametryzacji) średnia lub wariancja lub oba mogą nie być reprezentowane przez pojedynczy parametr, ale przez funkcje kilku z nich.
Na przykład rozkład gamma, dla którego istnieją trzy parametryzacje, które widzą dość powszechne zastosowanie - z których dwa najczęstsze mają zarówno średnią, jak i wariancję, które są funkcjami dwóch parametrów.
Zazwyczaj w modelu regresyjnym lub GLM lub modelu przeżycia (pośród wielu innych typów modeli) model może zależeć od wielu predyktorów, w którym to przypadku rozkład związany z każdą obserwacją w modelu może mieć jeden z własnych parametrów (lub nawet kilka parametrów), które są powiązane z wieloma zmiennymi predykcyjnymi („zmiennymi niezależnymi”).
źródło
Chociaż estymatory największej wiarygodności mogą wyglądać podejrzanie, biorąc pod uwagę założenia dotyczące dystrybucji danych, często stosuje się estymatory quasi-maksymalnego prawdopodobieństwa. Chodzi o to, aby zacząć od założenia dystrybucji i rozwiązania dla MLE, a następnie usunąć jawne założenie dystrybucyjne i zamiast tego przyjrzeć się, jak działa estymator w bardziej ogólnych warunkach. Więc Quasi MLE staje się po prostu sprytnym sposobem na uzyskanie estymatora, a większość pracy czerpie z właściwości estymatora. Ponieważ założenia dystrybucyjne zostały odrzucone, quasi-MLE zwykle nie ma dobrych właściwości wydajnościowych.
Jako przykład zabawki, załóżmy, że masz próbką iid , a chcesz się prognozy dla wariancji X . Można zacząć zakładając X ~ N ( | j , σ 2 ) , pisać prawdopodobieństwo używając normalnego PDF i rozwiązać za argmax dostać σ 2 = n - 1 Σ ( x I - ˉ x ) 2 . Możemy wtedy zadawać pytania, na jakich warunkachx1,x2, . . . , xn X X∼ N.( μ , σ2)) σ^2)= n- 1∑ ( xja- x¯)2) konsekwentna Estymator jest to obiektywne (nie jest), czy to pierwiastek n spójne, co jest jego dystrybucja asypmtotic, etc.σ^2)
źródło
Szacowanie maksymalnego prawdopodobieństwa jest często używane w uczeniu maszynowym do szkolenia:
Zauważ, że w niektórych przypadkach preferuje się dodanie pewnej regularyzacji, która czasami jest równoważna oszacowaniu Maximum a posteriori , np. Dlaczego kara Lasso jest równoważna podwójnemu wykładniczemu (Laplaceowi) przedtem? .
źródło
Bardzo typowym przypadkiem jest regresja logistyczna. Regresja logistyczna jest techniką często stosowaną w uczeniu maszynowym do klasyfikowania punktów danych. Na przykład regresji logistycznej można użyć do sklasyfikowania, czy wiadomość e-mail jest spamem, czy też nie, lub do sklasyfikowania, czy dana osoba ma chorobę, czy nie.
W szczególności model regresji logistycznej mówi, że prawdopodobieństwo punktu danychxja należy do klasy 1:
hθ( xja) = P[ yja= 1 ] = 11 + e- θT.xja
The parameter vectorθ is typically estimated using MLE.
Specifically, using optimization methods, we find the estimatorθ^ such that the expression −∑ni=1yilog(hθ^(xi))+(1−yi)log(1−hθ^(xi)) jest zminimalizowane. To wyrażenie jest ujemnym prawdopodobieństwem logarytmicznym, więc minimalizacja tego jest równoważna maksymalizacji prawdopodobieństwa.
źródło
Używamy MLE przez cały czas, ale możemy tego nie poczuć. Podam dwa proste przykłady do pokazania.
Przykład 1
Jeśli obserwujemy wynik rzutu monetą, z8 wyjść z 10 flips (zakładając, że iid. z Bernoulli), jak odgadnąć parametr θ (prob głowy) monety? Możemy powiedziećθ = 0,8 , używając „liczenia”.
Dlaczego warto korzystać z liczenia? jest to faktycznie domyślnie za pomocą MLE! Gdzie jest problem?
Aby rozwiązać równanie, potrzebujemy rachunku różniczkowego, ale wniosek się liczy.
Przykład 2
Jak oszacowalibyśmy parametry rozkładu Gaussa na podstawie danych? Używamy średniej empirycznej jako średniej szacunkowej, a wariancji empirycznej jako wariancji szacunkowej, która również pochodzi od MLE !.
źródło
Niektóre maksymalne prawdopodobieństwo wykorzystania w komunikacji bezprzewodowej:
źródło