Pytanie ogólne
Załóżmy, że mamy przesyłane dane , , ... \ sim f (x \, | \, \ boldsymbol {\ theta}) . Chcemy rekurencyjnie obliczyć oszacowanie maksymalnego prawdopodobieństwa \ boldsymbol {\ theta} . To znaczy, po obliczeniu
\ hat {\ boldsymbol {\ theta}} _ {n-1} = \ underset {\ boldsymbol {\ theta} \ in \ mathbb {R} ^ p} {\ arg \ max} \ prod_ { i = 1} ^ {n-1} f (x_i \, | \, \ boldsymbol {\ theta}),
obserwujemy nowy x_n i chcemy w jakiś sposób stopniowo aktualizować nasze oszacowanie
\ hat {\ boldsymbol {\ theta}} _ {n-1}, \, x_n \ to \ hat {\ boldsymbol {\ theta}} _ {n}
bez konieczności rozpoczynania od zera. Czy istnieją na to ogólne algorytmy?θ n - 1 ,
Przykład zabawki
Jeśli , , ... , to
więc
Odpowiedzi:
Zobacz koncepcję wystarczalności, aw szczególności minimalne wystarczające statystyki . W wielu przypadkach potrzebna jest cała próbka, aby obliczyć oszacowanie dla danej wielkości próbki, bez trywialnego sposobu aktualizacji z próbki o jeden rozmiar mniejszej (tj. Nie ma wygodnego ogólnego wyniku).
Jeśli rozkład jest rodziną wykładniczą (a w niektórych innych przypadkach poza tym; mundur jest dobrym przykładem), istnieje ładna wystarczająca statystyka, która w wielu przypadkach może być aktualizowana w sposób, w jaki szukasz (tj. Przy wielu powszechnie używanych rozkładach szybka aktualizacja).
Jednym z przykładów, których nie znam żaden bezpośredni sposób na obliczenie lub aktualizację, jest oszacowanie lokalizacji rozkładu Cauchy'ego (np. Ze skalą jednostkową, aby uczynić problem prostym problemem jednoparametrowym). Może jednak nastąpić szybsza aktualizacja, której po prostu nie zauważyłem - nie mogę powiedzieć, że naprawdę zrobiłem więcej, niż rzucić okiem na nią w celu rozważenia aktualizacji.
Z drugiej strony, w przypadku MLE, które są uzyskiwane metodami numerycznej optymalizacji, poprzednie oszacowanie w wielu przypadkach byłoby doskonałym punktem wyjścia, ponieważ zazwyczaj poprzednie oszacowanie byłoby bardzo zbliżone do zaktualizowanego oszacowania; przynajmniej w tym sensie często powinna być możliwa szybka aktualizacja. Nawet nie jest to jednak ogólny przypadek - w przypadku funkcji prawdopodobieństwa multimodalnego (ponownie zobacz przykład Cauchy'ego) nowa obserwacja może prowadzić do tego, że najwyższy tryb będzie w pewnej odległości od poprzedniego (nawet jeśli lokalizacje każdego z nich z kilku największych trybów niewiele się zmieniło, który z nich jest najwyższy, mógłby się zmienić).
źródło
W uczeniu maszynowym jest to określane jako uczenie się online .
Jak wskazał @Glen_b, istnieją specjalne przypadki, w których MLE można aktualizować bez konieczności uzyskiwania dostępu do wszystkich poprzednich danych. Jak również wskazuje, nie sądzę, aby istniało ogólne rozwiązanie umożliwiające znalezienie MLE.
Dość ogólne podejście do znalezienia przybliżonego rozwiązania polega na zastosowaniu stochastycznego spadku gradientu. W tym przypadku, gdy pojawia się każda obserwacja, obliczamy gradient w odniesieniu do tej indywidualnej obserwacji i przesuwamy wartości parametru w bardzo niewielkim stopniu w tym kierunku. Pod pewnymi warunkami możemy wykazać, że z dużym prawdopodobieństwem zbiegnie się to w sąsiedztwie MLE; sąsiedztwo jest coraz ściślejsze, ponieważ zmniejszamy rozmiar kroku, ale do zbieżności potrzeba więcej danych. Jednak te stochastyczne metody wymagają znacznie więcej zabawy, aby uzyskać dobrą wydajność niż, powiedzmy, aktualizacje w formie zamkniętej.
źródło