Rekurencyjne aktualizowanie MLE w miarę pojawiania się nowych obserwacji

15

Pytanie ogólne

Załóżmy, że mamy przesyłane dane , , ... \ sim f (x \, | \, \ boldsymbol {\ theta}) . Chcemy rekurencyjnie obliczyć oszacowanie maksymalnego prawdopodobieństwa \ boldsymbol {\ theta} . To znaczy, po obliczeniu \ hat {\ boldsymbol {\ theta}} _ {n-1} = \ underset {\ boldsymbol {\ theta} \ in \ mathbb {R} ^ p} {\ arg \ max} \ prod_ { i = 1} ^ {n-1} f (x_i \, | \, \ boldsymbol {\ theta}), obserwujemy nowy x_n i chcemy w jakiś sposób stopniowo aktualizować nasze oszacowanie \ hat {\ boldsymbol {\ theta}} _ {n-1}, \, x_n \ to \ hat {\ boldsymbol {\ theta}} _ {n} bez konieczności rozpoczynania od zera. Czy istnieją na to ogólne algorytmy?x1x2f(x|θ)θ

θ^n1=argmaxθRpi=1n1f(xi|θ),
xnθ n - 1 ,
θ^n1,xnθ^n

Przykład zabawki

Jeśli x1 , x2 , ... N(x|μ,1) , to

μ^n1=1n1i=1n1xiandμ^n=1ni=1nxi,
więc
μ^n=1n[(n1)μ^n1+xn].

jcz
źródło
6
Nie zapomnij o odwrotności tego problemu: aktualizacji estymatora w miarę usuwania starych obserwacji.
Hong Ooi
Rekurencyjne najmniejsze kwadraty (RLS) to (bardzo znane) rozwiązanie jednego konkretnego przypadku tego problemu, prawda? Ogólnie uważam, że literatura dotycząca filtrowania stochastycznego może być przydatna do zbadania.
jhin

Odpowiedzi:

13

Zobacz koncepcję wystarczalności, aw szczególności minimalne wystarczające statystyki . W wielu przypadkach potrzebna jest cała próbka, aby obliczyć oszacowanie dla danej wielkości próbki, bez trywialnego sposobu aktualizacji z próbki o jeden rozmiar mniejszej (tj. Nie ma wygodnego ogólnego wyniku).

Jeśli rozkład jest rodziną wykładniczą (a w niektórych innych przypadkach poza tym; mundur jest dobrym przykładem), istnieje ładna wystarczająca statystyka, która w wielu przypadkach może być aktualizowana w sposób, w jaki szukasz (tj. Przy wielu powszechnie używanych rozkładach szybka aktualizacja).

Jednym z przykładów, których nie znam żaden bezpośredni sposób na obliczenie lub aktualizację, jest oszacowanie lokalizacji rozkładu Cauchy'ego (np. Ze skalą jednostkową, aby uczynić problem prostym problemem jednoparametrowym). Może jednak nastąpić szybsza aktualizacja, której po prostu nie zauważyłem - nie mogę powiedzieć, że naprawdę zrobiłem więcej, niż rzucić okiem na nią w celu rozważenia aktualizacji.

Z drugiej strony, w przypadku MLE, które są uzyskiwane metodami numerycznej optymalizacji, poprzednie oszacowanie w wielu przypadkach byłoby doskonałym punktem wyjścia, ponieważ zazwyczaj poprzednie oszacowanie byłoby bardzo zbliżone do zaktualizowanego oszacowania; przynajmniej w tym sensie często powinna być możliwa szybka aktualizacja. Nawet nie jest to jednak ogólny przypadek - w przypadku funkcji prawdopodobieństwa multimodalnego (ponownie zobacz przykład Cauchy'ego) nowa obserwacja może prowadzić do tego, że najwyższy tryb będzie w pewnej odległości od poprzedniego (nawet jeśli lokalizacje każdego z nich z kilku największych trybów niewiele się zmieniło, który z nich jest najwyższy, mógłby się zmienić).

Glen_b - Przywróć Monikę
źródło
1
Dzięki! Problem MLE, który może przełączać tryby pośrednie, jest szczególnie pomocny w zrozumieniu, dlaczego ogólnie byłoby to trudne.
jcz 19.03.19
1
Możesz to zobaczyć na podstawie powyższego modelu Cauchy'ego i danych (0.1,0.11,0.12,2.91,2.921,2.933). Prawdopodobieństwo logarytmiczne dla lokalizacji trybów jest bliskie 0,5 i 2,5, a (nieco) wyższy pik jest bliski 0,5. Teraz dokonaj następnej obserwacji 10, a tryb każdego z dwóch pików prawie się nie porusza, ale drugi pik jest teraz znacznie wyższy. Gradientowe zejście nie pomoże ci, kiedy to się stanie, to prawie jak zacząć od nowa. Jeśli twoja populacja jest mieszanką dwóch podgrup podobnych rozmiarów o różnych lokalizacjach, mogą wystąpić takie okoliczności -. ... ctd
Glen_b -Reinstate Monica
ctd ... nawet w stosunkowo dużej próbce. W odpowiedniej sytuacji przełączanie trybów może występować dość często.
Glen_b
Warunkiem zapobiegania multimodalności jest to, że prawdopodobieństwo powinno być wklęsłe logarytmicznie względem wektora parametru dla wszystkich . Implikuje to jednak ograniczenia modelu. n
Yves
Tak, poprawnie; Dyskutowałem ze sobą, czy mam to omówić w odpowiedzi.
Glen_b
4

W uczeniu maszynowym jest to określane jako uczenie się online .

Jak wskazał @Glen_b, istnieją specjalne przypadki, w których MLE można aktualizować bez konieczności uzyskiwania dostępu do wszystkich poprzednich danych. Jak również wskazuje, nie sądzę, aby istniało ogólne rozwiązanie umożliwiające znalezienie MLE.

Dość ogólne podejście do znalezienia przybliżonego rozwiązania polega na zastosowaniu stochastycznego spadku gradientu. W tym przypadku, gdy pojawia się każda obserwacja, obliczamy gradient w odniesieniu do tej indywidualnej obserwacji i przesuwamy wartości parametru w bardzo niewielkim stopniu w tym kierunku. Pod pewnymi warunkami możemy wykazać, że z dużym prawdopodobieństwem zbiegnie się to w sąsiedztwie MLE; sąsiedztwo jest coraz ściślejsze, ponieważ zmniejszamy rozmiar kroku, ale do zbieżności potrzeba więcej danych. Jednak te stochastyczne metody wymagają znacznie więcej zabawy, aby uzyskać dobrą wydajność niż, powiedzmy, aktualizacje w formie zamkniętej.

Cliff AB
źródło