Moje pytania to:
- Czy uogólnione modele liniowe (GLM) są gwarantowane, że osiągną globalne maksimum? Jeśli tak, to dlaczego?
- Co więcej, jakie są ograniczenia funkcji łączenia w celu zapewnienia wypukłości?
Rozumiem GLM, że maksymalizują one wysoce nieliniową funkcję wiarygodności. Tak więc wyobrażam sobie, że istnieje kilka lokalnych maksimów, a zestaw parametrów, do którego się zbliżasz, zależy od warunków początkowych algorytmu optymalizacji. Jednak po przeprowadzeniu niektórych badań nie znalazłem ani jednego źródła, które wskazuje, że istnieje wiele lokalnych maksimów. Co więcej, nie znam się na technikach optymalizacji, ale wiem, że metoda Newtona-Raphsona i algorytm IRLS są bardzo podatne na lokalne maksima.
Proszę wyjaśnić, jeśli to możliwe, zarówno intuicyjnie, jak i matematycznie!
EDYCJA: dksahuji odpowiedział na moje pierwotne pytanie, ale chcę dodać pytanie uzupełniające [ 2 ] powyżej. („Jakie są ograniczenia funkcji łączenia w celu zapewnienia wypukłości?”)
źródło
Odpowiedzi:
Definicja rodziny wykładniczej jest następująca:
gdzie jest funkcją partycji dziennika. Teraz można udowodnić, że następujące trzy rzeczy dotyczą przypadku 1D (i generalizują do wyższych wymiarów - możesz przyjrzeć się właściwościom rodziny wykładniczej lub partycji dziennika):A(θ)
Powyższy wynik dowodzi, że jest wypukły (ponieważ c o v ( ϕ ( x ) ) jest dodatnim półfinałem). Teraz przyjrzymy się funkcji wiarygodności dla MLE:A(θ) cov(ϕ(x))
Istnieje uogólniona wersja zwana zakrzywioną rodziną wykładniczą, która również byłaby podobna. Ale większość dowodów ma formę kanoniczną.
źródło