Czy prawdopodobieństwo dziennika w GLM gwarantuje konwergencję do maksymalnych wartości globalnych?

16

Moje pytania to:

  1. Czy uogólnione modele liniowe (GLM) są gwarantowane, że osiągną globalne maksimum? Jeśli tak, to dlaczego?
  2. Co więcej, jakie są ograniczenia funkcji łączenia w celu zapewnienia wypukłości?

Rozumiem GLM, że maksymalizują one wysoce nieliniową funkcję wiarygodności. Tak więc wyobrażam sobie, że istnieje kilka lokalnych maksimów, a zestaw parametrów, do którego się zbliżasz, zależy od warunków początkowych algorytmu optymalizacji. Jednak po przeprowadzeniu niektórych badań nie znalazłem ani jednego źródła, które wskazuje, że istnieje wiele lokalnych maksimów. Co więcej, nie znam się na technikach optymalizacji, ale wiem, że metoda Newtona-Raphsona i algorytm IRLS są bardzo podatne na lokalne maksima.

Proszę wyjaśnić, jeśli to możliwe, zarówno intuicyjnie, jak i matematycznie!

EDYCJA: dksahuji odpowiedział na moje pierwotne pytanie, ale chcę dodać pytanie uzupełniające [ 2 ] powyżej. („Jakie są ograniczenia funkcji łączenia w celu zapewnienia wypukłości?”)

DankMasterDan
źródło
Myślę, że zanim będzie to możliwe, konieczne będą pewne ograniczenia. Jakie jest źródło tego oświadczenia?
Glen_b
Wydawało się, że sugeruje to kilka stron, ale nie mogłem znaleźć niczego, co by o tym wspominało, dlatego też z zadowoleniem przyjmuję jego dyskomfort!
DankMasterDan
tak długo, jak prawdopodobieństwo jest dobrze zdefiniowane wszędzie w domenie (i ignorując pewne styczne problemy numeryczne), myślę, że tak. W tych warunkach hessian wynosi <0 wszędzie w domenie, więc podobieństwo jest globalnie wklęsłe. Przy okazji, funkcje nie są „wysoce nieliniowe” w parametrach i to jest ważne.
user603
@ user603 jakie jest twoje źródło / dowód, że hessian jest wszędzie <0?
DankMasterDan
Regresje logistyczne, Poissona i Gaussa są często wypukłe, biorąc pod uwagę „dobrą” funkcję łącza. Jednak w przypadku dowolnej funkcji łącza nie są one wypukłe.
Memming

Odpowiedzi:

11

Definicja rodziny wykładniczej jest następująca:

p(x|θ)=h(x)exp(θTϕ(x)A(θ)),

gdzie jest funkcją partycji dziennika. Teraz można udowodnić, że następujące trzy rzeczy dotyczą przypadku 1D (i generalizują do wyższych wymiarów - możesz przyjrzeć się właściwościom rodziny wykładniczej lub partycji dziennika):A(θ)

  1. dAdθ=E[ϕ(x)]

  2. d2Adθ2=E[ϕ2(x)]E[ϕ(x)]2=var(ϕ(x))

  3. 2Aθiθj=E[ϕi(x)ϕj(x)]E[ϕi(x)]E[ϕj(x)]=cov(ϕ(x))Δ2A(θ)=cov(ϕ(x))

Powyższy wynik dowodzi, że jest wypukły (ponieważ c o v ( ϕ ( x ) ) jest dodatnim półfinałem). Teraz przyjrzymy się funkcji wiarygodności dla MLE: A(θ)cov(ϕ(x))

p(D|θ)=[i=1Nh(xi)] exp(θT[i=1Nϕ(xi)]NA(θ))log(p(D|θ))=θT[i=1Nϕ(xi)]NA(θ)=θT[ϕ(D)]NA(θ)

θT[ϕ(D)]A(θ)

Istnieje uogólniona wersja zwana zakrzywioną rodziną wykładniczą, która również byłaby podobna. Ale większość dowodów ma formę kanoniczną.

dksahuji
źródło
więc czy to oznacza, że ​​GLM ma unikalny globalny numer minimalny, która funkcja łącza jest wybrana (w tym te niekanoniczne)?
DankMasterDan
1
p(x|θ)=h(x)exp(η(θ)Tϕ(x)A(η(θ)))ηθηθ
Zauważ, że pytanie dotyczy raczej zbieżności, a nie tylko istnienia, ale z kilkoma ograniczeniami, które również mogą być wykonalne.
Glen_b
@Glen_b Czy potrafisz opracować? Nie znam takich ograniczeń. Może coś w rodzaju ograniczeń dotyczących stopniowania w optymalizatorze opartym na gradiencie do zbieżności w przypadku funkcji wklęsłej.
dksahuji
1
@Glen_b To może być prawda, ale nie widzę żadnego powodu, aby funkcja wklęsła nie była zbieżna z optymami w ramach niewielkiej tolerowanej wartości. Ale powiedziałbym, że nie mam z nimi żadnego praktycznego doświadczenia i właśnie zacząłem. :)
dksahuji