Dlaczego robimy tak duże zamieszanie z wykorzystaniem punktacji Fishera, gdy dopasowujemy GLM?

Zastanawiam się, dlaczego traktujemy dopasowywanie GLMS tak, jakby były jakimś specjalnym problemem optymalizacji. Czy oni są? Wydaje mi się, że są one po prostu maksymalne prawdopodobieństwo i że zanotujemy prawdopodobieństwo, a następnie ... zwiększamy je! Dlaczego więc używamy punktacji Fishera zamiast niezliczonej liczby schematów optymalizacji opracowanych w stosowanej literaturze matematycznej?

generalized-linear-model optimization fisher-scoring Andrew Robinson
źródło

O ile rozumiem, ma to związek z faktem, że algorytm oparty na punktacji Fishera (który korzysta z oczekiwanego Hesji) nie potrzebuje początkowych oszacowań wektora współczynnika, w przeciwieństwie do zwykłego Newtona-Raphsona (który korzysta z obserwowanego Hesji), który robi ... To sprawia, że Forsowanie punktów jest znacznie łatwiejsze w użyciu. Ale niektórzy używają algorytmów hybrydowych, zaczynając od IRLS, a następnie przechodząc na Newton-Raphson. Zobacz rozdział 3.4 w książce Hardin & Hilbe, gen.lib.rus.ec/…

Tom Wenseleers

Odpowiedzi:

Punktacja Fishera jest tylko wersją metody Newtona, którą akurat identyfikuje się z GLM, nie ma w tym nic specjalnego, poza faktem, że matryca informacji Fishera jest dość łatwa do znalezienia dla zmiennych losowych w rodzinie wykładniczej. Łączy się również z wieloma innymi materiałami matematycznymi, które zwykle pojawiają się w tym samym czasie, i daje miłą geometryczną intuicję na temat tego, co dokładnie oznacza informacja Fishera.

Nie ma absolutnie żadnego powodu, dla którego mogę myśleć o tym, aby nie używać innego optymalizatora, jeśli wolisz, poza tym, że możesz go kodować ręcznie, zamiast używać wcześniej istniejącego pakietu. Podejrzewam, że jakikolwiek silny nacisk na punktację Fishera jest połączeniem (w kolejności malejącej wagi) pedagogiki, łatwości wyprowadzania, historycznego nastawienia i zespołu „nie wymyślonego tutaj”.

Bogaty
źródło

Nie sądzę, aby było to całkiem poprawne - algorytm IRLS używa oczekiwanego Hesji, podczas gdy Newton-Raphson używa obserwowanego Hesji - zobacz gen.lib.rus.ec/..., aby uzyskać szczegółowe porównanie 2 algorytmów ...

Tom Wenseleers

@TomWenseleers Czy mógłbyś opracować odpowiedź? Czy to oznacza, że złożoność algorytmiczna regresji beta nie jest powodem, dla którego jest ona traktowana jako problem odrębny od GLM?

Frans Rodenburg

@Frans Rodenburg Nie tak dobrze w regresji beta, ale uważam, że standardowa metoda IRLS działa tylko dla rozkładów jednoparametrowych z rodziny wykładniczej, podczas gdy regresja beta jest rozkładem wykładniczym 2-parametrowym ... Zobacz stats.stackexchange.com/ pytania / 304538 /… Współczynnik proporcjonalności Coxa i ujemny dwumian również mają dodatkowy parametr i można je dopasować za pomocą zmodyfikowanego algo IRLS, więc nie jestem pewien ...

Tom Wenseleers

Inną zaletą korzystania z punktacji Fishera / IRLS z oczekiwanym Bess Hesji jest to, że algo jest znacznie łatwiejsze do zainicjowania - patrz sekcja 3.4 w książce Hardin & Hilbe. Kontrastuje to z Newtonem Raphsonem, w którym trzeba wstępnie odgadnąć wektor współczynnika, co jest trochę trudne ... Czasami ludzie używają algorytmów hybrydowych i zaczynają od IRLS z oceną Fishera, a następnie po kilku iteracjach przechodzą na zwykłego Newtona Raphsona ...

Tom Wenseleers

Jest to historyczne i pragmatyczne; GLM-y Neldera i Wedderburn, jako zestaw modeli, w których można znaleźć MLE za pomocą oceny Fishera (tj. Iteracyjnie ReWeighted Least Squares). Algorytm pojawił się przed modelami, przynajmniej w ogólnym przypadku.

Warto również pamiętać, że IWLS był tym, co mieli na początku lat 70., więc GLM były ważną klasą modeli, o których warto wiedzieć. Fakt, że można w wiarygodny sposób zmaksymalizować prawdopodobieństwa GLM przy użyciu algorytmów typu Newtona (zazwyczaj mają one unikalne MLE), oznaczał również, że programy takie jak GLIM mogą być używane przez osoby bez umiejętności optymalizacji numerycznej.

Gość
źródło

Tom Wenseleers