Oszacowanie parametrów za pomocą uogólnionych modeli liniowych

9

Domyślnie, gdy używamy glmfunkcji w R, używa iteracyjnie przeważonej metody najmniejszych kwadratów (IWLS) w celu znalezienia parametrów maksymalnego prawdopodobieństwa. Teraz mam dwa pytania.

  1. Czy szacunki IWLS gwarantują globalne maksimum funkcji wiarygodności? Na podstawie ostatniego slajdu w tej prezentacji, myślę, że nie! Chciałem się tylko upewnić.
  2. Czy możemy powiedzieć, że przyczyną powyższego pytania 1 jest fakt, że prawie wszystkie numeryczne metody optymalizacji mogą utknąć na maksimum lokalnym, a nie globalnym?
Stat
źródło

Odpowiedzi:

6

Gdy próbujesz oszacować parametry, zawsze chcesz mieć rozwiązanie w formie zamkniętej. Jednak nie zawsze istnieje (przypuszczam, że w niektórych przypadkach może istnieć jeden, ale obecnie nie jest znany). Gdy rozwiązanie w postaci zamkniętej nie istnieje, należy zastosować strategię heurystyczną, aby przeszukać przestrzeń parametrów w celu znalezienia najlepszych możliwych oszacowań parametrów. Istnieje wiele strategii, takich wyszukiwarek (np R, ? Optim wykazy 6 Metody ogólnego przeznaczenia). IRWLS to uproszczona wersja algorytmu Newtona-Raphsona .

Niestety odpowiedź na twoje [ 1 ] jest taka, że ​​żadna heurystyczna strategia wyszukiwania nie znajdzie globalnego minimum (maksimum). Istnieją trzy powody, dla których tak jest:

  1. Jak zauważono na slajdzie 9 połączonej prezentacji, nie może istnieć żadne unikalne rozwiązanie. Przykładem tego może być doskonała wielokoliniowość lub gdy jest więcej parametrów do oszacowania niż danych .
  2. Jak zauważono na slajdzie 10 (myślę, że prezentacja jest całkiem dobra), rozwiązanie może być nieskończone. Może się to zdarzyć w regresji logistycznej, na przykład, gdy masz idealną separację .
  3. Może się również zdarzyć, że istnieje skończone globalne minimum (maksimum), ale algorytm go nie znajduje. Algorytmy te (zwłaszcza IRWLS i NR) mają tendencję do rozpoczynania od określonej lokalizacji i „rozglądania się”, aby zobaczyć, czy poruszanie się w jakimś kierunku stanowi „schodzenie w dół” (tj. Poprawianie dopasowania). Jeśli tak, to ponownie dopasuje się w pewnej odległości w tym kierunku i będzie powtarzać, aż zgadnięta / przewidywana poprawa będzie mniejsza niż pewien próg. Zatem istnieją dwa sposoby, aby nie osiągnąć globalnego minimum:

    1. Szybkość opadania z bieżącej lokalizacji w kierunku globalnego minimum (maksimum) jest zbyt płytka, aby przekroczyć próg, a algorytm zatrzymuje się przed rozwiązaniem.
    2. Istnieje lokalne minimum (maksimum) między bieżącą lokalizacją a globalnym minimum (maksimum), więc algorytmowi wydaje się, że dalszy ruch doprowadziłby do gorszego dopasowania.

Jeśli chodzi o twoje [ 2 ], pamiętaj, że różne strategie wyszukiwania mają różne tendencje do wychwytywania lokalnych minimów. Nawet tę samą strategię można czasem dostosować lub rozpocząć od innego punktu wyjścia, aby rozwiązać dwa ostatnie problemy.

gung - Przywróć Monikę
źródło
Dzięki Gung. Jeszcze jedno pytanie, jak wybrać dobry punkt wyjścia przy optymalizacji?
Stat
Nie wiem, czy istnieje najlepszy sposób. Czasami musisz wypróbować kilka różnych punktów początkowych, jeśli się nie zbiegają lub nie masz pewności, czy osiągasz globalne minimum. Myślę, że powszechnym sposobem, w jaki programy wybierają punkt początkowy, jest użycie oszacowań OLS, nawet jeśli nie są one odpowiednie i wiesz, że będziesz musiał się stąd przenieść.
gung - Przywróć Monikę
6

Masz rację, że ogólnie IWLS, podobnie jak inne metody optymalizacji numerycznej, może zagwarantować zbieżność do lokalnego maksimum, nawet jeśli się zbiegnie. Oto ładny przykład, w którym wartość początkowa znajdowała się poza domeną konwergencji dla algorytmu używanego przez glm () w R. Jednak warto zauważyć, że dla GLM z łączem kanonicznym prawdopodobieństwo jest wklęsłe, patrz tutaj . Zatem jeśli algorytm się zbiegnie, to zbiegnie się w tryb globalny!

Ostatni problem wskazany na slajdzie to problem polegający na tym, że MLE dla parametru jest w nieskończoności. Może się to zdarzyć w regresji logistycznej, w której istnieje całkowite rozdzielenie. W takim przypadku pojawi się komunikat ostrzegawczy, że dopasowane prawdopodobieństwa wynoszą 0 lub 1. Ważne jest, aby pamiętać, że gdy to nastąpi, algorytm nie zszedł do trybu, więc nie ma to związku z tym, że algorytm jest utknął w lokalnym maksimum.

jsk
źródło