Fisher Scoring v / s Współrzędne Descent dla MLE in R

Funkcja podstawowa R glm()wykorzystuje punktację Fishera dla MLE, podczas gdy glmnetwydaje się, że używa metody opadania współrzędnych do rozwiązania tego samego równania. Opadanie współrzędnych jest bardziej wydajne czasowo niż punktacja Fishera, ponieważ punktacja Fishera oblicza macierz pochodną drugiego rzędu, oprócz niektórych innych operacji macierzy. co sprawia, że jest to kosztowne do wykonania, podczas gdy zniżanie współrzędnych może wykonać to samo zadanie w czasie O (np).

Dlaczego funkcja podstawowa R miałaby korzystać z Fishera? Czy ta metoda ma przewagę nad innymi metodami optymalizacji? Jak porównuje się opadanie współrzędnych i Scoring Fishera? Jestem stosunkowo nowy, aby robić to pole, więc wszelka pomoc lub zasoby będą pomocne.

machine-learning r algorithms optimization Gol
źródło

Odpowiedzi:

Jedynym sposobem, aby się upewnić, jest analiza porównawcza, ale dla glm ocena Fishera powinna być szybsza niż zejście ze współrzędnymi. Punktacja Fishera jest szczególnym przypadkiem Newtona Raphsona, który ma większą szybkość zbieżności niż zniżanie współrzędnych (Newton-Raphson jest zbieżny kwadratowo, podczas gdy opadanie współrzędnych jest zbieżne liniowo.) Tak więc, podczas gdy obliczanie informacji drugiej pochodnej oznacza, że każdy krok wymaga więcej czas może wymagać o wiele mniej kroków niż zejście współrzędnych.

W przypadku lasso specjalna forma kary powoduje, że jest to bardzo szczególny przypadek (w rzeczywistości wartość absolutna i tak nie jest różna, choć czasem można to wyrafinować). W przypadku tego szczególnego problemu opadanie współrzędnych okazuje się szczególnie szybkie. Istnieje wiele innych problemów z optymalizacją, w których w praktyce Newton-Raphson jest szybszy.

arsmath
źródło