Chcę obliczyć AICc modelu regresji grzbietu. Problemem jest liczba parametrów. W przypadku regresji liniowej większość osób sugeruje, że liczba parametrów jest równa liczbie szacowanych współczynników plus sigma (wariancja błędu).
Jeśli chodzi o regresję grzbietu, czytam, że ślad macierzy kapelusza - stopień swobody (df) - jest po prostu używany jako liczba parametrów terminu we wzorze AIC (np. Tutaj lub tutaj ).
Czy to jest poprawne? Czy mogę również po prostu użyć df do obliczenia AICc? Czy mogę po prostu dodać +1 do pliku df, aby uwzględnić wariancję błędu?
regression
aic
ridge-regression
degrees-of-freedom
juliański
źródło
źródło
Odpowiedzi:
AIC i regresję grzbietu można dostosować, jeśli zostaną przyjęte pewne założenia. Jednak nie ma jednej metody wyboru skurczu do regresji grzbietu, a zatem nie ma ogólnej metody stosowania do niego AIC. Regresja grzbietu jest podzbiorem regularyzacji Tichonowa . Istnieje wiele kryteriów, które można zastosować do wyboru współczynników wygładzania dla regularyzacji Tichonowa, np. Zobacz to . Aby użyć AIC w tym kontekście, istnieje dokument, który zawiera raczej konkretne założenia, jak przeprowadzić tę regularyzację, wybór parametru regularyzacji opartego na złożoności informacji dla rozwiązania źle uwarunkowanych problemów odwrotnych . W szczególności zakłada to
„W ramach statystycznych ... wybierając wartość parametru regularyzacji α i stosując metodę maksymalnego prawdopodobieństwa kary (MPL) ... Jeśli weźmiemy pod uwagę nieskorelowany szum Gaussa z wariancją i zastosujemy karę skomplikowana norma, patrz link powyżej , rozwiązanie MPL jest takie samo jak rozwiązanie uregulowane przez Tichonowa (1963). ”σ2 p(x)=
Powstaje zatem pytanie, czy należy przyjąć te założenia? Kwestia potrzebnych stopni swobody jest drugorzędna w stosunku do pytania, czy AIC i regresja kalenicowa są stosowane w spójnym kontekście. Sugerowałbym przeczytanie linku po szczegóły. Nie unikam pytania, po prostu można użyć wielu rzeczy jako celów granicznych, na przykład można użyć współczynnika wygładzania, który optymalizuje sam AIC . Tak więc jedno dobre pytanie zasługuje na drugie: „Po co zawracać sobie głowę AIC w kontekście grzbietu?” W niektórych kontekstach regresji grzbietu trudno jest zrozumieć, w jaki sposób AIC może być odpowiedni. Na przykład, cofnięcie grzbiet została zastosowana w celu zminimalizowania względnego propagacji błędów w , to znaczy minimumb [SD(b)b] rozkładu gamma (GD) podanego przez
zgodnie z tym artykułem . W szczególności, ta trudność pojawia się, ponieważ w tym dokumencie, jest w efekcie rea U RSR w Czas C Urve (AUC), który jest zoptymalizowany i nie maksymalnego prawdopodobieństwa (ML) dobroci mieści się między zmierzonymi próbkami czasu. Żeby było jasne, dzieje się tak, ponieważ AUC jest źle ułożoną całką, a w przeciwnym razie, np. Przy użyciu ML, dopasowanie rozkładu gamma nie byłoby solidne. Zatem dla tego konkretnego zastosowania maksymalne prawdopodobieństwo, a więc AIC, jest w rzeczywistości nieistotne. (Mówi się, że AIC jest używany do przewidywania, a BIC do dopasowania. Jednak prognozy i dopasowanie są tylko pośrednio związane z solidną miarą AUC.)[0,∞) [ t 1 , t n ][t1,tn]
Jeśli chodzi o odpowiedź na pytanie , pierwsze odniesienie w tekście pytania brzmi: „Najważniejsze jest, aby zauważyć, że jest funkcją malejącą [ Sic , współczynnik wygładzający] z [ Sic , liczba efektywna parametrów patrz ślad macierzy kapelusza poniżej] przy i przy . " Co oznacza, że jest równy liczbie parametrów minus liczba oszacowanych wielkości, gdy nie ma wygładzania, co jest również wtedy, gdy regresja jest taka sama jak zwykłe najmniejszych kwadratów i zmniejsza się do niedf λ d f = p λ = 0 d f = 0 λ = ∞ d f d f ∞ d fdf=p λ=0 df=0 λ=∞ df df wraz ze wzrostem współczynnika wygładzania do . Zauważ, że dla nieskończonego wygładzania dopasowanie jest płaską linią, niezależnie od tego, jaka funkcja gęstości jest dopasowana. Wreszcie, że dokładna liczba jest funkcją.∞ df
„Można pokazać, że ), gdzie { } są wartościami własnymi ” Co ciekawe, to samo odniesienie definiuje jako ślad macierzy kapelusza, patrz def .dfridge=∑(λi/(λi+λ λi XTX df
źródło