AIC regresji kalenicowej: stopnie swobody a liczba parametrów

13

Chcę obliczyć AICc modelu regresji grzbietu. Problemem jest liczba parametrów. W przypadku regresji liniowej większość osób sugeruje, że liczba parametrów jest równa liczbie szacowanych współczynników plus sigma (wariancja błędu).

Jeśli chodzi o regresję grzbietu, czytam, że ślad macierzy kapelusza - stopień swobody (df) - jest po prostu używany jako liczba parametrów terminu we wzorze AIC (np. Tutaj lub tutaj ).

Czy to jest poprawne? Czy mogę również po prostu użyć df do obliczenia AICc? Czy mogę po prostu dodać +1 do pliku df, aby uwzględnić wariancję błędu?

juliański
źródło
2
Podoba mi się to pytanie, ponieważ ogólne dane wejściowe dla AICc to RSS, k, i n - ale zwykle nie wybiera solidnych modeli zamiast modeli z najmniejszym błędem dla tej samej liczby parametrów. Jeśli zastosujesz to samo podejście do dopasowania modeli kandydujących i dopasujesz te same dane, to wybór modelu jest wyborem modelu. Podoba mi się pytanie, w jaki sposób mierzysz teorię informacji najlepiej dopasowaną do tego samego modelu i danych, ale używając różnych typów dopasowania, takich jak błąd najmniejszych kwadratów i utrata Hubera.
EngrStudent
3
@EngrStudent, tylko mała uwaga: RSS to szczególny przypadek normalnego prawdopodobieństwa. Gdy zakłada się inną (nienormalną) dystrybucję, AIC nie będzie zawierał RSS, a raczej logarytmiczne prawdopodobieństwo modelu. Również typy dopasowania : czy masz na myśli funkcje utraty, według których model jest oceniany, czy funkcję straty stosowaną do dopasowania modelu, czy jeszcze coś innego?
Richard Hardy
1
@RichardHardy - Masz rację co do normalnego prawdopodobieństwa! W praktyce centralne twierdzenie o granicy jest nadmiernie wykorzystywane. W tym przypadku oznaczało to to samo, kiedy powiedziałem „funkcja dopasowania”, a ty mówisz „funkcja utraty”. Myślę o najmniejszych kwadratach w kategoriach pseudo-odwrotności jako pierwszej, a miar błędów - po drugie. Jest to artefakt „sekwencji uczenia się” w moich procesach myślowych i komunikacyjnych.
EngrStudent,
1
@EngrStudent, dzięki. Zauważ też, że zaoferowałem dwa zastosowania funkcji straty: dopasowanie (funkcja celu empirycznego, z której pochodzi estymator) i ocena (funkcja celu teoretycznego, którą chcemy zoptymalizować).
Richard Hardy

Odpowiedzi:

4

AIC i regresję grzbietu można dostosować, jeśli zostaną przyjęte pewne założenia. Jednak nie ma jednej metody wyboru skurczu do regresji grzbietu, a zatem nie ma ogólnej metody stosowania do niego AIC. Regresja grzbietu jest podzbiorem regularyzacji Tichonowa . Istnieje wiele kryteriów, które można zastosować do wyboru współczynników wygładzania dla regularyzacji Tichonowa, np. Zobacz to . Aby użyć AIC w tym kontekście, istnieje dokument, który zawiera raczej konkretne założenia, jak przeprowadzić tę regularyzację, wybór parametru regularyzacji opartego na złożoności informacji dla rozwiązania źle uwarunkowanych problemów odwrotnych . W szczególności zakłada to

„W ramach statystycznych ... wybierając wartość parametru regularyzacji α i stosując metodę maksymalnego prawdopodobieństwa kary (MPL) ... Jeśli weźmiemy pod uwagę nieskorelowany szum Gaussa z wariancją i zastosujemy karę skomplikowana norma, patrz link powyżej , rozwiązanie MPL jest takie samo jak rozwiązanie uregulowane przez Tichonowa (1963). ”σ2p(x)=

Powstaje zatem pytanie, czy należy przyjąć te założenia? Kwestia potrzebnych stopni swobody jest drugorzędna w stosunku do pytania, czy AIC i regresja kalenicowa są stosowane w spójnym kontekście. Sugerowałbym przeczytanie linku po szczegóły. Nie unikam pytania, po prostu można użyć wielu rzeczy jako celów granicznych, na przykład można użyć współczynnika wygładzania, który optymalizuje sam AIC . Tak więc jedno dobre pytanie zasługuje na drugie: „Po co zawracać sobie głowę AIC w kontekście grzbietu?” W niektórych kontekstach regresji grzbietu trudno jest zrozumieć, w jaki sposób AIC może być odpowiedni. Na przykład, cofnięcie grzbiet została zastosowana w celu zminimalizowania względnego propagacji błędów w , to znaczy minimumb[SD(b)b] rozkładu gamma (GD) podanego przez

GD(t;a,b)=1tebt(bt)aΓ(a);t0,

zgodnie z tym artykułem . W szczególności, ta trudność pojawia się, ponieważ w tym dokumencie, jest w efekcie rea U RSR w Czas C Urve (AUC), który jest zoptymalizowany i nie maksymalnego prawdopodobieństwa (ML) dobroci mieści się między zmierzonymi próbkami czasu. Żeby było jasne, dzieje się tak, ponieważ AUC jest źle ułożoną całką, a w przeciwnym razie, np. Przy użyciu ML, dopasowanie rozkładu gamma nie byłoby solidne. Zatem dla tego konkretnego zastosowania maksymalne prawdopodobieństwo, a więc AIC, jest w rzeczywistości nieistotne. (Mówi się, że AIC jest używany do przewidywania, a BIC do dopasowania. Jednak prognozy i dopasowanie są tylko pośrednio związane z solidną miarą AUC.)[0,)[ t 1 , t n ][t1,tn]

Jeśli chodzi o odpowiedź na pytanie , pierwsze odniesienie w tekście pytania brzmi: „Najważniejsze jest, aby zauważyć, że jest funkcją malejącą [ Sic , współczynnik wygładzający] z [ Sic , liczba efektywna parametrów patrz ślad macierzy kapelusza poniżej] przy i przy . " Co oznacza, że jest równy liczbie parametrów minus liczba oszacowanych wielkości, gdy nie ma wygładzania, co jest również wtedy, gdy regresja jest taka sama jak zwykłe najmniejszych kwadratów i zmniejsza się do niedfλd f = p λ = 0 d f = 0 λ = d f d f d fdf=pλ=0df=0λ=dfdf wraz ze wzrostem współczynnika wygładzania do . Zauważ, że dla nieskończonego wygładzania dopasowanie jest płaską linią, niezależnie od tego, jaka funkcja gęstości jest dopasowana. Wreszcie, że dokładna liczba jest funkcją.df

„Można pokazać, że ), gdzie { } są wartościami własnymi ” Co ciekawe, to samo odniesienie definiuje jako ślad macierzy kapelusza, patrz def .dfridge=(λi/(λi+λλiXTXdf

Carl
źródło