Z An Introduction to Statistical Learning przez James i wsp., Przerwa, jeden z krzyżowego (LOOCV) oszacowanie jest określone przez
gdzie.
Bez dowodu równanie (5.2) stwierdza, że dla regresji metodą najmniejszych kwadratów lub wielomianu (to, czy dotyczy to regresji tylko jednej zmiennej, jest dla mnie nieznane),
, gdzie "yItojath wyposażona wartość od oryginału najmniejszych kwadratów pasuje (nie wiem co to znaczy, tak przy okazji, to znaczy z użyciemwszystkich? Z punktów w zbiorze danych) orazhijest dźwignią ”, która jest zdefiniowana przezhi=1
Jak można to udowodnić?
Moja próba: można zacząć od zauważając, że Y i = β 0 + k Σ i = 1 β k X k + , ale poza tym (i jeśli przypomnieć, że wzór na godzinę i ma jedynie prawda w przypadku prostej regresji liniowej ...), nie jestem pewien, jak to zrobić.
regression
self-study
cross-validation
least-squares
Klarnecista
źródło
źródło
Odpowiedzi:
Pokażę wynik dla dowolnej wielokrotnej regresji liniowej, niezależnie od tego, czy regresory są wielomianami czy nie. W rzeczywistości pokazuje nieco więcej niż to, o co prosiłeś, ponieważ pokazuje, że każda reszta LOOCV jest identyczna z odpowiednią resztą ważoną dźwignią z pełnej regresji, nie tylko że możesz uzyskać błąd LOOCV jak w (5.2) (tam mogą być inne sposoby, w jakie średnie się zgadzają, nawet jeśli nie każdy termin w średniej jest taki sam).Xt
Pozwól mi skorzystać z lekko dostosowanej notacji.
My najpierw pokazać, że p w którym β jest oszacowanie przy użyciu wszystkich danych i p (t)estymaty wychodząc zX(t), obserwacjit. NiechXtbyć zdefiniowana jako szereg wektora, tak że Y T=Xt β . U Tsą reszty.
Dowód wykorzystuje następujący wynik algebraiczny macierzy.
Niech będzie macierzą niesingularną, b wektorem, a λ skalarem. GdybyA b λ Następnie
(A+λbb′)-1
The following result is helpful to prove (A)
Proof of (C): By (B) we have, using∑Tt=1X′tXt=X′X ,
The proof of (A) now follows from (C): As
Now, noteht=Xt(X′X)−1X′t . Multiply through in (A) by Xt , add yt on both sides and rearrange to get, with u^(t) the residuals resulting from using β^(t) (yt−Xtβ^(t) ),
źródło