Zrozumienie pochodnej kompromisowej wariancji odchylenia

20

Czytam rozdział dotyczący kompromisu wariancji odchylenia w elementach statystycznego uczenia się i mam wątpliwości co do wzoru na stronie 29. Niech dane pochodzą z modelu takiego, że gdzie jest losowy liczba o oczekiwanej wartości i wariancja . Niech oczekiwana wartość błędu modelu wynosi gdzie jest prognozą naszego ucznia. Zgodnie z książką, błąd to

Y=f(x)+ϵ
ε = E [ ε ] = 0 E [ ( ε - ε ) 2 ] = E [ ε 2 ] = Ď 2 E [ ( Y - f k ( x ) ) 2 ] f k ( x ) x E [ ( Y -ϵϵ^=E[ϵ]=0E[(ϵϵ^)2]=E[ϵ2]=σ2
E[(Yfk(x))2]
fk(x)x
E[(Yfk(x))2]=σ2+Bias(fk)2+Var(fk(x)).

Moje pytanie brzmi: dlaczego pojęcie błędu nie jest równe 0? opracowując formułę błędu widzę

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)fk(x))ϵ]+σ2

ponieważ jest niezależną liczbą losową 2E [(f (x) -f_k (x)) \ epsilon] = 2E [(f (x) -f_k (x))] E [\ epsilon] = 02 E [ ( f ( x ) - f k ( x ) ) ϵ ] = 2 E [ ( f ( x ) - f k ( x ) ) ] E [ ϵ ] = 0ϵ2E[(f(x)fk(x))ϵ]=2E[(f(x)fk(x))]E[ϵ]=0

Gdzie się mylę?

emanuele
źródło

Odpowiedzi:

20

Nie mylisz się, ale popełniłeś błąd w jednym kroku, ponieważ mi[(fa(x)-fak(x))2)]V.zar(fak(x)) . mi[(fa(x)-fak(x))2)] to MSE(fak(x))=V.zar(fak(x))+Stronniczość2)(fak(x)) .

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2=Var(fk(x))+Bias2(fk(x))+σ2.

Uwaga: E[(fk(x)E(fk(x)))(f(x)E(fk(x))]=E[fk(x)E(fk(x))](f(x)E(fk(x)))=0.

Greenparker
źródło
W przypadku wyników binarnych, czy istnieje równoważny dowód z entropią krzyżową jako miarą błędu?
emanuele
1
Nie działa tak dobrze z odpowiedzią binarną. Zobacz przykład 7.2 w drugim wydaniu „Elementów statystycznego uczenia się”.
Matthew Drury
3
czy możesz wyjaśnić, jak idziesz z to ? V a r ( f kE[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2Var(fk(x))+Bias2(fk(x))+σ2
Antoine,
16

Jeszcze kilka kroków rozkładu odchylenia - odchylenie

Rzeczywiście, pełna pochodna rzadko jest podawana w podręcznikach, ponieważ wiąże się z wieloma mało inspirującymi algebrami. Oto pełniejsze wyprowadzenie za pomocą notacji z książki „Elementy uczenia statystycznego” na stronie 223


Jeśli założymy, że i i to możemy wyprowadzić wyrażenie dla oczekiwanego błędu prognozy dopasowania regresji na wejściu wykorzystaniem kwadratowej utraty błędówY=f(X)+ϵE[ϵ]=0Var(ϵ)=σϵ2f ( X ) X = x 0f^(X)X=x0

Err(x0)=E[(Yf^(x0))2|X=x0]

Dla uproszczenia notacyjnego niech , i przypomnij sobie, że if^(x0)=f^f(x0)=fE[f]=fE[Y]=f

E[(Yf^)2]=E[(Yf+ff^)2]=E[(yf)2]+E[(ff^)2]+2E[(ff^)(yf)]=E[(f+ϵf)2]+E[(ff^)2]+2E[fYf2f^Y+f^f]=E[ϵ2]+E[(ff^)2]+2(f2f2fE[f^]+fE[f^])=σϵ2+E[(ff^)2]+0

Dla terminu możemy użyć podobnej sztuczki jak powyżej, dodając i odejmując aby uzyskaćE[(ff^)2]E[f^]

E[(ff^)2]=E[(f+E[f^]E[f^]f^)2]=E[fE[f^]]2+E[f^E[f^]]2=[fE[f^]]2+E[f^E[f^]]2=Bias2[f^]+Var[f^]

Składając to razem

E[(Yf^)2]=σϵ2+Bias2[f^]+Var[f^]


Kilka komentarzy na temat tego, dlaczegoE[f^Y]=fE[f^]

Zaczerpnięte z Alecos Papadopoulos tutaj

Przypomnijmy, że jest predyktorem, który zbudowaliśmy na podstawie punktów danych , abyśmy mogli napisać aby to zapamiętać.f^m{(x(1),y(1)),...,(x(m),y(m))}fa^=fa^m

Z drugiej strony jest prognozą, którą tworzymy dla nowego punktu danych za pomocą modelu zbudowanego na punktach danych powyżej. Tak więc średni błąd kwadratu można zapisać jakoY(x(m+1),y(m+1))m

mi[fa^m(x(m+1))-y(m+1)]2)

Rozszerzanie równania z poprzedniej sekcji

mi[fa^mY]=mi[fa^m(fa+ϵ)]=mi[fa^mfa+fa^mϵ]=mi[fa^mfa]+mi[fa^mϵ]

Ostatnia część równania może być postrzegana jako

mi[fa^m(x(m+1))ϵ(m+1)]=0

Ponieważ przyjmujemy następujące założenia dotyczące punktu :x(m+1)

  • To był nie wykorzystane przy konstruowaniufa^m
  • Jest niezależny od wszystkich innych obserwacji{(x(1),y(1)),...,(x(m),y(m))}
  • Jest niezależny odϵ(m+1)

Inne źródła z pełnymi pochodnymi

Xavier Bourret Sicotte
źródło
1
Dlaczego ? Nie sądzę, i są niezależne, ponieważ jest zasadniczo zbudowane z użyciem . mi[fa^Y]=fami[fa^]Yfa^fa^Y
Felipe Pérez,
5
Ale pytanie jest zasadniczo takie samo, dlaczego ? Losowość wynika z błędu więc nie rozumiem, dlaczego i byłyby niezależne, a zatem . mi[fa^ϵ]=0fa^ϵfa^ϵmi(fa^ϵ)=0
Felipe Pérez,
Z twojej precyzji wynika, że ​​perspektywa próby i próby jest kluczowa. To jest tak? Jeśli pracujemy tylko w próbce, a następnie zobacz jako resztkowe, odchylenie wariancji odchylenia zniknie? ϵ
markowitz
1
@ FelipePérez, o ile rozumiem, przypadkowość pochodzi z podziału testu na pociąg (które punkty znalazły się w zestawie treningowym i dały jako wyszkolony predyktor). Innymi słowy, wariancja pochodzi ze wszystkich możliwych podzbiorów danego ustalonego zestawu danych, który możemy przyjąć jako zbiór szkoleniowy. Ponieważ zestaw danych jest stały, losowość nie pochodzi z a zatem i są niezależne. fa^fa^fa^ϵfa^ϵ
Alberto Santini,