Błąd nastawienia optymistycznego - szacunki błędu prognozowania

9

Książka Elements of Statistics Learning (dostępna w PDF online) omawia stronniczość optymisim (7.21, strona 229). Stwierdza, że ​​nastawienie optymistyczne stanowi różnicę między błędem treningu a błędem w próbie (błąd zaobserwowany, jeśli próbkujemy nowe wartości wyników w każdym z oryginalnych punktów szkolenia) (poniżej).

wprowadź opis zdjęcia tutaj

Następnie stwierdza, że ​​to uprzedzenie optymistyczne ( ) jest równe kowariancji naszych oszacowanych wartości y i rzeczywistych wartości y (wzór poniżej). Mam problem ze zrozumieniem, dlaczego ta formuła wskazuje na uprzedzenie optymistyczne; naiwnie pomyślałbym, że silna kowariancja między rzeczywistym a przewidywanym opisuje jedynie dokładność, a nie optymizm. Daj mi znać, czy ktoś może pomóc w wyprowadzeniu wzoru lub podzielić się intuicją. ωyy

wprowadź opis zdjęcia tutaj

użytkownik1885116
źródło
Bardzo pomocny, dziękuję! Myślę, że jedno z równań ma niewielką literówkę i powinno być:=1N.ja=1N.(miy[yja2)]+miy[y^ja2)]-2)miy[yja]miy[y^ja]-miy[yja2)]-miy[y^ja2)]+2)mi[yjay^ja])
Sleepster

Odpowiedzi:

8

Zacznijmy od intuicji.

Nie ma nic złego w używaniu do przewidywania . W rzeczywistości nieużywanie go oznaczałoby, że wyrzucamy cenne informacje. Jednak im bardziej będziemy polegać na informacjach zawartych w aby opracować naszą prognozę, tym bardziej nadmiernie optymistyczny będzie nasz estymator.yjay^jayja

Z jednej strony, jeśli jest po prostu , będziesz mieć doskonałe przewidywanie próbek ( ), ale jesteśmy prawie pewni, że przewidywanie poza próbą będzie złe. W takim przypadku (łatwo to sprawdzić samodzielnie) stopnie swobody będą wynosić .y^jayjaR2)=1refa(y^)=n

Z drugiej strony, jeśli użyjesz przykładowej średniej : dla wszystkich , wówczas twój stopień swobody wyniesie po prostu 1.yyja=yja^=y¯ja

Sprawdź ten miły przekaz Ryana Tibshiraniego, aby uzyskać więcej informacji na temat tej intuicji


Teraz podobny dowód na drugą odpowiedź, ale z nieco większym wyjaśnieniem

Pamiętaj, że z definicji przeciętny optymizm to:

ω=miy(mirrjan-mirr¯)

=miy(1N.ja=1N.miY0[L.(Yja0,fa^(xja)|T.)]-1N.ja=1N.L.(yja,fa^(xja)))

Teraz użyj kwadratowej funkcji straty i rozwiń kwadraty:

=miy(1N.ja=1N.miY0[(Yja0-y^ja)2)]-1N.ja=1N.(yja-y^ja)2)))

=1N.ja=1N.(miymiY0[(Yja0)2)]+miymiY0[y^ja2)]-2)miymiY0[Yja0y^ja]-miy[yja2)]-miy[y^ja2)]+2)mi[yjay^ja])

użyj aby zastąpić:miymiY0[(Yja0)2)]=miy[yja2)]

=1N.ja=1N.(miy[yja2)]+miy[yja^2)]-2)miy[yja]miy[y^ja]-miy[yja2)]-miy[y^ja2)]+2)mi[yjay^ja])

=2)N.ja=1N.(mi[yjay^ja]-miy[yja]miy[y^ja])

Aby zakończyć, zauważ, że , co daje:doov(x,w)=mi[xw]-mi[x]mi[w]

=2)N.ja=1N.doov(yja,y^ja)
cd98
źródło
5
Muszę zaznaczyć, że nazywa się „Ryan Tibshirani” Rob Tibshirani
Robert Tibshirani
2
Witamy na naszej stronie, Rob - przywilej jest mieć cię tutaj, choćby po to, aby naprawić błąd! Jeśli zobaczysz więcej, daj nam znać: i oczywiście bylibyśmy zadowoleni z odpowiedzi, które Ty (lub uczniowie) chcielibyście opublikować. Twoja praca jest szeroko wymieniona na tej stronie, szczególnie ESL i wprowadzenie do Bootstrap.
whuber
Umysł wyjaśniając ? Ponadto, jest ? miymiY0[(Yja0)2)]=miy[yja2)]2)miymiY0[Yja0y^ja]=2)miy[miY0[Yja0]miY0[y^ja]]=2)miy[yja]miy[y^ja]
Shookie
7

Niech zatem fa^(xja)=y^ja

ω=miy[op]=miy[mirrjan-mirr¯]=miy[mirrjan]-miy[mirr¯]=miy[1N.ja=1N.miY0[L.(Yja0,fa^(xja))]-miy[1N.ja=1N.L.(yja,fa^(xja))]=1N.ja=1N.miymiY0[(Yja0-y^ja)2)]-miy[(yja-y^ja)2)]=1N.ja=1N.miymiY0[(Yja0)2)]+miymiY0[y^ja2)]-2)miymiY0[Yja0y^ja]-miy[yja2)]-miy[y^ja2)]+2)miy[yjay^ja]=1N.ja=1N.miy[yja2)]+miy[y^ja2)]-2)miy[yja]miy[y^ja]-miy[yja2)]-miy[y^ja2)]+2)miy[yjay^ja]=2)N.ja=1N.miy[yjay^ja]-miy[yja]miy[y^ja]=2)N.ja=1N.miy[yjay^ja-yjamiy[y^ja]-miy[yja]y^ja+miy[yja]miy[y^ja]]=2)N.ja=1N.miy[(y^ja-miy[y^ja])([yja-miy[yja])]=2)N.ja=1N.doov(y^ja,yja)
CO BYŁO DO OKAZANIA
Maciej Lazarewicz
źródło
1
Cztery ostatnie kroki można uprościć za pomocą tej właściwości kowariancji:mi[xw]-mi[x]mi[w]=doov(x,w)
cd98