Książka Elements of Statistics Learning (dostępna w PDF online) omawia stronniczość optymisim (7.21, strona 229). Stwierdza, że nastawienie optymistyczne stanowi różnicę między błędem treningu a błędem w próbie (błąd zaobserwowany, jeśli próbkujemy nowe wartości wyników w każdym z oryginalnych punktów szkolenia) (poniżej).
Następnie stwierdza, że to uprzedzenie optymistyczne ( ) jest równe kowariancji naszych oszacowanych wartości y i rzeczywistych wartości y (wzór poniżej). Mam problem ze zrozumieniem, dlaczego ta formuła wskazuje na uprzedzenie optymistyczne; naiwnie pomyślałbym, że silna kowariancja między rzeczywistym a przewidywanym opisuje jedynie dokładność, a nie optymizm. Daj mi znać, czy ktoś może pomóc w wyprowadzeniu wzoru lub podzielić się intuicją.
źródło
Odpowiedzi:
Zacznijmy od intuicji.
Nie ma nic złego w używaniu do przewidywania . W rzeczywistości nieużywanie go oznaczałoby, że wyrzucamy cenne informacje. Jednak im bardziej będziemy polegać na informacjach zawartych w aby opracować naszą prognozę, tym bardziej nadmiernie optymistyczny będzie nasz estymator.yja y^ja yja
Z jednej strony, jeśli jest po prostu , będziesz mieć doskonałe przewidywanie próbek ( ), ale jesteśmy prawie pewni, że przewidywanie poza próbą będzie złe. W takim przypadku (łatwo to sprawdzić samodzielnie) stopnie swobody będą wynosić .y^ja yja R2)= 1 refa(y^) = n
Z drugiej strony, jeśli użyjesz przykładowej średniej : dla wszystkich , wówczas twój stopień swobody wyniesie po prostu 1.y yja=yja^=y¯ ja
Sprawdź ten miły przekaz Ryana Tibshiraniego, aby uzyskać więcej informacji na temat tej intuicji
Teraz podobny dowód na drugą odpowiedź, ale z nieco większym wyjaśnieniem
Pamiętaj, że z definicji przeciętny optymizm to:
Teraz użyj kwadratowej funkcji straty i rozwiń kwadraty:
użyj aby zastąpić:miymiY0[ (Y0ja)2)] =miy[y2)ja]
Aby zakończyć, zauważ, że , co daje:doo v ( x , w ) = E[ x w ] - E[ x ] E[ w ]
źródło
Niech zatemfa^(xja) =y^ja
źródło