Rozważmy problem związany z klasyfikacją zestawu danych MNIST.
Według strony MNIST Yanna LeCuna „Ciresan i in.” uzyskał poziom błędu 0,23% w zestawie testowym MNIST przy użyciu sieci neuronowej Convolutional.
Oznaczmy zestaw treningowy MNIST jako , zestaw testowy MNIST jako , ostateczną hipotezę, którą uzyskali przy użyciu jako , oraz ich wskaźnik błędów na zestawie testowym MNIST przy użyciu h_ {1} jako E_ {test} (h_ {1}) = 0,0023 .
W ich punktu widzenia, ponieważ jest losowo zestaw testowy z przestrzeni wejściowej niezależnie od można podkreślają, że nie stanowiącego przykład wykonania błędu ostatecznego hipotezy jest ograniczone jak wynika z nierówności Hoeffdinga
gdzie .
Innymi słowy, przynajmniej prawdopodobieństwo , E o u t ( h 1 ) ≤ E t e s t ( h 1 ) + √
Rozważmy inny punkt widzenia. Załóżmy, że ktoś chce dobrze sklasyfikować zestaw testów MNIST. Więc po raz pierwszy spojrzał na stronę MNIST Yanna LeCuna i znalazł następujące wyniki uzyskane przez inne osoby używające 8 różnych modeli,
i wybrał swój model który wypadł najlepiej na zestawie testowym MNIST spośród 8 modeli.
Dla niego proces uczenia się polegał na wybraniu hipotezy która najlepiej działała na zestawie testowym z zestawu hipotez .D t E S T H t r i n e d = { H 1 , H 2 , . . , h 8 }
Zatem błąd w zestawie testowym jest błędem „w próbie” dla tego procesu uczenia się, więc może zastosować ograniczenie VC dla skończonych zestawów hipotez jako następującą nierówność. P [ | E o u t ( g ) - E i n ( g ) | < ϵ ] ≥ 1 -
Innymi słowy, przynajmniej prawdopodobieństwo , E o u t ( g ) ≤ E t e s t ( g ) + √
Ten wynik sugeruje, że zestaw testowy może być przeregulowany, jeśli wybieramy model, który działa najlepiej spośród kilku modeli.
W takim przypadku osoba może wybrać , który ma najniższy poziom błędu . Ponieważ jest najlepszą hipotezą wśród 8 modeli w tym konkretnym zestawie testowym , może istnieć pewna możliwość, że jest hipotezą przełożoną na zestawie testowym MNIST. E t e s t ( h 1 ) = 0,0023 h 1 D t e s t h 1
Dlatego osoba ta może nalegać na następującą nierówność.
W rezultacie otrzymaliśmy dwie nierówności i .
Jednak oczywiste jest, że te dwie nierówności są niezgodne.
Gdzie robię źle? Który jest właściwy, a który zły?
Jeśli to drugie jest błędne, jaki jest właściwy sposób zastosowania granicy VC dla skończonych zestawów hipotez w tym przypadku?