Czy w statystycznej teorii uczenia się nie występuje problem przeregulowania zestawu testowego?

16

Rozważmy problem związany z klasyfikacją zestawu danych MNIST.

Według strony MNIST Yanna LeCuna „Ciresan i in.” uzyskał poziom błędu 0,23% w zestawie testowym MNIST przy użyciu sieci neuronowej Convolutional.

Oznaczmy zestaw treningowy MNIST jako , zestaw testowy MNIST jako , ostateczną hipotezę, którą uzyskali przy użyciu jako , oraz ich wskaźnik błędów na zestawie testowym MNIST przy użyciu h_ {1} jako E_ {test} (h_ {1}) = 0,0023 .DtrainDtestDtrainh1h1Etest(h1)=0.0023

W ich punktu widzenia, ponieważ Dtest jest losowo zestaw testowy z przestrzeni wejściowej niezależnie od h1 można podkreślają, że nie stanowiącego przykład wykonania błędu ostatecznego hipotezy Eout(h1) jest ograniczone jak wynika z nierówności Hoeffdinga

P[|Eout(h1)Etest(h1)|<ϵ|]12e2ϵ2Ntest

gdzie Ntest=|Dtest|.

Innymi słowy, przynajmniej prawdopodobieństwo , E o u t ( h 1 ) E t e s t ( h 1 ) + 1δ

Eout(h1)Etest(h1)+12Ntestln2δ

Rozważmy inny punkt widzenia. Załóżmy, że ktoś chce dobrze sklasyfikować zestaw testów MNIST. Więc po raz pierwszy spojrzał na stronę MNIST Yanna LeCuna i znalazł następujące wyniki uzyskane przez inne osoby używające 8 różnych modeli,

Wyniki klasyfikacji MNIST

i wybrał swój model który wypadł najlepiej na zestawie testowym MNIST spośród 8 modeli.g

Dla niego proces uczenia się polegał na wybraniu hipotezy która najlepiej działała na zestawie testowym z zestawu hipotez .D t E S T H t r i n e d = { H 1 , H 2 , . . , h 8 }gDtestHtrained={h1,h2,..,h8}

Zatem błąd w zestawie testowym jest błędem „w próbie” dla tego procesu uczenia się, więc może zastosować ograniczenie VC dla skończonych zestawów hipotez jako następującą nierówność. P [ | E o u t ( g ) - E i n ( g ) | < ϵ ] 1 -Etest(g)

P.[|miout(sol)-mijan(sol)|<ϵ]1-2)|H.trzajanmire|mi2)ϵ2)N.tmist

Innymi słowy, przynajmniej prawdopodobieństwo , E o u t ( g ) E t e s t ( g ) + 1-δ

miout(sol)mitmist(sol)+12)N.tmistln2)|H.trzajanmire|δ

Ten wynik sugeruje, że zestaw testowy może być przeregulowany, jeśli wybieramy model, który działa najlepiej spośród kilku modeli.

W takim przypadku osoba może wybrać , który ma najniższy poziom błędu . Ponieważ jest najlepszą hipotezą wśród 8 modeli w tym konkretnym zestawie testowym , może istnieć pewna możliwość, że jest hipotezą przełożoną na zestawie testowym MNIST. E t e s t ( h 1 ) = 0,0023 h 1 D t e s t h 1h1mitmist(h1)=0,0023h1retmisth1

Dlatego osoba ta może nalegać na następującą nierówność.

miout(h1)mitmist(h1)+12)N.tmistln2)|H.trzajanmire|δ

W rezultacie otrzymaliśmy dwie nierówności i .

P.[miout(h1)mitmist(h1)+12)N.tmistln2)δ]1-δ
P.[miout(h1)mitmist(h1)+12)N.tmistln2)|H.trzajanmire|δ]1-δ

Jednak oczywiste jest, że te dwie nierówności są niezgodne.

Gdzie robię źle? Który jest właściwy, a który zły?

Jeśli to drugie jest błędne, jaki jest właściwy sposób zastosowania granicy VC dla skończonych zestawów hipotez w tym przypadku?

asqdf
źródło

Odpowiedzi:

1

Pomiędzy tymi dwoma nierównościami myślę, że późniejsze jest błędne. W skrócie, to, co jest nie tak, to tożsamość biorąc uwagę, że jest funkcją danych testowych, podczas gdy jest modelem niezależnym od danych testowych.sol=h1solh1

W rzeczywistości jest jednym z 8 modeli w który najlepiej przewiduje zestaw testowy .solH.trzajanmire={h1,h2),...,h8}retmist

Dlatego jest funkcją . W przypadku konkretnego zestawu testowego, (jak ten, o którym wspomniałeś), może się , że , ale ogólnie, w zależności od zestawu testowego, może przyjąć dowolną wartość w . Z drugiej strony jest tylko jedną wartością w .solretmistretmistsol(retmist)=h1sol(retmist)H.trzajanmireh1H.trzajanmire

W przypadku drugiego pytania:

Jeśli to drugie jest błędne, jaki jest właściwy sposób zastosowania granicy VC dla skończonych zestawów hipotez w tym przypadku?

Po prostu nie zamieniaj na , otrzymasz poprawną granicę ( oczywiście dla ) i nie będzie ona powodować konfliktu z drugą granicą (która dotyczy ).solh1solh1

Tĩnh Trần
źródło