Zrozumienie twierdzenia o braku darmowego lunchu w klasyfikacji wzorców Dudy i in

12

Mam kilka pytań dotyczących zapisów używanych w rozdziale 9.2 Brak nieodłącznej wyższości jakiegokolwiek klasyfikatora w klasyfikacji wzorów Dudy, Harta i Bociana . Najpierw pozwól mi zacytować odpowiedni tekst z książki:

  • Dla uproszczenia rozważmy problem dwóch kategorii, w którym zestaw szkoleniowy składa się ze wzorów i powiązanych etykiet kategorii dla wygenerowanych przez nieznaną funkcję docelową, której należy się nauczyć, , gdzie .Dxiyi=±1i=1,...,nF(x)yi=F(xi)
  • Niech oznacza (dyskretny) zestaw hipotez lub możliwych zestawów parametrów, których należy się nauczyć. Szczególną hipotezę można opisać za pomocą skwantowanych wag w sieci neuronowej lub parametrów 0 w modelu funkcjonalnym lub zestawów decyzji w drzewie i tak dalej.Hh(x)H
  • Ponadto oznacza wcześniejsze prawdopodobieństwo, że algorytm wygeneruje hipotezę po treningu; zauważ, że nie jest prawdopodobne, że jest poprawne.P(h)hh
  • Następnie, oznacza prawdopodobieństwo, że algorytm otrzymując hipotezy po wyszkolonych na danych . W deterministycznych algorytmach uczenia się, takich jak najbliższy sąsiad i drzewa decyzyjne, będzie wszędzie zero, z wyjątkiem pojedynczej hipotezy . W przypadku metod stochastycznych (takich jak sieci neuronowe trenowane z losowych wag początkowych) lub stochastycznego uczenia Boltzmanna może być szerokim rozkładem.P(h|D)hDP(h|D)hP(h|D)
  • Niech będzie błędem dla zerowej lub innej funkcji utraty.E

Oczekiwany błąd klasyfikacji poza treningiem, gdy prawdziwą funkcją jest a prawdopodobieństwo dla tego algorytmu uczenia się kandydata jest podane przezk P k ( h ( x ) | D ) E k ( E | F , n ) = x D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D )F(x)kPk(h(x)|D)

Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)

Twierdzenie 9.1. (Bez darmowego lunchu) W przypadku dowolnych dwóch algorytmów uczenia się i spełnione są następujące warunki, niezależnie od rozkładu próbkowania i liczby punktów treningowych:P 2 ( h | D ) P ( x ) nP1(h|D)P2(h|D)P(x)n

  1. Równomiernie uśrednione dla wszystkich funkcji docelowych ,FE1(E|F,n)E2(E|F,n)=0

  2. Dla każdego ustalonego zestawu treningowego , równomiernie uśrednionego dla , DFE1(E|F,D)E2(E|F,D)=0

Część 1 faktycznie mówi

FDP(D|F)[E1(E|F,n)E2(E|F,n)]=0

Część 2 faktycznie mówi

F[E1(E|F,D)E2(E|F,D)]=0

Moje pytania są

  1. We wzorze , tj. można wymienić z i przenieść go na zewnątrz suma , ponieważ tak naprawdę jest to rozkład na biorąc pod uwagę dla tego stochastycznego algorytmu uczenia się?Ek(E|F,n)
    Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D),
    Pk(h(x)|D)Pk(h|D)xDhHDk
  2. Biorąc pod uwagę, że ty algorytm uczenia kandydata jest metodą stochastyczną, dlaczego we wzorze nie ma sumy powyżej , tj. ?kEk(E|F,n)hhH
  3. Czym różnią się i ?Ei(E|F,D)Ei(E|F,n)

    Czy oznacza poziom błędu poza treningiem przy danym zestawie treningowym ?Ei(E|F,D)D

    Czy oznacza średni poziom błędu poza treningiem, średni dla całego zestawu treningów, biorąc pod uwagę rozmiar treningu ? Jeśli tak, dlaczego część 1 w twierdzeniu NFL jest średnia nad zestawami treningowymi, pisząc , i dlaczego we wzorze na , nie ma średniej dla całego zestawu treningów, biorąc pod uwagę rozmiar treningu ?Ei(E|F,n)nEi(E|F,n)DEk(E|F,n)n

  4. Czy w części 1 twierdzenia NFL oznacza sumowanie wszystkich zestawów treningowych o ustalonym rozmiarze treningu ?Dn
  5. Jeśli dalsze sumowanie wszystkich możliwych wartości w wielkości treningu w części 1, wynikiem jest nadal 0, prawda?Nn
  6. We wzorze , jeśli zmienię na , tzn. niekoniecznie jest ograniczony do poza zestawem treningowym, czy obie części Twierdzenie NFL nadal jest prawdziwe?Ek(E|F,n)xDxx
  7. Jeśli prawdziwa zależność pomiędzy a , nie są uważane za funkcją deterministyczną jako , lecz warunkowego rozkładów , albo łącznego rozkładu , który jest odpowiednikiem znając i (zobacz także moje inne pytanie ), wtedy mogę zmienić na (z dziwnym wskazane w części 1 i 2). Czy dwie części twierdzenia NFL są nadal prawdziwe?xyFy=F(x)P(y|x)P(x,y)P(y|x)P(x)Ek(E|F,n)
    Ek(E|P(x,y),n)=Ex,y[1δ(y,h(x))]Pk(h(x)|D)
    Pk(h(x)|D)

Dziękuję i pozdrawiam!

Tim
źródło
Czy to Dirac / Kronecker-delta? Wδ
Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)
Czy to twierdzenie o braku darmowego lunchu jest takie samo jak problem Halting? Czy są połączone?

Odpowiedzi:

6

Odpowiem na pytania, na które, jak sądzę, znam odpowiedzi.

  1. Ta odpowiedź brzmi „nie”, ponieważ wybierasz który nie był częścią zestawu dopasowania a więc zależy od .xDhx
  2. h jest oceniane tylko przy wartościach w zestawie testowym w celu uzyskania oczekiwanego poziomu błędu, więc nie jest oceniane w całym zestawie ale tylko przy dyskretnym zbiorze w zestawie testowym.xHx
  3. Ei(E|F,D) jest spodziewany przy zbiorze treningowym stopy błędów danej funkcji , a zbiór uczący . Ale Myślę, że jest inaczej, ponieważ zależysz tylko od liczby punktów treningowych a nie od rzeczywistych wartości . To zastanawiające, biorąc pod uwagę kolejne stwierdzenia.FDEi(E|F,n)nx
  4. D jest zbiorem wektorów szkoleniowych. W jest wektorów szkoleniowych . Więc jesteś zsumowanie na stałe szkoleniowe wektorów w . Jest tylko jeden zestaw .nDnDD
  5. Myślę, że odpowiedź na 5 jest przecząca. Notacja wydaje się nieco myląca.

Nie można komentować 6 i 7.

Michael R. Chernick
źródło
2
+1. Witaj na stronie, jestem wielkim fanem twoich recenzji na Amazon. Przepraszam za moje domniemanie edytowania, notacja matematyczna odbywa się głównie poprzez umieszczenie $ po obu stronach czegoś. Jeśli klikniesz żółte kółko-? w prawym górnym rogu podczas pisania zobaczysz link do „pomocy zaawansowanej”, która da więcej informacji; możesz także kliknąć prawym przyciskiem myszy istniejący mathjax (taki jak dowolny z powyższych) i wybrać „Show Math As -> TeX command”, aby zobaczyć, jak to zostało zrobione.
Gung - Przywróć Monikę
2
Innymi słowy, @gung mówi: Ta strona obsługuje w (prawie) dokładnie tak, jak można się tego spodziewać, w tym matematyki wyświetlania. Witamy na stronie. LATEX
kardynał
@Michael Proszę pozwolić mi dodać moje powitanie do tych innych: Cieszę się, że cię tu widzę. (Michael wniósł wyjątkowo wiedzę na temat list dyskusyjnych Amerykańskiego Stowarzyszenia Statystycznego.)
whuber