Mam kilka pytań dotyczących zapisów używanych w rozdziale 9.2 Brak nieodłącznej wyższości jakiegokolwiek klasyfikatora w klasyfikacji wzorów Dudy, Harta i Bociana . Najpierw pozwól mi zacytować odpowiedni tekst z książki:
- Dla uproszczenia rozważmy problem dwóch kategorii, w którym zestaw szkoleniowy składa się ze wzorów i powiązanych etykiet kategorii dla wygenerowanych przez nieznaną funkcję docelową, której należy się nauczyć, , gdzie .
- Niech oznacza (dyskretny) zestaw hipotez lub możliwych zestawów parametrów, których należy się nauczyć. Szczególną hipotezę można opisać za pomocą skwantowanych wag w sieci neuronowej lub parametrów 0 w modelu funkcjonalnym lub zestawów decyzji w drzewie i tak dalej.
- Ponadto oznacza wcześniejsze prawdopodobieństwo, że algorytm wygeneruje hipotezę po treningu; zauważ, że nie jest prawdopodobne, że jest poprawne.
- Następnie, oznacza prawdopodobieństwo, że algorytm otrzymując hipotezy po wyszkolonych na danych . W deterministycznych algorytmach uczenia się, takich jak najbliższy sąsiad i drzewa decyzyjne, będzie wszędzie zero, z wyjątkiem pojedynczej hipotezy . W przypadku metod stochastycznych (takich jak sieci neuronowe trenowane z losowych wag początkowych) lub stochastycznego uczenia Boltzmanna może być szerokim rozkładem.
- Niech będzie błędem dla zerowej lub innej funkcji utraty.
Oczekiwany błąd klasyfikacji poza treningiem, gdy prawdziwą funkcją jest a prawdopodobieństwo dla tego algorytmu uczenia się kandydata jest podane przezk P k ( h ( x ) | D ) E k ( E | F , n ) = ∑ x ∉ D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D )
Twierdzenie 9.1. (Bez darmowego lunchu) W przypadku dowolnych dwóch algorytmów uczenia się i spełnione są następujące warunki, niezależnie od rozkładu próbkowania i liczby punktów treningowych:P 2 ( h | D ) P ( x ) n
Równomiernie uśrednione dla wszystkich funkcji docelowych ,
Dla każdego ustalonego zestawu treningowego , równomiernie uśrednionego dla ,
Część 1 faktycznie mówi
Część 2 faktycznie mówi
Moje pytania są
- We wzorze , tj. można wymienić z i przenieść go na zewnątrz suma , ponieważ tak naprawdę jest to rozkład na biorąc pod uwagę dla tego stochastycznego algorytmu uczenia się?
- Biorąc pod uwagę, że ty algorytm uczenia kandydata jest metodą stochastyczną, dlaczego we wzorze nie ma sumy powyżej , tj. ?
Czym różnią się i ?
Czy oznacza poziom błędu poza treningiem przy danym zestawie treningowym ?
Czy oznacza średni poziom błędu poza treningiem, średni dla całego zestawu treningów, biorąc pod uwagę rozmiar treningu ? Jeśli tak, dlaczego część 1 w twierdzeniu NFL jest średnia nad zestawami treningowymi, pisząc , i dlaczego we wzorze na , nie ma średniej dla całego zestawu treningów, biorąc pod uwagę rozmiar treningu ?
- Czy w części 1 twierdzenia NFL oznacza sumowanie wszystkich zestawów treningowych o ustalonym rozmiarze treningu ?
- Jeśli dalsze sumowanie wszystkich możliwych wartości w wielkości treningu w części 1, wynikiem jest nadal 0, prawda?
- We wzorze , jeśli zmienię na , tzn. niekoniecznie jest ograniczony do poza zestawem treningowym, czy obie części Twierdzenie NFL nadal jest prawdziwe?
- Jeśli prawdziwa zależność pomiędzy a , nie są uważane za funkcją deterministyczną jako , lecz warunkowego rozkładów , albo łącznego rozkładu , który jest odpowiednikiem znając i (zobacz także moje inne pytanie ), wtedy mogę zmienić
na (z dziwnym wskazane w części 1 i 2). Czy dwie części twierdzenia NFL są nadal prawdziwe?
Dziękuję i pozdrawiam!
Odpowiedzi:
Odpowiem na pytania, na które, jak sądzę, znam odpowiedzi.
Nie można komentować 6 i 7.
źródło