W uczeniu obliczeniowym twierdzenie NFL stwierdza, że nie ma uniwersalnego ucznia. Dla każdego algorytmu uczenia się istnieje rozkład, który powoduje, że uczeń wysyła hipotezę z dużym błędem, z dużym prawdopodobieństwem (choć istnieje hipoteza o niskim błędzie). Wniosek jest taki, że aby się uczyć, klasa hipotez lub dystrybucje muszą być ograniczone. W swojej książce „Probabilistyczna teoria rozpoznawania wzorów” Devroye i wsp. Udowodnili następującą tezę dla ucznia z najbliższych sąsiadów:
GdzieAssume μ has a density. if k→∞ and k/n→0 then for every ϵ>0, there's N, s.t. for all n>N:P(Rn−R∗>ϵ)<2exp(−Cdnϵ2)
R∗jest błędem reguły optymalnej Rn , R_n jest prawdziwym błędem wyjścia K-NN (prawdopodobieństwo przekracza zbiór treningowy wielkości n ), μ jest miarą prawdopodobieństwa w przestrzeni instancji Rd i Cd to pewna stała zależna tylko od wymiaru euklidesowego. Dlatego możemy zbliżyć się do najlepszej hipotezy (nie najlepszej w niektórych ograniczonych klasach), nie przyjmując żadnych założeń dotyczących podziału. Więc staram się zrozumieć, w jaki sposób ten wynik nie jest sprzeczny z koncepcją NFL? dzięki!