Przez pewien czas wydawało się, że jądra Fishera mogą stać się popularne, ponieważ wydają się być sposobem na konstruowanie jąder z modeli probabilistycznych. Rzadko jednak widywałem je w praktyce i mam dobry autorytet, że nie działają zbyt dobrze. Opierają się na obliczeniach Fisher Information - cytując Wikipedię:
informacja Fishera jest ujemna z oczekiwania na drugą pochodną w odniesieniu do θ logarytmu naturalnego f. Informacje mogą być postrzegane jako miara „krzywizny” krzywej podparcia w pobliżu oszacowania maksymalnego prawdopodobieństwa (MLE) θ.
O ile wiem, oznacza to, że funkcja jądra między dwoma punktami to odległość wzdłuż tej zakrzywionej powierzchni - mam rację?
Jednak może to być problematyczne przy stosowaniu w metodach jądra, jak
- MLE może być bardzo złym oszacowaniem dla danego modelu
- Krzywizna krzywej podparcia wokół MLE może nie być użyteczna do rozróżnienia między instancjami, na przykład jeśli powierzchnia prawdopodobieństwa była bardzo szczytowa
- Wydaje się, że to wyrzuca wiele informacji o modelu
Jeśli tak jest, czy są jakieś nowoczesne sposoby konstruowania jąder z metod probabilistycznych? Na przykład, czy moglibyśmy użyć zestawu podtrzymującego do korzystania z oszacowań MAP w ten sam sposób? Jakie inne pojęcia odległości lub podobieństwa w stosunku do metod probabilistycznych mogłyby zadziałać w celu skonstruowania (prawidłowej) funkcji jądra?