Właśnie natknąłem się na „kryterium informacyjne Akaike” i zauważyłem dużą ilość literatury na temat wyboru modelu (wydaje się, że istnieją również takie rzeczy jak BIC).
Dlaczego współczesne metody uczenia maszynowego nie wykorzystują kryteriów wyboru modeli BIC i AIC?
Odpowiedzi:
Stosuje się AIC i BIC, np. W regresji stopniowej. W rzeczywistości są one częścią większej klasy „heurystyki”, która jest również używana. Na przykład DIC (Deviance Information Criterion) jest często używany do wyboru modelu bayesowskiego.
Są to jednak w zasadzie „heurystyki”. Chociaż można wykazać, że zarówno AIC, jak i BIC zbiegają się asymptotycznie w kierunku podejść do krzyżowej weryfikacji (myślę, że AIC dąży do pominięcia jednego CV, a BIC w kierunku innego podejścia, ale nie jestem pewien), są one znane odpowiednio niedostateczna i nadmierna kara. Tj. Za pomocą AIC często dostajesz model, który jest bardziej skomplikowany niż powinien, podczas gdy z BIC często dostajesz model, który jest zbyt uproszczony.
Ponieważ oba są związane z CV, CV jest często lepszym wyborem, który nie cierpi z powodu tych problemów.
Wreszcie pojawia się kwestia liczby parametrów wymaganych dla BIC i AIC. Dzięki aproksymatorom funkcji ogólnych (np. KNN) na wejściach o wartościach rzeczywistych można „ukryć” parametry, tj. Skonstruować liczbę rzeczywistą, która zawiera te same informacje, co dwie liczby rzeczywiste (pomyśl np. O przecinaniu cyfr). W takim przypadku jaka jest rzeczywista liczba parametrów? Z drugiej strony, w przypadku bardziej skomplikowanych modeli możesz mieć ograniczenia parametrów, powiedzmy, że możesz dopasować parametry tylko takie, żeθ1>θ2 (patrz np. Tutaj ). Lub możesz nie mieć możliwości identyfikacji, w którym to przypadku wiele wartości parametrów faktycznie daje ten sam model. We wszystkich tych przypadkach samo zliczenie parametrów nie daje odpowiedniego oszacowania.
Ponieważ wiele współczesnych algorytmów uczenia maszynowego wykazuje te właściwości (tj. Uniwersalne przybliżenie, niejasna liczba parametrów, brak możliwości identyfikacji), AIC i BIC są mniej przydatne w tym modelu, niż mogą się wydawać na pierwszy rzut oka.
EDYCJA :
Kilka innych kwestii, które można wyjaśnić:
źródło