Pojemność to termin nieformalny. Jest bardzo blisko (jeśli nie synonimem) złożoności modelu. To sposób na rozmowę o tym, jak skomplikowany wzór lub relacja może wyrazić model. Można oczekiwać, że model o większej pojemności będzie w stanie modelować więcej relacji między większą liczbą zmiennych niż model o niższej pojemności.
Czerpiąc analogię z potocznej definicji pojemności, możesz myśleć o niej jako o zdolności modelu do uczenia się na coraz większej liczbie danych, dopóki nie zostanie całkowicie „wypełniony” informacjami.
Istnieją różne sposoby sformalizowania pojemności i obliczenia jej wartości liczbowej, ale co ważne, są to tylko niektóre możliwe „operacjonalizacje” pojemności (w taki sam sposób, że gdyby ktoś wymyślił formułę obliczania piękna, zdajesz sobie sprawę, że formuła jest tylko jedną omylną interpretacją piękna).
Wymiar VC jest matematycznie rygorystycznym sformułowaniem pojemności. Jednak może istnieć duża luka między wymiarem VC modelu a faktyczną zdolnością modelu do dopasowania danych. Chociaż znajomość przyciemnienia VC wiąże się z błędem uogólnienia modelu, jest to zwykle zbyt luźne, aby było przydatne w sieciach neuronowych.
Inną linią badań, którą tu widzimy, jest zastosowanie normy widmowej macierzy masy w sieci neuronowej jako miary pojemności. Jednym ze sposobów na zrozumienie tego jest to, że norma widmowa ogranicza stałą Lipschitza sieci.
Najczęstszym sposobem oszacowania pojemności modelu jest policzenie liczby parametrów. Im więcej parametrów, tym wyższa ogólna pojemność. Oczywiście często mniejsza sieć uczy się modelować bardziej złożone dane lepiej niż większa sieć, więc ten środek również nie jest idealny.
Innym sposobem pomiaru pojemności może być trenowanie modelu z losowymi etykietami ( Neyshabur i in. ) - jeśli twoja sieć może poprawnie zapamiętać kilka danych wejściowych wraz z losowymi etykietami, zasadniczo pokazuje, że model ma zdolność zapamiętywania wszystkich tych punkty danych indywidualnie. Im więcej par wejścia / wyjścia można się „nauczyć”, tym większa jest pojemność.
ϵ