Co wymiar VC mówi nam o głębokim uczeniu się?

15

W podstawowym uczeniu maszynowym uczymy się następujących „praktycznych zasad”:

a) rozmiar twoich danych powinien być co najmniej 10 razy większy niż rozmiar VC twojego zestawu hipotez.

b) sieć neuronowa z połączeniami N ma wymiar VC około N.

Kiedy więc sieć neuronowa dogłębnie ucząca się mówi, miliony jednostek, czy to oznacza, że ​​powinniśmy mieć, powiedzmy, miliardy punktów danych? Czy możesz rzucić nieco światła na to?

Fequish
źródło
Głęboka sieć neuronowa nie będzie mieć milionów jednostek, jak twierdzisz. Będzie jednak miał miliony połączeń. Zakładam, że twoja druga zasada nie dotyczy tych sieci, głównie ze względu na ich regularny charakter (np. CNN z rezygnacją).
pir
Myślę, że kluczem jest to, że granica VC nie jest nieskończona. Jeśli jest skończony, to teoria PAC mówi nam, że uczenie się jest wykonalne. Ile danych, to kolejne pytanie.
Vladislavs Dovgalecs

Odpowiedzi:

4

Zasada praktyczna, o której mówisz, nie może być zastosowana do sieci neuronowej.

Sieć neuronowa ma pewne podstawowe parametry, tj. Jej wagi i obciążenia. Liczba wag zależy od liczby połączeń między warstwami sieci, a liczba błędów zależy od liczby neuronów.

Rozmiar wymaganych danych w dużej mierze zależy od -

  1. Rodzaj zastosowanej sieci neuronowej .
  2. Techniki regularyzacji stosowane w sieci .
  3. Współczynnik uczenia się wykorzystywany podczas szkolenia w sieci.

Biorąc to pod uwagę, bardziej poprawnym i pewnym sposobem na sprawdzenie, czy model jest nadmiernie dopasowany, jest sprawdzenie, czy błąd weryfikacji jest zbliżony do błędu szkolenia. Jeśli tak, to model działa dobrze. Jeśli nie, model najprawdopodobniej jest nadmiernie dopasowany, co oznacza, że ​​musisz zmniejszyć rozmiar swojego modelu lub wprowadzić techniki regularyzacji.

Azrael
źródło
Żartujesz, gdy mówisz, że najlepszym sposobem na zrozumienie, czy model jest zbyt dopasowany, jest sprawdzenie, czy błąd weryfikacji jest zbliżony do błędu szkolenia.
nro
6
@ nbro, jeśli masz ustawiony odpowiedni zestaw blokujący, aby sprawdzić błąd sprawdzania poprawności, jest to o wiele bardziej niezawodny miernik nadmiernego dopasowania dla konkretnej wyszkolonej sieci niż przechodzenie przez zwykle bardzo luźne granice VC.
Dougal
@Dougal Powtarzasz tylko to, co powiedziałeś w swojej odpowiedzi.
nro
3
Nie moja odpowiedź @nbro. Ale biorąc pod uwagę zestaw walidacyjny, można uzyskać trywialne wysokie prawdopodobieństwo związane z prawdziwym błędem uogólnienia za pomocą Hoeffdinga lub podobnego, podczas gdy przechodzenie przez granice VC wiąże się z wieloma luźnymi górnymi granicami, które nie są specyficzne dla konkretnego zestawu danych i sieci, w której masz dłoń.
Dougal