Jaka jest różnica między rezygnacją a połączeniem przez połączenie?

24

Jaka jest różnica między rezygnacją a połączeniem przez połączenie?

AFAIK, dropout losowo zrzuca ukryte węzły podczas treningu, ale utrzymuje je w testach, a drop connect zrzuca połączenia.

Ale czy zrywanie połączeń nie jest równoważne z usuwaniem ukrytych węzłów? Czy węzły (lub połączenia) nie są tylko zestawem wag?

Machina333
źródło

Odpowiedzi:

24

DropOut i DropConnect to metody mające na celu zapobieganie „wspólnej adaptacji” jednostek w sieci neuronowej. Innymi słowy, chcemy, aby jednostki samodzielnie wyodrębniały funkcje z danych wejściowych, zamiast polegać na innych neuronach.

Załóżmy, że mamy wielowarstwową sieć feedforward taką jak ta (topologia tak naprawdę nie ma znaczenia). Martwimy się o współdziałanie żółtych ukrytych jednostek w środkowej warstwie.

przykładowa sieć 5-4-3

Spadkowicz

Aby zastosować DropOut, losowo wybieramy podzbiór jednostek i ograniczamy ich moc wyjściową do zera, niezależnie od danych wejściowych; skutecznie usuwa te jednostki z modelu. Inny podzbiór jednostek jest wybierany losowo za każdym razem, gdy przedstawiamy przykład szkolenia.

Poniżej znajdują się dwie możliwe konfiguracje sieci. W pierwszej prezentacji (po lewej) pierwsza i trzecia jednostka są wyłączone, ale druga i trzecia jednostka zostały losowo wybrane podczas kolejnej prezentacji. W czasie testu używamy całej sieci, ale przeskalowujemy wagi, aby zrekompensować fakt, że wszystkie z nich mogą teraz stać się aktywne (np. Jeśli upuścisz połowę węzłów, wagi również powinny zostać zmniejszone o połowę).

Przykłady DropOut

DropConnect

DropConnect działa podobnie, z tym wyjątkiem, że wyłączamy poszczególne wagi (tj. Ustawiamy je na zero), zamiast węzłów, więc węzeł może pozostać częściowo aktywny. Schematycznie wygląda to tak:

DropConnect

Porównanie

Obie metody działają, ponieważ skutecznie pozwalają trenować kilka modeli jednocześnie, a następnie uśredniać je w celu przetestowania. Na przykład żółta warstwa ma cztery węzły, a zatem 16 możliwych stanów DropOut (wszystkie włączone, wyłączone nr 1, wyłączone nr 1 i nr 2 itd.).

DropConnect jest uogólnieniem DropOut, ponieważ produkuje jeszcze więcej możliwych modeli, ponieważ prawie zawsze istnieje więcej połączeń niż jednostek. Podobne wyniki można jednak uzyskać w pojedynczej próbie. Na przykład sieć DropConnect po prawej stronie skutecznie upuściła Unit # 2, ponieważ wszystkie połączenia przychodzące zostały usunięte.

Dalsza lektura

Oryginalne prace są dość dostępne i zawierają więcej szczegółów i wyników empirycznych.

Matt Krause
źródło
6

Tak, ale różnią się nieco pod względem sposobu upuszczania ciężarków.

Są to formuły DropConnect (po lewej) i dropout (po prawej).

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj

Tak więc dropout stosuje maskę do aktywacji, podczas gdy DropConnect stosuje maskę do odważników.

Artykuł DropConnect mówi, że jest to uogólnienie rezygnacji w tym sensie

DropConnect to uogólnienie Dropout, w którym każde połączenie, zamiast każdej jednostki wyjściowej jak w Dropout, może zostać porzucone z prawdopodobieństwem p.

dontloo
źródło