Nowoczesne przypadki użycia ograniczonych maszyn Boltzmanna (KMS)?

16

Tło: Wydaje się, że wiele współczesnych badań w ciągu ostatnich 4 lat (post Alexxnet ) zrezygnowało z generatywnego wstępnego szkolenia sieci neuronowych w celu osiągnięcia najnowszych wyników klasyfikacji.

Na przykład, najlepsze wyniki dla mnistera tutaj obejmują tylko 2 artykuły z 50 najlepszych, które wydają się używać modeli generatywnych, z których oba są RBM. Pozostałe 48 zwycięskich artykułów dotyczy różnych architektur dyskryminacyjnych, z dużym wysiłkiem włożonym w znalezienie lepszych / nowszych inicjalizacji wagi i funkcji aktywacyjnych innych niż sigmoid stosowany w RBM i wielu starszych sieciach neuronowych.

Pytanie: Czy istnieje jakiś nowoczesny powód, aby używać ograniczonych maszyn Boltzmann?

Jeśli nie, to czy istnieje de facto modyfikacja, którą można zastosować do tych architektur przekazywania, aby uczynić którąkolwiek z ich warstw generatywną?

Motywacja: pytam, ponieważ niektóre modele, które widzę dostępne, zwykle warianty RBM, niekoniecznie mają oczywiste analogiczne dyskryminujące odpowiedniki do tych generatywnych warstw / modeli i odwrotnie. Na przykład:

  • mcRBM

  • ssRBM

  • CRBM (chociaż można argumentować, że stosowane przez CNN architektury przekazywania danych to dyskryminująca architektura analogiczna)

Poza tym były to oczywiście również pre-Alexnet, odpowiednio z lat 2010, 2011 i 2009.

użytkownik27886
źródło
3
Dla zabawy zbudowałem generatywną transmisję NN poprzez automatyczną regresję. power2predict.edublogs.org/2016/06/26/…
Chris

Odpowiedzi:

6

Jest to trochę stare pytanie, ale ponieważ zasadniczo prosi się o „najlepsze praktyki”, a nie o to, co jest technicznie możliwe (tj. Nie wymaga zbyt dużego skupienia się na badaniach), obecne najlepsze praktyki są podobne do:

  • KMS zwykle nie są obecnie używane
  • tam, gdzie to możliwe, stosuje się modele liniowe (regresja liniowa, regresja logistyczna)
  • w przeciwnym razie sieci o głębokim sprzężeniu zwrotnym z warstwami, takimi jak warstwy w pełni połączone, warstwy splotowe i wprowadzanie pewnego rodzaju warstw regularyzacyjnych, takich jak rezygnacja, a ostatnio normalizacja wsadowa
  • oczywiście z warstwami aktywacyjnymi pomiędzy, zwykle ReLU, ale stosuje się również tanh i sigmoid
  • i prawdopodobnie niektóre maksymalne pule (nie zawsze: używane są również średnie pule i inne)

W przypadku zastosowań generatywnych powszechne techniki obejmują:

Hugh Perkins
źródło
1

Niedawno znalazłem ten artykuł na temat „Przeciwdziałających maszyn zakodowanych Boltzmanna”, który integruje KMS z CNN jako model generatywny.

Autorzy pokazują, że pod pewnymi względami jest matematycznie „lepszy” i pokazują przykłady zabawek, w których BEAM wydaje się znacznie bardziej zdolny do dokładnego uczenia się rozkładu danych w porównaniu z innymi modelami GAN.

Test porównawczy CelebA w „prawdziwym świecie” był znacznie mniej imponujący - nie jest jasne, czy BEAM radzi sobie lepiej, a nawet tak dobrze, jak inne popularne sieci GAN. Jednak użycie KMS w tym otoczeniu jest z pewnością interesujące.

shimao
źródło
czy sądzisz, że ta awaria jest przypisywana przestrzeni wyszukiwania BEAM, co pozwala na zastosowanie większego zestawu stopni swobody właściwych definicji modelu?
Vass