Jaka jest różnica między „głębokim uczeniem się” a modelowaniem wielopoziomowym / hierarchicznym?

31

Czy „głębokie uczenie się” to kolejny termin na modelowanie wielopoziomowe / hierarchiczne?

Jestem znacznie bardziej zaznajomiony z tym drugim niż ten pierwszy, ale z tego, co mogę powiedzieć, podstawowa różnica nie polega na ich definicji, ale na tym, jak są one używane i oceniane w ich domenie aplikacji.

Wygląda na to, że liczba węzłów w typowej aplikacji „dogłębnego uczenia się” jest większa i wykorzystuje ogólną formę hierarchiczną, podczas gdy aplikacje modelowania wielopoziomowego zwykle używają relacji hierarchicznych, które naśladują modelowany proces generacyjny. Zastosowanie ogólnej hierarchii w dziedzinie statystyki stosowanej (modelowanie hierarchiczne) byłoby uważane za „niepoprawny” model zjawisk, podczas gdy modelowanie hierarchii specyficznej dla domeny można by uznać za obalenie celu stworzenia ogólnej maszyny do głębokiego uczenia się.

Czy te dwie rzeczy są naprawdę tą samą maszyną pod dwiema różnymi nazwami, używaną na dwa różne sposoby?

użytkownik4733
źródło

Odpowiedzi:

38

Podobieństwo

Zasadniczo opracowano oba typy algorytmów, aby odpowiedzieć na jedno ogólne pytanie w aplikacjach uczenia maszynowego:

x1,x2),,xp

xp+1=x1x2),xp+2)=x1x3),

Zarówno algorytmy modelowania wielopoziomowego, jak i głębokie uczenie się odpowiadają na to pytanie, wprowadzając znacznie inteligentniejszy model interakcji. I z tego punktu widzenia są bardzo podobne.

Różnica

Pozwólcie, że spróbuję wyjaśnić, jaka jest wielka różnica koncepcyjna między nimi. Aby podać wyjaśnienie, zobaczmy założenia, które przyjmujemy w każdym z modeli:

1

2)

Zasadnicza różnica wynika z wyrażenia „struktura interakcji nie jest znana” w Deep Learning. Możemy założyć pewne priorytety dotyczące rodzaju interakcji, ale algorytm definiuje wszystkie interakcje podczas procedury uczenia się. Z drugiej strony musimy zdefiniować strukturę interakcji dla modelowania wielopoziomowego (uczymy się zmieniać parametry modelu później).

Przykłady

x1,x2),x3){x1}{x2),x3)}

x1x2)x1x3)x2)x3)

W głębokim uczeniu się, na przykład w wielowarstwowych ograniczonych maszynach Boltzmanna ( RBM ) z dwiema ukrytymi warstwami i funkcją aktywacji liniowej, będziemy mieć wszystkie możliwe interakcje wielomianowe ze stopniem mniejszym lub równym trzy.

Wspólne zalety i wady

Modelowanie wielopoziomowe

(-) trzeba zdefiniować strukturę interakcji

(+) wyniki są zwykle łatwiejsze do interpretacji

(+) może stosować metody statystyczne (oceniać przedziały ufności, sprawdzać hipotezy)

Głęboka nauka

(-) wymaga ogromnej ilości danych do trenowania (oraz czasu na szkolenie)

(-) wyników zwykle nie można zinterpretować (dostarczone jako czarna skrzynka)

(+) nie wymaga specjalistycznej wiedzy

(+) po odpowiednim przeszkoleniu zwykle przewyższa większość innych metod ogólnych (nie dotyczy aplikacji)

Mam nadzieję, że to pomoże!

Dmitrij Łaptiew
źródło
Dlaczego głęboka sieć neuronowa wymaga treningu dużej ilości danych? Nie słyszałem o tym wcześniej.
Jase
1
@Jase Sieci neuronowe zwykle mają wiele parametrów, dlatego w wielu przypadkach, jeśli użyjesz małego zestawu danych, prawdopodobnie po prostu się przeregulujesz. Oczywiście wszystko zależy od zadania, ale większość najbardziej imponujących wyników NN wykorzystuje obecnie bardzo duże zbiory danych.
Dmitrij Łaptiew
Zgodziliśmy się, że imponujące wyniki dotyczą ogromnych zestawów danych, ale nie jestem pewien, czy nie możemy użyć porzucenia i innych sztuczek, aby uzyskać dobre uogólnienie z małych zestawów danych.
Jase
1
@Jase Pewnie, możesz użyć różnych heurystyk. Ale według mojego doświadczenia z przetwarzaniem obrazu, prawie wszystkie z nich wprowadzają pewną regularyzację, co w zasadzie jest równoważne z wprowadzaniem wcześniejszych, a tym samym uprzedzeń. Co nie zawsze jest tym, czego chcesz.
Dmitrij Łaptiew
Prawdopodobnie nie musisz definiować struktury interakcji, jeśli wcześniej używasz nieparametrycznych, np. Hierarchicznego Dirichleta.
Astrid
2

Chociaż to pytanie / odpowiedź jest już od dłuższego czasu, pomyślałem, że pomocne może być wyjaśnienie kilku punktów w odpowiedzi. Po pierwsze, fraza podniesiona jako główne rozróżnienie między metodami hierarchicznymi a głębokimi sieciami neuronowymi „Ta sieć jest stała”. jest nieprawidłowe. Metody hierarchiczne nie są bardziej „ustalone” niż alternatywne sieci neuronowe. Patrz na przykład artykuł Deep Learning with Hierarchical Convolutional Factor Analysis, Chen i in. glin.. Myślę, że przekonasz się również, że wymóg definiowania interakcji nie jest już punktem odróżniającym. Z mojego doświadczenia wynika, że ​​kilka punktów, które nie są wymienione jako plus w modelowaniu hierarchicznym, to znacznie zmniejszony problem nadmiernego dopasowania i zdolność do radzenia sobie zarówno z bardzo dużymi, jak i bardzo małymi zestawami treningowymi. Najważniejsze jest to, że gdy stosuje się bayesowskie metody hierarchiczne, przedziały ufności i testowanie hipotez nie są na ogół metodami statystycznymi, które można by zastosować.

Aengus
źródło