Jestem bardzo nowy w głębokim uczeniu się i jestem szczególnie zainteresowany wiedzą, czym są LSTM i BiLSTM i kiedy z nich korzystać (główne obszary zastosowań). Dlaczego LSTM i BILSTM są bardziej popularne niż RNN?
Czy możemy wykorzystać te architektury głębokiego uczenia się do rozwiązywania problemów bez nadzoru?
Odpowiedzi:
RNN
architektury takie jakLSTM
iBiLSTM
są używane w sytuacjach, gdy problem uczenia się jest sekwencyjny, np. masz wideo i chcesz wiedzieć, o co w tym wszystkim chodzi, lub chcesz, aby agent przeczytał dla ciebie wiersz dokumentu, który jest obrazem tekstu i jest nie w formacie tekstowym. Gorąco zachęcam do obejrzenia tutaj .LSTMs
a ich dwukierunkowe warianty są popularne, ponieważ próbowali dowiedzieć się, jak i kiedy zapomnieć, a kiedy nie używać bram w swojej architekturze. W poprzednichRNN
architekturach znikanie gradientów było dużym problemem i powodowało, że sieci te nie uczyły się zbyt wiele.Korzystając z funkcji Dwukierunkowy
LSTMs
, algorytm uczenia się podaje oryginalne dane raz od początku do końca i raz od końca do początku. Są tutaj debaty, ale zwykle uczy się szybciej niż podejście jednokierunkowe, chociaż zależy to od zadania.Tak, w zależności od zadania możesz ich używać także w uczeniu się bez nadzoru. spójrz tutaj i tutaj .
źródło
Ludzie nie zaczynają myśleć od zera co sekundę. Czytając ten esej, rozumiesz każde słowo na podstawie zrozumienia poprzednich słów. Nie wyrzucasz wszystkiego i znów zaczynasz myśleć od nowa. Wasze myśli są wytrwałe.
Tradycyjne sieci neuronowe nie mogą tego zrobić i wydaje się to poważną wadą. Wyobraź sobie na przykład, że chcesz sklasyfikować, jakie wydarzenie ma miejsce w każdym punkcie filmu. Nie jest jasne, w jaki sposób tradycyjna sieć neuronowa mogłaby wykorzystać swoje rozumowanie dotyczące poprzednich wydarzeń w filmie, aby poinformować późniejsze.
Nawracające sieci neuronowe rozwiązują ten problem. Są to sieci z pętlami, umożliwiającymi zachowanie informacji.
Więcej informacji można znaleźć na blogu Cohena
źródło
W porównaniu do LSTM,
BLSTM
lubBiLSTM
ma dwie sieci, jednąpast
informację dostępową wforward
kierunku, a drugą dostępfuture
wreverse
kierunku. WIKIDodano nową klasę
Bidirectional
zgodnie z oficjalnym dokumentem tutaj :Pełny przykład z wykorzystaniem danych IMDB będzie taki
źródło