Poszerzam swoją wiedzę o pakiecie Keras i korzystam z niektórych dostępnych modeli. Mam problem z klasyfikacją binarną NLP, który próbuję rozwiązać i stosuję różne modele.
Po pracy z niektórymi wynikami i czytaniu coraz więcej o LSTM wydaje się, że to podejście jest znacznie lepsze niż cokolwiek innego, co próbowałem (w wielu zestawach danych). Wciąż myślę sobie: „dlaczego / kiedy nie miałbyś używać LSTM?”. Zastosowanie dodatkowych bramek, nieodłącznych od LSTM, ma dla mnie idealny sens po tym, jak niektóre modele cierpią na zanikanie gradientów.
Więc jaki jest haczyk z LSTM? Gdzie oni nie radzą sobie tak dobrze? Wiem, że nie ma czegoś takiego jak algorytm „jeden rozmiar dla wszystkich”, więc LSTM musi mieć wadę.
neural-network
nlp
lstm
recurrent-neural-net
I_Play_With_Data
źródło
źródło
Odpowiedzi:
Masz rację, że LSTM działają bardzo dobrze w przypadku niektórych problemów, ale niektóre z wad to:
Są to w porównaniu do prostszego modelu, na przykład sieci konwekcyjnej 1D.
Pierwsze trzy elementy są spowodowane tym, że LSTM mają więcej parametrów.
źródło