Więc jaki jest haczyk z LSTM?

12

Poszerzam swoją wiedzę o pakiecie Keras i korzystam z niektórych dostępnych modeli. Mam problem z klasyfikacją binarną NLP, który próbuję rozwiązać i stosuję różne modele.

Po pracy z niektórymi wynikami i czytaniu coraz więcej o LSTM wydaje się, że to podejście jest znacznie lepsze niż cokolwiek innego, co próbowałem (w wielu zestawach danych). Wciąż myślę sobie: „dlaczego / kiedy nie miałbyś używać LSTM?”. Zastosowanie dodatkowych bramek, nieodłącznych od LSTM, ma dla mnie idealny sens po tym, jak niektóre modele cierpią na zanikanie gradientów.

Więc jaki jest haczyk z LSTM? Gdzie oni nie radzą sobie tak dobrze? Wiem, że nie ma czegoś takiego jak algorytm „jeden rozmiar dla wszystkich”, więc LSTM musi mieć wadę.

I_Play_With_Data
źródło
Wypróbuj GRU, są jak LSTM, ale wymagają mniej pamięci i trenują szybciej.
Vivek Khetan

Odpowiedzi:

11

Masz rację, że LSTM działają bardzo dobrze w przypadku niektórych problemów, ale niektóre z wad to:

  • Trenowanie LSTM trwa dłużej
  • LSTM wymagają więcej pamięci do trenowania
  • LSTM łatwo się nakłada
  • Rezygnacja jest znacznie trudniejsza do wdrożenia w LSTM
  • LSTM są wrażliwe na różne inicjalizacje losowej masy

Są to w porównaniu do prostszego modelu, na przykład sieci konwekcyjnej 1D.

Pierwsze trzy elementy są spowodowane tym, że LSTM mają więcej parametrów.

Imran
źródło
3
Zgadzam się i myślę, że nadmierne dopasowanie (inaczej słaba generalizacja) jest prawdopodobnie największym ryzykiem. Upewnij się, że masz dobrą strategię sprawdzania poprawności modelu.
tom