Jestem początkującym, który próbuje stworzyć swój pierwszy projekt. Miałem na myśli projekt klasyfikacji piosenek, ale ponieważ będę ręcznie etykietować, mogłem tylko rozsądnie zebrać około 1000 piosenek lub 60 godzin muzyki.
Klasyfikowałbym się z kilkoma klasami, więc możliwe, że jedna klasa miałaby zaledwie 50-100 piosenek w zestawie treningowym - wydaje się, że to za mało! Czy istnieje ogólna ogólna zasada dotycząca ilości danych potrzebnych do wyszkolenia sieci neuronowej, aby dać jej szansę na działanie?
Edycja: Myślałem o użyciu waniliowej LSTM. Funkcje wejściowe będą miały wymiar 39, wymiar wyjściowy 6, moja pierwsza próba wymiaru warstwy ukrytej to 100.
neural-networks
arrey
źródło
źródło
Odpowiedzi:
To naprawdę zależy od zestawu danych i architektury sieci. Jedna podstawowa zasada, którą przeczytałem (2), to kilka tysięcy próbek na klasę, aby sieć neuronowa zaczęła bardzo dobrze działać.
W praktyce ludzie próbują zobaczyć. Nierzadko można znaleźć badania wykazujące przyzwoite wyniki przy zestawie szkoleniowym mniejszym niż 1000 próbek.
Dobrym sposobem na przybliżoną ocenę, w jakim stopniu korzystne byłoby posiadanie większej liczby próbek treningowych, jest wykreślenie wydajności sieci neuronowej w oparciu o rozmiar zestawu treningowego, np. Z (1):
(2) Cireşan, Dan C., Ueli Meier i Jürgen Schmidhuber. „Przenieś naukę znaków łacińskich i chińskich za pomocą głębokich sieci neuronowych”. Na międzynarodowej wspólnej konferencji w sprawie sieci neuronowych (IJCNN) w 2012 r., S. 1–6. IEEE, 2012. https://scholar.google.com/scholar?cluster=7452424507909578812&hl=pl&as_sdt=0,22 ; http://people.idsia.ch/~ciresan/data/ijcnn2012_v9.pdf :
źródło