Zastanawiam się, jak interpretować architekturę cykliczną w kontekście EEG. W szczególności myślę o tym jako o Rekurencyjnym CNN (w przeciwieństwie do architektur takich jak LSTM), ale może dotyczy to również innych typów sieci rekurencyjnych
Kiedy czytam o R-CNN, są one zwykle wyjaśniane w kontekście klasyfikacji obrazów. Zazwyczaj określa się je jako „uczenie się w czasie” lub „włączając wpływ czasu-1 na prąd wejściowy”
Ta interpretacja / wyjaśnienie staje się bardzo mylące podczas pracy z danymi EEG. Przykład zastosowania R-CNN w danych EEG można znaleźć tutaj
Wyobraź sobie, że mam przykłady treningów, z których każdy składa się z tablicy 1x512. Ta tablica rejestruje odczyt napięcia dla 1 elektrody w 512 kolejnych punktach czasowych. Jeśli użyję tego jako danych wejściowych do Rekurencyjnego CNN (przy użyciu splotów 1D), rekurencyjna część modelu nie przechwytuje „czasu”, prawda? (co wynikałoby z omówionych wcześniej opisów / wyjaśnień) Ponieważ w tym kontekście czas jest już przechwytywany przez drugi wymiar tablicy
Więc przy takiej konfiguracji, co w rzeczywistości powtarzająca się część sieci pozwala nam modelować, że zwykły CNN nie może (jeśli nie czas)?
Wydaje mi się, że cykliczny oznacza po prostu splot, dodanie wyniku do pierwotnego wkładu i ponowne splot. To się powtarza dla x liczby powtarzających się kroków. Jaką korzyść daje ten proces?
Odpowiedzi:
Nawracająca część sieci pozwala, ogólnie mówiąc, modelować zależności krótko- i długoterminowe. Twój model może mieć poczucie stanu.
Jest to zwykle korzystne, jeśli używasz timeseries. Na przykład, jeśli masz dane z czujnika tętna i lubisz klasyfikować między odpoczynkiem, stresem i regeneracją. Jeśli twój punkt danych mówi, że twoje tętno wynosi 130, zależy to od tego, czy regenerujesz się po dużych obciążeniach, czy coś innego.
Edycja: Zapomniałem twojego drugiego pytania.
Mógłbym wymyślić kilka możliwych odpowiedzi. Przez zwoje powtarzającej się części filtrujesz ją. Otrzymujesz czystszy sygnał, a błędy nie będą się kumulować. Vanilla rnn cierpi z powodu eksplozji zanikających gradientów, więc może to być jego podejście do przezwyciężenia tego. Co więcej, osadzasz swoje funkcje w rcnn, co może, jak stwierdził, prowadzić do większej liczby ścieżek do wykorzystania. Co czyni go mniej podatnym na nadmierne dopasowanie, a tym samym bardziej ogólnym.
źródło
źródło
Pamiętaj, że CNN to detektory cech. Wyjściem warstwy splotowej jest matryca, która sygnalizuje wykrycie pewnej cechy.
Dlatego rekurencyjne CNN to rekurencyjne sieci neuronowe, które uczą się sekwencji cech, przy czym te cechy są również uczone podczas szkolenia.
źródło