Obecnie czytam artykuł Efficient Online and Batch Learning with Forward-Backward Spliting autorstwa John Duchi i Yoram Singer. Jestem bardzo zdezorientowany co do używania terminów „Online” i „Batch”.
Pomyślałem, że „Online” oznacza, że aktualizujemy parametry wagi po przetworzeniu jednej jednostki danych treningowych. Następnie wykorzystujemy nowe parametry wagi do przetwarzania następnej jednostki danych treningowych.
Jednak w powyższym artykule użycie nie jest tak jasne.
Odpowiedzi:
Dla mnie wygląda na to, że poprawnie korzystają z nauki wsadowej i online. W sekcji 3 pracują nad całym zestawem danych, aby przeprowadzić uczenie, tj. Uczenie wsadowe, natomiast w części 4 przełączają się na gradient stochastyczny, który można wykorzystać jako algorytm uczenia się online.
Nigdy nie stosowałem stochastycznego śledzenia gradientów jako algorytmu uczenia się online; Można jednak po prostu zatrzymać proces optymalizacji w trakcie cyklu uczenia się i nadal jest to przydatny model. W przypadku bardzo dużych zestawów danych jest to przydatne, ponieważ można zmierzyć zbieżność i wcześniej przerwać naukę. Możesz zastosować stochastyczne śledzenie gradientów jako metodę nauki online, ponieważ aktualizujesz model dla każdego nowego punktu danych, jak myślę sam powiedziałeś. Mimo to uważałbym, by nazywać to „danymi szkolenia”. Dane treningowe to zbiór danych, a nie punkt danych, ale myślę, że cię zrozumiałem, ponieważ powiedziałeś „ na dane treningowe”.
źródło
W skrócie,
Online: Uczenie się na podstawie każdego zaobserwowanego wzoru.
Partia: nauka o grupach wzorów. Większość algorytmów jest partiami.
Źródło: http://machinelearningmastery.com/basic-concepts-in-machine-learning/
źródło
Batch kontra nauka online
Tryby on-line i wsadowy są nieco inne, chociaż oba będą dobrze działać na powierzchniach parabolicznych. Jedną z głównych różnic jest to, że algorytm wsadowy utrzymuje stałe wagi systemu podczas obliczania błędu związanego z każdą próbką na wejściu. Ponieważ wersja online stale aktualizuje swoje wagi, w obliczeniach błędów (a tym samym szacowaniu gradientu) stosuje się różne wagi dla każdej próbki wejściowej. Oznacza to, że dwa algorytmy odwiedzają różne zestawy punktów podczas adaptacji. Jednak oba są zbieżne do tego samego minimum.
Należy zauważyć, że liczba aktualizacji wagi dwóch metod dla tej samej liczby prezentacji danych jest bardzo różna. Metoda on-line (LMS) wykonuje aktualizację każdej próbki, podczas gdy partia aktualizuje każdą epokę, czyli
Aktualizacje LMS = (aktualizacje partii) x (liczba próbek w zestawie szkoleniowym).
Algorytm wsadowy jest również nieco bardziej wydajny pod względem liczby obliczeń.
źródło