Uczenie nadzorowane, uczenie się bez nadzoru i uczenie się wzmacniające: podstawy przepływu pracy

30

Nadzorowana nauka

  • 1) Ludzka tworzy klasyfikator oparty na wejściowych i wyjściowych danych
  • 2) Ten klasyfikator jest szkolony przy użyciu zestawu danych szkoleniowych
  • 3) Ten klasyfikator jest testowany z testowym zestawem danych
  • 4) Wdrożenie, jeśli wynik jest zadowalający

Do użycia, gdy: „Wiem, jak klasyfikować te dane, potrzebuję tylko ciebie (klasyfikatora), aby je posortować”.

Punkt metody: do klasyfikowania etykiet lub tworzenia liczb rzeczywistych

Uczenie się bez nadzoru

  • 1) Człowiek buduje algorytm na podstawie danych wejściowych
  • 2) Ten algorytm jest testowany z testowym zestawem danych (w którym algorytm tworzy klasyfikator)
  • 3) Wdrożenie, jeśli klasyfikator jest zadowalający

Do użycia, gdy: „Nie mam pojęcia, jak sklasyfikować te dane, czy możesz (algorytm) stworzyć dla mnie klasyfikator?”

Punkt metody: Aby klasyfikować etykiety lub przewidywać (PDF)

Nauka wzmocnienia

  • 1) Człowiek buduje algorytm na podstawie danych wejściowych
  • 2) Ten algorytm przedstawia stan zależny od danych wejściowych, w których użytkownik nagradza lub karze algorytm poprzez działanie , które podjął algorytm, co trwa z czasem
  • 3) Ten algorytm uczy się na podstawie nagrody / kary i sam się aktualizuje, to trwa
  • 4) Zawsze jest produkowany, musi uczyć się prawdziwych danych, aby móc prezentować działania od stanów

Do użycia, gdy: „Nie mam pojęcia, jak sklasyfikować te dane, czy możesz sklasyfikować te dane, a dam ci nagrodę, jeśli jest poprawna, lub ukaram cię, jeśli nie jest”.

Czy jest to rodzaj przepływu tych praktyk, słyszę dużo o tym, co robią, ale praktyczne i przykładowe informacje są przerażająco małe!

Karl Morrison
źródło
Naprawdę podobał mi się sposób, w jaki przedstawiłeś swoje pytanie. Ta odpowiedź była dla mnie pomocna: stats.stackexchange.com/a/522/92255
Ashesh Kumar Singh

Odpowiedzi:

3

To bardzo miłe, kompaktowe wprowadzenie do podstawowych pomysłów!

Nauka wzmocnienia

Myślę, że opis przypadku uczenia się przez wzmocnienie nie jest do końca właściwy. Termin „ klasyfikuj” jest niewłaściwy. Lepszym opisem byłoby:

Nie wiem, jak postępować w tym środowisku , czy potrafisz znaleźć dobre zachowanie, a tymczasem dam ci opinię .

Innymi słowy, celem jest raczej dobra kontrola nad czymś, niż dobra klasyfikacja .

Wkład

  • Środowisko , które jest określone przez
    • wszystkie możliwe stany
    • możliwe działania w stanach
  • Funkcja nagrody zależy od stanu i / lub akcji

Algorytm

  • Agent
    • jest w stanie
    • podejmuje działanie w celu przeniesienia do innego stanu
    • otrzymuje nagrodę za akcję w państwie

Wydajność

  • Agent chce znaleźć optymalną politykę, która maksymalizuje nagrodę
elcombato
źródło
2

Oświadczenie: Nie jestem ekspertem i nawet nigdy nie zrobiłem czegoś z uczeniem się wzmacniającym (jeszcze), więc wszelkie opinie byłyby mile widziane ...

Oto odpowiedź, która dodaje do twojej listy kilka notatek matematycznych i różne przemyślenia na temat tego, kiedy z czego korzystać. Mam nadzieję, że wyliczenie jest wystarczająco zrozumiałe:

Nadzorowany

  1. Mamy daneD={(x0,y0),(x1,y1),,(xn,yn)}
  2. Szukamy modelu który minimalizuje pewną miarę straty / kosztu dla wszystkich punktówgL(yi,g(xi))0i<l
  3. Oceniamy model, obliczając stratę / koszt dla pozostałych danych ( ), aby zorientować się, jak dobrze model generalizujeLlin

Możemy podać przykłady, ale nie możemy podać algorytmu, aby przejść od wejścia do wyjścia

Ustawienie dla klasyfikacji i regresji

Bez nadzoru

  1. Mamy daneD={x0,x1,,xn}
  2. Szukamy modelu który daje nam wgląd w nasze dane.g
  3. Nie mamy prawie żadnych środków, aby stwierdzić, czy zrobiliśmy coś pożytecznego / interesującego

Mamy trochę danych, ale nie mamy pojęcia, od czego zacząć szukać przydatnych / interesujących rzeczy

Ustawienie dla grupowania, redukcji wymiarów, znajdowania ukrytych czynników, modeli generatywnych itp.

Wzmocnienie

  1. Nie mamy danych
  2. Konstruujemy model który generuje dane (często nazywane akcjami), które mogą być oparte na pomiarach i / lub wcześniejszych akcjach, w celu maksymalizacji pewnej miary nagrody , który na ogół nie jest znany modelowi (należy go również nauczyć).gxiR(xi)
  3. Oceniamy za pomocą funkcji nagrody po tym, jak miał trochę czasu na naukę.

Nie mamy pojęcia, jak coś zrobić, ale możemy powiedzieć, czy zrobiono to dobrze, czy źle

Wydaje się to szczególnie przydatne w przypadku sekwencyjnych zadań decyzyjnych.

Odniesienia:
Si, J., Barto, A., Powell, W. i Wunsch, D. (2004) Reinforcement Learning i jego związek z Supervised Learning, w Handbook of Learning and Approximate Dynamic Programming, John Wiley & Sons, Inc., Hoboken, NJ, USA. doi: 10.1002 / 9780470544785.ch2

Pan Tsjolder
źródło