Nadzorowana nauka
- 1) Ludzka tworzy klasyfikator oparty na wejściowych i wyjściowych danych
- 2) Ten klasyfikator jest szkolony przy użyciu zestawu danych szkoleniowych
- 3) Ten klasyfikator jest testowany z testowym zestawem danych
- 4) Wdrożenie, jeśli wynik jest zadowalający
Do użycia, gdy: „Wiem, jak klasyfikować te dane, potrzebuję tylko ciebie (klasyfikatora), aby je posortować”.
Punkt metody: do klasyfikowania etykiet lub tworzenia liczb rzeczywistych
Uczenie się bez nadzoru
- 1) Człowiek buduje algorytm na podstawie danych wejściowych
- 2) Ten algorytm jest testowany z testowym zestawem danych (w którym algorytm tworzy klasyfikator)
- 3) Wdrożenie, jeśli klasyfikator jest zadowalający
Do użycia, gdy: „Nie mam pojęcia, jak sklasyfikować te dane, czy możesz (algorytm) stworzyć dla mnie klasyfikator?”
Punkt metody: Aby klasyfikować etykiety lub przewidywać (PDF)
Nauka wzmocnienia
- 1) Człowiek buduje algorytm na podstawie danych wejściowych
- 2) Ten algorytm przedstawia stan zależny od danych wejściowych, w których użytkownik nagradza lub karze algorytm poprzez działanie , które podjął algorytm, co trwa z czasem
- 3) Ten algorytm uczy się na podstawie nagrody / kary i sam się aktualizuje, to trwa
- 4) Zawsze jest produkowany, musi uczyć się prawdziwych danych, aby móc prezentować działania od stanów
Do użycia, gdy: „Nie mam pojęcia, jak sklasyfikować te dane, czy możesz sklasyfikować te dane, a dam ci nagrodę, jeśli jest poprawna, lub ukaram cię, jeśli nie jest”.
Czy jest to rodzaj przepływu tych praktyk, słyszę dużo o tym, co robią, ale praktyczne i przykładowe informacje są przerażająco małe!
machine-learning
unsupervised-learning
supervised-learning
reinforcement-learning
Karl Morrison
źródło
źródło
Odpowiedzi:
To bardzo miłe, kompaktowe wprowadzenie do podstawowych pomysłów!
Nauka wzmocnienia
Myślę, że opis przypadku uczenia się przez wzmocnienie nie jest do końca właściwy. Termin „ klasyfikuj” jest niewłaściwy. Lepszym opisem byłoby:
Innymi słowy, celem jest raczej dobra kontrola nad czymś, niż dobra klasyfikacja .
Wkład
Algorytm
Wydajność
źródło
Oświadczenie: Nie jestem ekspertem i nawet nigdy nie zrobiłem czegoś z uczeniem się wzmacniającym (jeszcze), więc wszelkie opinie byłyby mile widziane ...
Oto odpowiedź, która dodaje do twojej listy kilka notatek matematycznych i różne przemyślenia na temat tego, kiedy z czego korzystać. Mam nadzieję, że wyliczenie jest wystarczająco zrozumiałe:
Nadzorowany
Ustawienie dla klasyfikacji i regresji
Bez nadzoru
Ustawienie dla grupowania, redukcji wymiarów, znajdowania ukrytych czynników, modeli generatywnych itp.
Wzmocnienie
Wydaje się to szczególnie przydatne w przypadku sekwencyjnych zadań decyzyjnych.
Odniesienia:
Si, J., Barto, A., Powell, W. i Wunsch, D. (2004) Reinforcement Learning i jego związek z Supervised Learning, w Handbook of Learning and Approximate Dynamic Programming, John Wiley & Sons, Inc., Hoboken, NJ, USA. doi: 10.1002 / 9780470544785.ch2
źródło