Pomyślmy o następujących sytuacjach:
- Uczysz robota gry w ping ponga
- Uczysz program do obliczania pierwiastka kwadratowego
- Uczysz matematyki dziecko w szkole
Te sytuacje (tj. Nadzorowane uczenie się) i wiele innych łączy jedną rzecz (między innymi): uczący się otrzymuje nagrodę na podstawie wyników.
Moje pytanie brzmi: jak powinna wyglądać funkcja nagrody? Czy istnieje „najlepsza” odpowiedź, czy zależy to od sytuacji? Jeśli zależy to od sytuacji, jak określić, którą funkcję nagrody wybrać?
Weźmy na przykład następujące trzy funkcje nagrody:
- Funkcja
A
mówi:- poniżej pewnego punktu, złe lub gorsze są takie same: nic nie dostajesz
- istnieje wyraźna różnica między prawie dobrym a doskonałym
- Funkcja
B
mówi:- otrzymujesz nagrodę liniowo proporcjonalnie do swojej wydajności
- Funkcja
C
mówi:- jeśli twoje wyniki są złe, jest w porządku, dałeś z siebie wszystko: nadal otrzymujesz nagrodę
- nie ma dużej różnicy między doskonałym a prawie dobrym
Intuicyjnie pomyślałbym, że A
sprawiłby, że robot byłby bardzo skoncentrowany i nauczył się dokładnego wzoru, ale stałby się głupi, gdy C
miałby do czynienia z podobnymi wzorami, a jednocześnie uczyniłby go bardziej elastycznym do zmiany kosztem utraty perfekcji.
Można również pomyśleć o bardziej złożonych funkcjach, aby pokazać tylko kilka:
Skąd więc wiadomo, którą funkcję wybrać? Wiadomo, których zachowanie może pojawić się z (co najmniej) podstawowy A
, B
a C
funkcje?
Bocznym pytaniem jest, czy byłoby to zasadniczo inne w przypadku robotów i ludzkich dzieci?
źródło
A
, robot może stać się wyjątkowo dobry w dokładnym zadaniu, ale okropny w zadaniach, które są podobne, ale nieco inne. To tylko moje przypuszczenie.X
dała mi najlepszy wynik”, nawet jeśli nie do końca poprawna, dałaby wielką praktyczną zasadę.Odpowiedzi:
Krótka odpowiedź: najsilniejszy efekt wzmocnienia pochodzi z dostarczenia cennej nagrody w przerywanym (losowym) harmonogramie.
Dłuższa wersja: jednym z aspektów twojego pytania jest warunkowanie operantem , przynajmniej jeśli dotyczy nauczania matematyki złożonego organizmu. Zastosowanie tego do uczenia maszynowego jest znane jako uczenie się przez wzmacnianie .
Ekonomia (zgodnie z odpowiedzią jwpat7 ) dotyczy tylko jednej części historii wzmocnienia. Funkcja użyteczności informuje, która nagroda ma najsilniejszy efekt wzmocnienia (największy wpływ na zachowanie) w danym kontekście. Czy to pochwała? czekolada? kokaina? bezpośrednia stymulacja elektryczna do niektórych obszarów mózgu? Przeważnie moja odpowiedź dotyczy efektu kontekstu, zakładając daną użyteczność nagrody.
W przypadku złożonych organizmów / zachowań planowanie nagród jest co najmniej tak samo ważne jak użyteczność nagród:
Jeśli jesteś opiekunem edukacyjnym o ustalonym budżecie nagrody, w danej sytuacji edukacyjnej będzie optymalna równowaga między wielkością nagrody (użytecznością) a częstotliwością. Prawdopodobnie nie jest to bardzo mały kawałek nagrody o bardzo wysokiej częstotliwości, ani bardzo duża część nagrody dostarczana bardzo rzadko. Może to być nawet nagroda o losowej wielkości według losowego harmonogramu - optymalne jest zwykle określane eksperymentalnie dla konkretnej sytuacji.
Wreszcie harmonogram „optymalny” (częstotliwość losowa, ilość losowa {p (nagroda), p (wartość)}) prawdopodobnie będzie się zmieniać na różnych etapach procesu uczenia się. Na przykład nowy uczeń może zostać poddany efektowi „pierwszeństwa” (witaj! Miej żelki), który szybko staje się nagrodą o ustalonym odstępie czasu, jeśli go powtórzysz. Może występować efekt „powtarzania”, który zyskuje większą wartość wzmocnienia z nagrody dostarczonej w ostatniej próbie („kończenie na wysokim poziomie”). W międzyczasie może wystąpić kumulacyjny „efekt wiary”, w którym w miarę jak uczeń staje się bardziej doświadczony, optymalne może z czasem zmienić się w kierunku niższego prawdopodobieństwa, wyższej użyteczności. Ponownie, więcej rzeczy do ustalenia empirycznie w twojej sytuacji.
źródło
„Optymalne uczenie się” jest bardzo niejasnym terminem i całkowicie zależy od konkretnego problemu, nad którym pracujesz. Termin, którego szukasz, to „ nadmierne dopasowanie ”:
(Zielona linia to błąd w przewidywaniu wyniku na danych szkoleniowych, fioletowa linia to jakość modelu, a czerwona linia to błąd wyuczonego modelu używanego „w produkcji”)
Innymi słowy: jeśli chodzi o dostosowanie wyuczonego zachowania do podobnych problemów, to, jak nagradzałeś swój system, jest mniej ważne niż to, ile razy go nagradzałeś - chcesz ograniczyć błędy w danych treningowych, ale nie utrzymywać go w treningu, więc długo, że traci zdolność do pracy na podobnych modelach.
Jedną z metod rozwiązania tego problemu jest przecięcie danych treningowych na pół: wykorzystaj jedną połowę do nauki, a drugą połowę do zatwierdzenia szkolenia. Pomaga zidentyfikować, kiedy zaczyna się nadmiernie dopasowywać.
Nieliniowe funkcje nagrody
Większość nadzorowanych algorytmów uczenia się oczekuje, że zastosowanie funkcji nagrody spowoduje wypukły wynik. Innymi słowy, lokalne minima na tej krzywej zapobiegną konwergencji systemu do właściwego zachowania. Ten film pokazuje trochę matematyki za funkcjami kosztów / nagród .
źródło
Kwestie te zostały w pewnym stopniu uwzględnione w badaniu funkcji użyteczności w ekonomii. Funkcja użyteczności wyraża skuteczne lub postrzegane wartości jednej rzeczy w kategoriach innej. (Podczas gdy krzywe przedstawione w pytaniu są funkcjami nagrody i wyrażają, ile nagród zostanie przyznanych dla różnych poziomów wydajności, podobnie wyglądające funkcje użytkowe mogą wyrażać, ile wydajności wynika z różnych poziomów nagrody).
To, która funkcja nagrody będzie działać najlepiej, zależy od równowagi między płatnikiem a wykonawcą. Artykuł dotyczący krzywej kontraktu wikipedii ilustruje z polami Edgewortha, jak znaleźć efektywne przydziały Pareto . Narzędzie Von Neumanna Morgenstern twierdzenie wyznacza warunków, które zapewniają, że środek jest VNM-racjonalne i mogą być scharakteryzowane jako posiadające funkcję użytkową. Sekcja „Prognozy behawioralne wynikające z narzędzia HARA” w artykule o hiperbolicznej bezwzględnej awersji do ryzyka w wikipedii opisuje konsekwencje behawioralne niektórych funkcji narzędziowych.
Podsumowanie: Tematy te były przedmiotem ogromnych badań w dziedzinie ekonomii i mikroekonomii. Niestety wyodrębnienie krótkiego i przydatnego streszczenia, które odpowiada na twoje pytanie, może również wymagać ogromnej ilości pracy lub uwagi kogoś bardziej zaawansowanego niż ja.
źródło
Optymalna funkcja nagrody zależy od celu uczenia się, czyli tego, czego należy się nauczyć. W przypadku prostych problemów może być możliwe znalezienie formy zamkniętej dla optymalnej funkcji nagrody. W rzeczywistości w przypadku naprawdę prostych problemów jestem pewien, że jest to możliwe, choć nie znam formalnych metod (podejrzewam, że teoria użyteczności rozwiązałaby to pytanie). W przypadku bardziej złożonych problemów argumentowałbym, że nie jest możliwe znalezienie rozwiązania w formie zamkniętej.
Zamiast szukać optymalnej funkcji, możemy zwrócić się do eksperta o dobrą funkcję nagrody. Jednym z takich podejść jest technika nazywana uczeniem się odwrotnego zbrojenia (IRL). Formułuje problem uczenia się jako problem uczenia się wzmacniającego, w którym funkcja nagrody nie jest znana, a cel procesu uczenia się. Artykuł Uczenie się przez praktykę za pomocą uczenia odwrotnego przez Pietera Abbeela i Andrew Ng jest dobrym miejscem do rozpoczęcia nauki o IRL.
źródło
Każda forma nadzorowanego uczenia się jest ukierunkowanym wyszukiwaniem w obszarze polityki. Próbujesz znaleźć zasadę - a więc jaką akcję podjąć - która zapewnia maksymalne oczekiwane wynagrodzenie. W swoim pytaniu dajesz nagrodę jako funkcję wydajności. Tak długo, jak ta funkcja jest monotoniczna, jakakolwiek metoda, która się zbiega, ostatecznie zapewni maksymalną wydajność (zbyt trzymaj się terminologii).
Szybkość zbieżności metody to inna sprawa i może zależeć od krzywej. Ale myślę, że będzie to różnić się w zależności od metody.
Zupełnie innym problemem jest to, że w przypadku bardziej złożonych scenariuszy wydajność nie jest zwykłym skalarem, a zdefiniowanie jej może być dość trudne. Jaka jest funkcja nagrody za bycie dobrym w matematyce?
źródło