Pytania oznaczone «reinforcement-learning»

12

Jak dopasować ciężarki do wartości Q z aproksymacją funkcji liniowej

W uczeniu się zbrojenia aproksymacja funkcji liniowej jest często stosowana, gdy występują duże przestrzenie stanu. (Kiedy tabele wyszukiwania stają się niewykonalne.) Postać wartości z aproksymacji liniowej funkcji jest przezQ -Q−Q- Q ( s , a ) = w1fa1( s , a ) + w2)fa2)( s , a ) + ⋯...

machine-learning feature-selection reinforcement-learning

12

Dlaczego doświadczenie odtwarzania wymaga algorytmu niezgodnego z zasadami?

W artykule wprowadzającym DQN „ Playing Atari with Deep Reinforcement Learning ” wspomniano: Pamiętaj, że ucząc się na podstawie powtórki z doświadczenia, musisz nauczyć się pozasądowych zasad (ponieważ nasze obecne parametry różnią się od parametrów używanych do generowania próbki), co motywuje...

reinforcement-learning

12

Jaki jest związek między teorią gier a uczeniem się przez wzmacnianie?

Interesuje mnie (Deep) Reinforcement Learning (RL) . Czy przed nurkowaniem w tym polu powinienem wziąć udział w kursie z teorii gier (GT) ? W jaki sposób powiązane są GT i RL

deep-learning reinforcement-learning game-theory

12

Tłumaczenie problemu uczenia maszynowego na ramy regresji

Załóżmy, że mam panel zmiennych objaśniających , dla , , a także wektor zmiennych zależnych od wyniku binarnego . Zatem obserwuje się tylko w czasie końcowym a nie w żadnym wcześniejszym czasie. Całkowicie ogólnym przypadkiem jest wielokrotność dla dla każdej jednostki w każdym czasie , ale skupmy...

regression machine-learning reinforcement-learning

12

Kiedy metody Monte Carlo są lepsze od metod różnic czasowych?

Ostatnio robiłem dużo badań na temat nauki o wzmocnieniu. Śledziłem Reinforcement Learning Sutton & Barto : Wprowadzenie do większości tego. Wiem, czym są procesy decyzyjne Markowa i jak do ich rozwiązania można wykorzystać uczenie się w zakresie programowania dynamicznego (DP), Monte Carlo i...

monte-carlo reinforcement-learning temporal-difference

11

Jakie są zasady wdrażania w artykule AlphaGo?

Papier jest tutaj . Polityka wdrażania ... jest liniową polityką softmax opartą na szybkich, przyrostowo obliczonych, lokalnych funkcjach opartych na wzorcach ... Nie rozumiem, co to jest zasada wdrażania i jak odnosi się do sieci zasad wyboru ruchu. Jakieś prostsze

machine-learning monte-carlo reinforcement-learning games

11

Q-learning z Neural Network jako aproksymacja funkcji

Próbuję użyć sieci neuronowej w celu przybliżenia wartości Q w Q-learningu, tak jak w pytaniach dotyczących Q-Learning z wykorzystaniem sieci neuronowych . Jak zasugerowano w pierwszej odpowiedzi, używam liniowej funkcji aktywacji dla warstwy wyjściowej, podczas gdy nadal używam funkcji aktywacji...

neural-networks reinforcement-learning

10

Dlaczego algorytm iteracji polityki jest zbieżny z optymalną funkcją polityki i wartości?

Czytałem notatki z wykładu Andrew Ng na temat uczenia się przez wzmacnianie i próbowałem zrozumieć, dlaczego iteracja polityki jest zbieżna z funkcją optymalnej wartości i optymalną polityką .V∗V∗V^*π∗π∗\pi^* Przypomnijmy, że iteracja zasad to: Zainicjuj π losowoPowtórz {L e t V. : =V.π \ dla...

reinforcement-learning policy-iteration

10

Czy model P (Y | X) można wytrenować za pomocą stochastycznego spadku gradientu z nie-iidowych próbek P (X) i iidowych próbek P (Y | X)?

Podczas uczenia sparametryzowanego modelu (np. W celu zmaksymalizowania prawdopodobieństwa) za pomocą stochastycznego spadku gradientowego na niektórych zbiorach danych, powszechnie przyjmuje się, że próbki szkoleniowe są pobierane z rozkładu danych szkoleniowych. Jeśli więc celem jest modelowanie...

machine-learning conditional-probability reinforcement-learning gradient-descent

9

Jak efektywne jest Q-learning z sieciami neuronowymi, gdy na działanie przypada jedna jednostka wyjściowa?

Tło: Używam aproksymacji wartości Q sieci neuronowej w moim zadaniu uczenia się zbrojenia. Podejście jest dokładnie takie samo, jak opisane w tym pytaniu , jednak samo pytanie jest inne. W tym podejściu liczba wyników jest liczbą działań, które możemy podjąć. W prostych słowach algorytm jest...

machine-learning neural-networks reinforcement-learning q-learning

9

Jak interpretować krzywą przeżycia modelu zagrożenia Coxa?

Jak interpretujesz krzywą przeżycia z proporcjonalnego modelu hazardu Coxa? W tym przykładzie zabawki załóżmy, że mamy proporcjonalny model hazardu Coxa dla agezmiennej w kidneydanych i generujemy krzywą przeżycia. library(survival) fit <- coxph(Surv(time, status)~age,...

r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

9

Uczenie się przez wzmocnienie w środowisku niestacjonarnym [zamknięte]

Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 22 dni temu . P1: Czy istnieją...

markov-process reinforcement-learning stationarity q-learning

9

Omówienie algorytmów uczenia się zbrojenia

Obecnie szukam Przeglądu algorytmów uczenia się zbrojenia i być może ich klasyfikacji. Ale obok Sarsa i Q-Learning + Deep Q-Learning nie mogę znaleźć żadnych popularnych algorytmów. Wikipedia daje mi przegląd różnych ogólnych metod uczenia się zbrojenia, ale nie ma odniesienia do różnych...

reinforcement-learning q-learning