Pytania oznaczone «q-learning»

18

Dlaczego podczas nauki Q-Learning wykorzystuje chciwość epsilon?

W artykule DeepMind na temat Deep Q-Learning dla gier wideo Atari ( tutaj ) używają one chciwości epsilon do eksploracji podczas treningu. Oznacza to, że gdy akcja zostanie wybrana podczas treningu, zostanie wybrana albo jako akcja o najwyższej wartości q, albo akcja losowa. Wybór między tymi dwoma...

17

Dlaczego wybrano literę Q w Q-learningu?

Dlaczego litera Q została wybrana w imieniu Q-learningu? Większość liter jest wybieranych jako skrót, na przykład oznacza ππ\pistrategię, a vvv oznacza wartość. Ale nie sądzę, że Q jest skrótem dowolnego

terminology reinforcement-learning history q-learning

14

Jaka jest różnica między epizodem a epoką w głębokim uczeniu się Q?

Próbuję zrozumieć słynny artykuł „Playing Atari with Deep Reinforcement Learning” ( pdf ). Nie jestem pewien, jaka jest różnica między epoką a epizodem . W algorytmie zewnętrzna pętla kończy się epizodami , natomiast na rysunku oś x jest oznaczona epoką . W kontekście uczenia się przez wzmacnianie...

neural-networks terminology reinforcement-learning q-learning

9

Jak efektywne jest Q-learning z sieciami neuronowymi, gdy na działanie przypada jedna jednostka wyjściowa?

Tło: Używam aproksymacji wartości Q sieci neuronowej w moim zadaniu uczenia się zbrojenia. Podejście jest dokładnie takie samo, jak opisane w tym pytaniu , jednak samo pytanie jest inne. W tym podejściu liczba wyników jest liczbą działań, które możemy podjąć. W prostych słowach algorytm jest...

machine-learning neural-networks reinforcement-learning q-learning

9

Jak interpretować krzywą przeżycia modelu zagrożenia Coxa?

Jak interpretujesz krzywą przeżycia z proporcjonalnego modelu hazardu Coxa? W tym przykładzie zabawki załóżmy, że mamy proporcjonalny model hazardu Coxa dla agezmiennej w kidneydanych i generujemy krzywą przeżycia. library(survival) fit <- coxph(Surv(time, status)~age,...

r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

9

Uczenie się przez wzmocnienie w środowisku niestacjonarnym [zamknięte]

Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 22 dni temu . P1: Czy istnieją...

markov-process reinforcement-learning stationarity q-learning

9

Omówienie algorytmów uczenia się zbrojenia

Obecnie szukam Przeglądu algorytmów uczenia się zbrojenia i być może ich klasyfikacji. Ale obok Sarsa i Q-Learning + Deep Q-Learning nie mogę znaleźć żadnych popularnych algorytmów. Wikipedia daje mi przegląd różnych ogólnych metod uczenia się zbrojenia, ale nie ma odniesienia do różnych...

reinforcement-learning q-learning