Markowian Proces decyzyjny rzeczywiście ma do czynienia z przechodząc z jednego stanu do drugiego i jest wykorzystywany głównie do planowania i podejmowania decyzji .
Teoria
Po prostu szybko powtarzając teorię, MDP to:
MDP = ⟨ S, A , T, R , γ⟩
S.ZAT.P.r ( s′| s,a)Rγ
Aby więc z niego korzystać, musisz mieć predefiniowane:
- Stany : mogą one odnosić się na przykład do map siatki w robotyce lub na przykład drzwi otwarte i drzwi zamknięte .
- Akcje : ustalony zestaw akcji, takich jak na przykład jazda na północ, południe, wschód itp. Dla robota lub otwieranie i zamykanie drzwi.
- Prawdopodobieństwa przejścia : prawdopodobieństwo przejścia z jednego stanu do drugiego przy danym działaniu. Na przykład, jakie jest prawdopodobieństwo otwarcia drzwi, jeśli akcja jest otwarta . W idealnym świecie późniejszą wersją może być 1.0, ale jeśli jest to robot, może nie być w stanie prawidłowo obsługiwać klamki. Innym przykładem w przypadku poruszającego się robota byłaby akcja na północ , która w większości przypadków sprowadziłaby go do komórki siatki na północ od niego, ale w niektórych przypadkach mogła się zbytnio poruszyć i dotrzeć na przykład do następnej komórki.
- Nagrody : służą one do planowania. W przypadku przykładu z siatką możemy chcieć przejść do określonej komórki, a nagroda będzie wyższa, jeśli się do nas zbliżysz. W przypadku przykładu drzwi otwarte drzwi mogą dać wysoką nagrodę.
Po zdefiniowaniu MDP można nauczyć się polityki, wykonując iterację wartości lub iterację polityki, która oblicza oczekiwaną nagrodę dla każdego stanu. Następnie polityka daje najlepsze działanie dla danego stanu (biorąc pod uwagę model MDP).
Podsumowując, MDP jest przydatny, gdy chcesz zaplanować skuteczną sekwencję działań, w których twoje działania nie zawsze będą w 100% skuteczne.
Twoje pytania
Czy można go wykorzystać do przewidywania rzeczy?
Nazwałbym to planowaniem, a nie na przykład regresją .
Jeśli tak, jakie rodzaje rzeczy?
Zobacz przykłady .
Czy potrafi znaleźć wzorce wśród nieskończonej ilości danych?
| S.|
Co ten algorytm może dla mnie zrobić.
Zobacz przykłady .
Przykłady zastosowań MDP
- White, DJ (1993) wspomina o dużej liście aplikacji:
- Zbiór: ile członków populacji musi pozostać do hodowli.
- Rolnictwo: ile sadzić w zależności od pogody i stanu gleby.
- Zasoby wodne: utrzymuj prawidłowy poziom wody w zbiornikach.
- Kontrola, konserwacja i naprawa: kiedy wymienić / skontrolować na podstawie wieku, stanu itp.
- Zakup i produkcja: ile wyprodukować na podstawie popytu.
- Kolejki: skróć czas oczekiwania.
- ...
- Finanse: decydowanie, ile zainwestować w akcje.
- Robotyka:
I jest całkiem więcej modeli. Jeszcze bardziej interesującym modelem jest częściowo obserwowalny proces decyzyjny Markowa, w którym stany nie są całkowicie widoczne, a zamiast tego wykorzystuje się obserwacje, aby uzyskać wyobrażenie o obecnym stanie, ale nie wchodzi to w zakres tego pytania.
Dodatkowe informacje
Proces stochastyczny jest Markowski (lub ma właściwość Markowa), jeśli warunkowy rozkład prawdopodobieństwa przyszłych stanów zależy tylko od stanu bieżącego, a nie od poprzednich (tj. Nie od listy poprzednich stanów).
states
,actions
,transition probabilities
irewards
określono, będzie określany jako Markowa?