Prawdziwe przykłady procesów decyzyjnych Markowa

20

Oglądałem wiele filmów instruktażowych i wyglądają tak samo. Ten na przykład: https://www.youtube.com/watch?v=ip4iSMRW5X4

Wyjaśniają stany, działania i prawdopodobieństwa, które są w porządku. Osoba wyjaśnia to dobrze, ale po prostu nie mogę zrozumieć, do czego byłaby używana w prawdziwym życiu. Do tej pory nie spotkałem żadnych list. Najbardziej powszechne, jakie widzę, to szachy.

Czy można go wykorzystać do przewidywania rzeczy? Jeśli tak, jakie rodzaje rzeczy? Czy potrafi znaleźć wzorce wśród nieskończonej ilości danych? Co ten algorytm może dla mnie zrobić.

Premia: Wydaje się również, że w MDP chodzi o przechodzenie z jednego stanu do drugiego, czy to prawda?

Karl Morrison
źródło

Odpowiedzi:

28

Markowian Proces decyzyjny rzeczywiście ma do czynienia z przechodząc z jednego stanu do drugiego i jest wykorzystywany głównie do planowania i podejmowania decyzji .

Teoria

Po prostu szybko powtarzając teorię, MDP to:

MDP=S.,ZA,T.,R,γ

S.ZAT.P.r(s|s,za)Rγ

Aby więc z niego korzystać, musisz mieć predefiniowane:

  1. Stany : mogą one odnosić się na przykład do map siatki w robotyce lub na przykład drzwi otwarte i drzwi zamknięte .
  2. Akcje : ustalony zestaw akcji, takich jak na przykład jazda na północ, południe, wschód itp. Dla robota lub otwieranie i zamykanie drzwi.
  3. Prawdopodobieństwa przejścia : prawdopodobieństwo przejścia z jednego stanu do drugiego przy danym działaniu. Na przykład, jakie jest prawdopodobieństwo otwarcia drzwi, jeśli akcja jest otwarta . W idealnym świecie późniejszą wersją może być 1.0, ale jeśli jest to robot, może nie być w stanie prawidłowo obsługiwać klamki. Innym przykładem w przypadku poruszającego się robota byłaby akcja na północ , która w większości przypadków sprowadziłaby go do komórki siatki na północ od niego, ale w niektórych przypadkach mogła się zbytnio poruszyć i dotrzeć na przykład do następnej komórki.
  4. Nagrody : służą one do planowania. W przypadku przykładu z siatką możemy chcieć przejść do określonej komórki, a nagroda będzie wyższa, jeśli się do nas zbliżysz. W przypadku przykładu drzwi otwarte drzwi mogą dać wysoką nagrodę.

Po zdefiniowaniu MDP można nauczyć się polityki, wykonując iterację wartości lub iterację polityki, która oblicza oczekiwaną nagrodę dla każdego stanu. Następnie polityka daje najlepsze działanie dla danego stanu (biorąc pod uwagę model MDP).

Podsumowując, MDP jest przydatny, gdy chcesz zaplanować skuteczną sekwencję działań, w których twoje działania nie zawsze będą w 100% skuteczne.

Twoje pytania

Czy można go wykorzystać do przewidywania rzeczy?

Nazwałbym to planowaniem, a nie na przykład regresją .

Jeśli tak, jakie rodzaje rzeczy?

Zobacz przykłady .

Czy potrafi znaleźć wzorce wśród nieskończonej ilości danych?

|S.|

Co ten algorytm może dla mnie zrobić.

Zobacz przykłady .

Przykłady zastosowań MDP

I jest całkiem więcej modeli. Jeszcze bardziej interesującym modelem jest częściowo obserwowalny proces decyzyjny Markowa, w którym stany nie są całkowicie widoczne, a zamiast tego wykorzystuje się obserwacje, aby uzyskać wyobrażenie o obecnym stanie, ale nie wchodzi to w zakres tego pytania.

Dodatkowe informacje

Proces stochastyczny jest Markowski (lub ma właściwość Markowa), jeśli warunkowy rozkład prawdopodobieństwa przyszłych stanów zależy tylko od stanu bieżącego, a nie od poprzednich (tj. Nie od listy poprzednich stanów).

ponownie
źródło
2
Jest to prawdopodobnie najostrzejsza odpowiedź, jaką kiedykolwiek widziałem w Cross Validated.
Ukryty model Markowa
Czy jest szansa, że ​​możesz naprawić linki? Niektóre z nich wydają się uszkodzone lub nieaktualne.
ComputerScientist
Więc każdy proces, który ma states, actions, transition probabilitiesi rewardsokreślono, będzie określany jako Markowa?
Suhail Gupta