W jaki sposób naukowcy wymyślają prawidłowe parametry i topologię ukrytego modelu Markowa?

10

Rozumiem, w jaki sposób ukryty model Markowa jest wykorzystywany w sekwencjach genomowych, takich jak znalezienie genu. Ale nie rozumiem, jak wymyślić konkretny model Markowa. Mam na myśli, ile stanów powinien mieć ten model? Ile możliwych przejść? Czy model powinien mieć pętlę?

Skąd mieliby wiedzieć, że ich model jest optymalny?

Czy wyobrażają sobie, powiedzmy 10 różnych modeli, porównanie tych 10 modeli i opublikowanie najlepszego?

Witaj świecie
źródło

Odpowiedzi:

6

Znam trzy główne podejścia:

  1. Apriorycznie. Możesz wiedzieć, że są cztery pary bazowe do wyboru, więc pozwól, aby HMM miał cztery stany. Lub możesz wiedzieć, że angielski ma 44 fonemy, a więc 44 stany dla ukrytej warstwy fonemów w modelu rozpoznawania głosu.

  2. Oszacowanie. Liczbę stanów często można oszacować wcześniej, być może przez proste grupowanie obserwowanych cech HMM. Jeśli macierz przejścia HMM jest trójkątna (co często ma miejsce w przypadku przewidywania awarii), liczba stanów określa kształt rozkładu całkowitego czasu od stanu początkowego do stanu końcowego.

  3. Optymalizacja. Jak sugerujesz, powstaje albo dopasowuje wiele modeli i wybierany jest najlepszy model. Można również dostosować metodologię, która uczy się HMM, aby umożliwić modelowi dodawanie lub odrzucanie stanów w razie potrzeby.

Matthew Graves
źródło
1

Kolejnym podejściem jest próba z modeli o nieskończonej liczbie stanów. Odpowiedź na pytanie „ile” wyłoniłaby się wtedy poprzez uśrednienie próbek samplerów.

http://mlg.eng.cam.ac.uk/zoubin/papers/ihmm.pdf

przypuszczenia
źródło