Jestem uczniem szkoły średniej i pracuję nad projektem programowania komputerowego, ale nie mam dużego doświadczenia w statystyce i modelowaniu danych poza kursem statystyki w szkole średniej, więc jestem trochę zdezorientowany.
Zasadniczo mam dość dużą listę (zakładając, że jest wystarczająco duża, aby spełnić założenia dla wszelkich testów lub miar statystycznych) czasów, w których ktoś zdecydował się wydrukować dokument. Na podstawie tej listy chciałbym zbudować pewnego rodzaju model statystyczny, który będzie przewidywał najbardziej prawdopodobny czas dla następnego zadania drukowania, biorąc pod uwagę wszystkie poprzednie czasy zdarzeń.
Już odczytać ten , ale odpowiedzi nie dokładnie pomóc z tym, co mam na myśli mojego projektu. Przeprowadziłem dodatkowe badania i odkryłem, że Ukryty Model Markowa prawdopodobnie pozwoli mi to zrobić dokładnie, ale nie mogę znaleźć linku do tego, jak wygenerować Ukryty Model Markowa przy użyciu tylko listy razy. Odkryłem również, że użycie filtru Kalmana na liście może być przydatne, ale w zasadzie chciałbym uzyskać więcej informacji na ten temat od kogoś, kto faktycznie z nich korzysta i zna ich ograniczenia i wymagania, zanim po prostu spróbuję czegoś i mam nadzieję, że to zadziała.
Wielkie dzięki!
Odpowiedzi:
Ukryte modele Markowa miałyby zastosowanie, gdyby dane były przypadkowymi emisjami z niektórych podstawowych nieobserwowanych modeli Markowa; Nie wykluczałbym tego, ale nie wydaje się to bardzo naturalnym modelem.
Pomyślałbym o procesach punktowych , które dobrze pasują do twoich danych. Dużo pracy poświęcono przewidywaniu trzęsień ziemi (choć niewiele o tym wiem), a nawet przestępczości .
Jeśli drukuje się wiele różnych osób, a widzisz tylko czasy, ale nie poszczególne tożsamości, proces Poissona może działać dobrze (superpozycja wielu niezależnych procesów punktowych to w przybliżeniu Poissona), chociaż musiałby być niejednorodny ( szansa na punkt różni się w czasie): ludzie rzadziej drukują o 3 nad ranem niż o 15.
W przypadku niejednorodnego modelu procesu Poissona kluczem byłoby uzyskanie dobrego oszacowania szansy na wydruk w określonym czasie w danym dniu.
Jeśli te czasy drukowania dotyczą uczniów w klasie, może to być dość trudne, ponieważ prawdopodobnie nie będą one niezależne, a zatem proces Poissona nie zadziała dobrze.
Oto link do artykułu na temat wniosku o przestępstwo.
źródło
Na podstawie przewidywania prawdopodobnego czasu przy użyciu wielowymiarowej statystyki skanowania bayesowskiego (MBSS) może być pomocne. Zaletą tego MBSS jest poprawa terminowości i dokładności wykrywania zdarzeń.
źródło