Chciałbym skonfigurować algorytm do wykrywania anomalii w szeregach czasowych i planuję użyć do tego klastrowania.
Dlaczego powinienem używać macierzy odległości do grupowania, a nie surowych danych szeregów czasowych ?,
Do wykrycia anomalii użyję klastrowania opartego na gęstości, algorytmu jako DBscan, więc czy to zadziała w tym przypadku? Czy jest dostępna wersja online do przesyłania strumieniowego danych?
Chciałbym wykryć anomalię, zanim się ona stanie, więc czy dobrym pomysłem byłoby zastosowanie algorytmu wykrywania trendów (ARIMA)?
time-series
clustering
trend
napsterockoeur
źródło
źródło
Odpowiedzi:
Jeśli chodzi o twoje pierwsze pytanie, zalecam przeczytanie tego słynnego artykułu (Klastrowanie podsekwencji szeregów czasowych jest bez znaczenia) przed zrobieniem grupowania na szeregach czasowych. Jest jasno napisany i ilustruje wiele pułapek, których chcesz uniknąć.
źródło
Wykrywanie anomalii lub „wykrywanie interwencji” było wspierane przez GCTiao i innych. Nauka polega na poszukiwaniu powtarzających się wzorców. Wykrywanie anomalii oznacza identyfikowanie wartości, które nie są zgodne z powtarzającymi się wzorami. Uczymy się od Newtona: „Każdy, kto zna drogi Natury, z łatwością zauważy jej odchylenia, a z drugiej strony, ktokolwiek zna jej odchylenia, dokładniej opisuje jej drogi”. Uczy się reguł, obserwując, kiedy zawodzą obecne reguły. Rozważ szeregi czasowe 1,9,1,9,1,9,5,9. Aby zidentyfikować anomalię, trzeba mieć wzorzec. „5” jest tak samo anomalią, jak „14”. Aby zidentyfikować wzór, wystarczy użyć ARIMA, w tym przypadku „anomalia” staje się oczywista. Wypróbuj inne oprogramowanie / metody i sprawdź, który z nich sugeruje model ARIMA rzędu 1,0, 0 o współczynniku -1,0. Skorzystaj z procedur wyszukiwania / wyszukiwania, aby znaleźć „automatyczne arima” lub „automatyczne wykrywanie interwencji”. Możesz być rozczarowany darmowymi rzeczami, ponieważ może to być warte tego, za co płacisz. Samo napisanie go może być interesujące, jeśli masz ciężkie doświadczenie w seriach czasowych i kilka lat do stracenia. Istnieją poważne ograniczenia metod opartych na odległościhttp://www3.ntu.edu.sg/SCE/pakdd2006/tutorial/chawla_tutorial_pakddslides.pdf
źródło