Skalowalne wykrywanie wartości odstających / anomalii

10

Usiłuję skonfigurować infrastrukturę dużych zbiorów danych za pomocą Hadoop, Hive, Elastic Search (między innymi) i chciałbym uruchomić niektóre algorytmy dla niektórych zestawów danych. Chciałbym, aby same algorytmy były skalowalne, więc wyklucza to używanie takich narzędzi, jak Weka, R, a nawet RHadoop. Apache Kornak Biblioteka wydaje się być opcja dobra, a to cechy algorytmów dla zadań regresji i klastrów .

To, co próbuję znaleźć, to rozwiązanie problemu wykrywania nieprawidłowości lub wartości odstających.

Ponieważ Mahout zawiera Ukryte Modele Markowa i różne techniki grupowania (w tym K-średnie), zastanawiałem się, czy byłoby możliwe zbudowanie modelu do wykrywania wartości odstających w szeregach czasowych, przy użyciu któregokolwiek z nich. Byłbym wdzięczny, gdyby ktoś doświadczony w tej kwestii mógł mi doradzić

  1. jeśli to możliwe, a jeśli tak jest
  2. jak to zrobić, plus
  3. oszacowanie włożonego wysiłku i
  4. dokładność / problemy tego podejścia.
dwubajtowy
źródło
1
Jest to zbyt niejasne, aby można było na nie odpowiedzieć. Szeregi czasowe są zbyt różne, aby po prostu rzucić na nie k-średnich i wydobyć coś użytecznego. Zależy to w dużej mierze od twoich danych.
Ma ZAKOŃCZENIE - Anony-Mousse
1
Aby wykryć wartości odstające, spójrz na algorytmy w ELKI. To wydaje się być najbardziej kompletnym zbiorem wykrywania wartości odstających.
Ma ZAKOŃCZENIE - Anony-Mousse,
Nowsze wersje Elasticsearch mają wbudowane wykrywanie anomalii szeregów czasowych (myślę, że musisz kupić X-Pack). Nie jestem pewien, jakich algorytmów używają, ale warto zbadać gotowe rozwiązanie.
tom

Odpowiedzi:

7

Chciałbym przyjrzeć algorytmu T-strawienia . Został połączony z Mahoutem i częścią innych bibliotek do przesyłania strumieniowego dużych zbiorów danych. Więcej informacji na temat tego algorytmu i ogólnie wykrywania anomalii dużych zbiorów danych można znaleźć w następnych zasobach:

  1. Praktyczna książka wykrywania anomalii uczenia maszynowego.
  2. Seminarium internetowe: Wykrywanie anomalii, gdy nie wiesz, co musisz znaleźć
  3. Wykrywanie anomalii w wyszukiwaniu elastycznym .
  4. Pokonanie miliardowego oszustwa za pomocą wykrywania anomalii: podejście do przetwarzania sygnałów przy użyciu danych Argyle na platformie danych Hortonworks z Accumulo
prudenko
źródło
Jak t-digest porównuje się do algorytmu p-kwadrat?
David Marx
Dzięki za odpowiedź: jest to prosty model do obliczania ekstremalnych kwantyli i myślę, że będzie pasował do moich potrzeb. Jednak w przypadku bardziej złożonych szeregów czasowych, które nie mają prawie stacjonarnego rozkładu, to podejście może się nie powieść i wtedy myślę, że potrzebowalibyśmy czegoś adaptacyjnego, takiego jak łańcuch Markowa.
doublebyte
0

Możesz odnieść się do mojej odpowiedzi związanej z metodą wykrywania h2o R lub Pythona w Stackexchange , ponieważ jest to również skalowalne.

0xF
źródło