Usiłuję skonfigurować infrastrukturę dużych zbiorów danych za pomocą Hadoop, Hive, Elastic Search (między innymi) i chciałbym uruchomić niektóre algorytmy dla niektórych zestawów danych. Chciałbym, aby same algorytmy były skalowalne, więc wyklucza to używanie takich narzędzi, jak Weka, R, a nawet RHadoop. Apache Kornak Biblioteka wydaje się być opcja dobra, a to cechy algorytmów dla zadań regresji i klastrów .
To, co próbuję znaleźć, to rozwiązanie problemu wykrywania nieprawidłowości lub wartości odstających.
Ponieważ Mahout zawiera Ukryte Modele Markowa i różne techniki grupowania (w tym K-średnie), zastanawiałem się, czy byłoby możliwe zbudowanie modelu do wykrywania wartości odstających w szeregach czasowych, przy użyciu któregokolwiek z nich. Byłbym wdzięczny, gdyby ktoś doświadczony w tej kwestii mógł mi doradzić
- jeśli to możliwe, a jeśli tak jest
- jak to zrobić, plus
- oszacowanie włożonego wysiłku i
- dokładność / problemy tego podejścia.
źródło
Odpowiedzi:
Chciałbym przyjrzeć algorytmu T-strawienia . Został połączony z Mahoutem i częścią innych bibliotek do przesyłania strumieniowego dużych zbiorów danych. Więcej informacji na temat tego algorytmu i ogólnie wykrywania anomalii dużych zbiorów danych można znaleźć w następnych zasobach:
źródło
Możesz odnieść się do mojej odpowiedzi związanej z metodą wykrywania h2o R lub Pythona w Stackexchange , ponieważ jest to również skalowalne.
źródło