Algorytm Twittera jest oparty na
Rosner, B., (maj 1983), „Punkty procentowe dla uogólnionej procedury wielokrotnego odstania ESD”, Technometrics, 25 (2), s. 165–172
Jestem pewien, że istnieje wiele technik i postępów od 1983 roku! Testowałem na moich wewnętrznych danych, a wykrywanie anomalii na Twitterze nie identyfikuje oczywistych wartości odstających. Użyłbym również innych podejść do testowania wartości odstających w szeregach czasowych. Najlepsze, na jakie natrafiłem, to procedura wykrywania wartości odstających Tsay, która jest zaimplementowana w oprogramowaniu SAS / SPSS / Autobox i SCA. Wszystkie są systemami komercyjnymi. Istnieje również
pakiet tsoutliers , który jest świetny, ale wymaga specyfikacji arima
modelu, aby działał wydajnie. Miałem problemy z domyślnymi ustawieniami auto.arima
dotyczącymi optymalizacji i wyboru modelu.
Artykuł Tsaya jest przełomową pracą w zakresie wykrywania wartości odstających w szeregach czasowych. Wiodący dziennik w badaniach prognostycznych International Journal of Forecasting wspomniał, że artykuł Tsaya jest jedną z najczęściej cytowanych prac i najbardziej wpływowych artykułów w artykule z linkami powyżej (patrz także poniżej). Rozpowszechnianie tej ważnej pracy i innych algorytmów wykrywania wartości odstających w oprogramowaniu prognozującym (szczególnie w oprogramowaniu open source) jest rzadkością.
Natknąłem się na kilka źródeł, które mogą ci pomóc, ale nie będą one tak łatwe / wygodne jak uruchamianie skryptu R na twoich danych: - Numenta ma otwartą platformę NuPIC , która jest używana do wielu rzeczy, w tym do wykrywania anomalii . - Netflix, Atlas Project , wkrótce opublikuje narzędzie do wykrywania wartości odstających / anomalii typu open source. - Prelert ma silnik wykrywania anomalii, który występuje jako aplikacja po stronie serwera. Ich wersja próbna oferuje ograniczone użycie, które może zaspokoić Twoje potrzeby.
Alternatywnie moja firma, Insignum , ma produkt w wersji beta, który pobiera dane szeregów czasowych i wykrywa anomalie w pełni zautomatyzowany sposób, a ty po prostu otrzymujesz powiadomienia e-mailem o wykryciu anomalii. Sięgnij po Twittera lub LinkedIn, a chętnie udzielę Ci więcej informacji.
źródło
Autobox (moja firma) zapewnia wykrywanie wartości odstających. Algorytm Twittera odbiera duże wartości odstające, ale pomija te mniejsze w porównaniu do Autobox .
Uruchomienie zajmuje dużo czasu, ale wyniki są lepsze do znalezienia mniejszych wartości odstających, a także zmian sezonowości, które są również wartościami odstającymi. Poniżej znajduje się model znajdujący 79 wartości odstających, wykorzystujący pierwsze 8560 obserwacji z 14 398 oryginalnych obserwacji. Wersja standardowa jest dostępna przy 10 000 obserwacji, ale można ją zmodyfikować, ale nie ma żadnego powodu, aby mieć tak dużo danych, jeśli chcesz zidentyfikować wartości odstające i reagować na nie.
Mieliśmy wpływ na pracę wykonaną przez Tsay nad wartościami odstającymi, przesunięciami poziomów i zmianami wariancji oraz pracę Chow nad zmianami parametrów, a także naszą własną pracę nad wykrywaniem zmian sezonowości,
Jeśli pobierzesz 30-dniową wersję próbną i załadujesz przykładowe dane na Twitterze i określisz częstotliwość na 60, a następnie zapiszesz 3 pliki wyzwalające w folderze instalacyjnym (noparcon.afs, novarcon.afs, notrend.afs) i utworzysz plik o nazwie stepupde. afs z 100.
źródło