Zacząłem pracować nad samouczkami w zakresie eksploracji danych statystycznych autorstwa Andrew Moore'a (wysoce zalecane dla każdego, kto pierwszy wejdzie w tę dziedzinę). Zacząłem od przeczytania tego niezwykle interesującego pliku PDF zatytułowanego „Wprowadzenie do algorytmów wykrywania anomalii opartych na szeregach czasowych”, w którym Moore śledzi wiele technik stosowanych w tworzeniu algorytmu do wykrywania wybuchów chorób. W połowie slajdów, na stronie 27, wymienia szereg innych „najnowocześniejszych metod” wykorzystywanych do wykrywania epidemii. Pierwszy wymieniony to falki . Wikipeida opisuje falkę jako
oscylacja falowa o amplitudzie, która zaczyna się od zera, zwiększa się, a następnie maleje z powrotem do zera. Zazwyczaj można to zwizualizować jako „krótką oscylację”
ale nie opisuje ich zastosowania w statystykach, a moje wyszukiwania w Google przynoszą wysoce naukowe prace, które zakładają, że wiedza na temat tego, w jaki sposób falki odnoszą się do statystyki lub pełnych książek na ten temat.
Chciałbym podstawową wiedzę na temat zastosowania falek do wykrywania anomalii szeregów czasowych, podobnie jak Moore ilustruje inne techniki w swoim samouczku. Czy ktoś może wyjaśnić, w jaki sposób działają metody wykrywania za pomocą falek lub link do zrozumiałego artykułu na ten temat?
źródło
Najczęściej używane i implementowane dyskretne funkcje bazowe falek (w odróżnieniu od CWT opisanego w odpowiedzi Robina) mają dwie ładne właściwości, które czynią je przydatnymi do wykrywania anomalii:
W praktyce oznacza to, że dyskretny rozkład falkowy analizuje lokalne zmiany sygnału w różnych skalach i pasmach częstotliwości. Jeśli masz (na przykład) szum o dużej wielkości i wysokiej częstotliwości nałożony na funkcję, która wyświetla przesunięcie o niskiej wielkości w dłuższym okresie, transformacja falkowa skutecznie oddzieli te dwie skale i pozwoli ci zobaczyć przesunięcie linii bazowej tak wiele innych techniki tęsknią; zmiana tego poziomu odniesienia może sugerować wybuch choroby lub inną zmianę zainteresowania. Na wiele sposobów możesz traktować sam rozkład jako płynniejszy (i wykonano sporo pracy nad wydajnym skurczem współczynników falkowych w szacunkach nieparametrycznych, patrz np. Prawie wszystko na falkach Donoho). W przeciwieństwie do metod opartych wyłącznie na częstotliwościach kompaktowa obsługa oznacza, że są w stanie obsługiwać dane niestacjonarne. W przeciwieństwie do metod opartych wyłącznie na czasie, umożliwiają one filtrowanie oparte na częstotliwości.
W praktyce, w celu wykrycia anomalii lub zmiany punktów, zastosowałbyś do danych dyskretną transformatę falkową (prawdopodobnie wariant znany jako „DWT maksymalnego nakładania się” lub „niezmienny DWT przesunięcia”, w zależności od tego, kto czytasz) i przeglądaj w zestawach współczynników o niższej częstotliwości, aby sprawdzić, czy masz znaczące przesunięcia w linii podstawowej. To pokaże, kiedy pod wpływem codziennego hałasu dochodzi do długoterminowej zmiany. Percival i Walden (patrz odnośniki poniżej) opracowali kilka testów dla statystycznie znaczących współczynników, których można użyć, aby sprawdzić, czy takie przesunięcie jest znaczące, czy nie.
Doskonałą pracą referencyjną dla dyskretnych falek jest Percival i Walden, „Metody falkowe do analizy szeregów czasowych”. Dobrym wstępem jest „Wprowadzenie do falek i transformat falkowych, podkład” Burrusa, Gopinatha i Guo. Jeśli pochodzisz z inżynierii, to „Elementy falek dla inżynierów i naukowców” to dobre wprowadzenie z punktu widzenia przetwarzania sygnałów.
(Edytowane w celu uwzględnienia komentarzy Robin)
źródło