Z sformułowania pytania zakładam, że nie ma żadnych „przykładów” anomalii (tj. Etykiet). Przy takim założeniu wykonalnym podejściem byłoby użycie autokoderów : sieci neuronowych, które odbierają dane jako dane wejściowe i są szkolone, aby wyprowadzać te same dane. Chodzi o to, że szkolenie pozwoliło sieci nauczyć się reprezentacji rozkładów danych wejściowych w postaci ukrytych zmiennych.
Istnieje rodzaj autoencodera zwanego auto-dekoderem odszumiania , który jest szkolony z uszkodzonymi wersjami oryginalnych danych jako danych wejściowych i z nieuszkodzonymi oryginalnymi danymi jako danymi wyjściowymi. Zapewnia to sieć, która może usuwać szumy (tj. Uszkodzenia danych) z wejść.
Możesz wyszkolić auto-dekoder denoisingu z codziennymi danymi. Następnie użyj go do nowych codziennych danych; w ten sposób masz oryginalne dane dzienne i nieuszkodzoną wersję tych samych danych. Następnie możesz porównać oba, aby wykryć znaczące różnice.
Kluczem jest tutaj, którą definicję znaczącej różnicy wybierzesz. Możesz obliczyć odległość euklidesową i założyć, że jeśli przekroczy ona dowolny arbitralny próg, masz anomalię. Innym ważnym czynnikiem jest rodzaj zepsucia się przedstawić; powinny być jak najbardziej zbliżone do rozsądnych nieprawidłowości.
Inną opcją byłoby użycie Generatywnych sieci przeciwników . Produktem ubocznym szkolenia jest sieć dyskryminująca, która odróżnia normalne dane dzienne od nieprawidłowych danych.