W prostej klasyfikacji mamy dwie klasy: klasa-0 i klasa-1. W niektórych danych mam tylko wartości dla klasy-1, więc żadnej dla klasy-0. Teraz myślę o stworzeniu modelu do modelowania danych dla klasy 1. Tak więc, kiedy pojawiają się nowe dane, model ten jest stosowany do nowych danych i znajduje prawdopodobieństwo określające prawdopodobieństwo, że nowe dane pasują do tego modelu. Następnie porównując z progiem, mogę filtrować nieodpowiednie dane.
Moje pytania to:
- Czy to dobry sposób na pracę z takimi problemami?
- Czy w tym przypadku można zastosować klasyfikator RandomForest? Czy muszę dodawać sztuczne dane dla klasy 0, które, mam nadzieję, klasyfikator uważa za hałas?
- Jakiś inny pomysł może pomóc w rozwiązaniu tego problemu?
źródło
Pozwól, że dodam jeszcze kilka możliwości:
Ogólna idea polega na tym, że ustawienie progu odległości od klasy pozwala zdecydować, czy próbka należy do tej klasy, czy nie, i niezależnie od tego, czy istnieją inne klasy, czy nie.
SIMCA jest powszechna w literaturze chemometrycznej (choć rzadko tak naprawdę jest skonfigurowana w sposób jednoklasowy).
Richard G. Brereton: Chemometrics for Pattern Recognition (Wiley, 2009) ma cały rozdział na temat klasyfikacji jednej klasy.
źródło