Jakie jest Twoje zdanie na temat nadpróbkowania w klasyfikacji ogólnie, aw szczególności algorytmu SMOTE? Dlaczego nie stosowalibyśmy po prostu kosztu / kary w celu skorygowania o brak równowagi w danych klasy i wszelkie niezrównoważone koszty błędów? Dla moich celów dokładność prognoz do przyszłego zestawu jednostek eksperymentalnych jest ostateczną miarą.
W celach informacyjnych papier SMOTE: http://www.jair.org/papers/paper953.html
machine-learning
classification
oversampling
Dave Cummins
źródło
źródło
Odpowiedzi:
{1} przedstawia listę zalet i wad uczenia się wrażliwego na koszty w porównaniu do pobierania próbek:
Przeprowadzili także serię eksperymentów, co nie przyniosło jednoznacznego wyniku:
Następnie próbują zrozumieć, które kryteria w zestawach danych mogą wskazywać, która technika jest lepiej dopasowana.
Zauważają również, że SMOTE może przynieść pewne ulepszenia:
{1} Weiss, Gary M., Kate McCarthy i Bibi Zabar. „Uczenie się z uwzględnieniem kosztów a pobieranie próbek: Który sposób najlepiej radzi sobie z klasami niezrównoważonymi o nierównych kosztach błędów?” DMIN 7 (2007): 35–41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=pl&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf
źródło