Mam wysoce niezrównoważony zestaw danych testowych. Zestaw dodatni składa się ze 100 przypadków, a zestaw ujemny składa się z 1500 przypadków. Po stronie treningowej mam większą pulę kandydatów: pozytywny zestaw treningowy ma 1200 przypadków, a negatywny zestaw treningowy ma 12000 przypadków. W przypadku tego rodzaju scenariusza mam kilka możliwości:
1) Korzystanie z ważonej SVM dla całego zestawu treningowego (P: 1200, N: 12000)
2) Używając SVM na podstawie próbnego zestawu treningowego (P: 1200, N: 1200), 1200 przypadków negatywnych jest próbkowanych z 12000 przypadków.
Czy istnieją jakieś teoretyczne wskazówki dotyczące decydowania, które podejście jest lepsze? Ponieważ zestaw danych testowych jest wysoce niezrównoważony, czy powinienem również korzystać z zestawu danych niezrównoważonych?
źródło
Odpowiedzi:
Z ostatniego postu na reddit interesująca będzie odpowiedź datapraxis .
edycja: wspomniany artykuł to Haibo He, Edwardo A. Garcia, „Learning from Imbalanced Data”, IEEE Transactions on Knowledge and Data Engineering, str. 1263-1284, wrzesień 2009 (PDF)
źródło
Rozszerzona regresja logistyczna parowana, uczenie się oparte na ROC, przyspieszanie i tworzenie worków (agregacja Bootstrap), klastrowy zespół klastrowy (LCE), sieć Bayesian, najbliższe klasyfikatory centroidów, techniki bayesowskie, zbiór ważony szorstki, k-NN
oraz wiele metod próbkowania w celu radzenia sobie z nierównowagą.
źródło