podejścia szkoleniowe dla wysoce niezrównoważonego zestawu danych

16

Mam wysoce niezrównoważony zestaw danych testowych. Zestaw dodatni składa się ze 100 przypadków, a zestaw ujemny składa się z 1500 przypadków. Po stronie treningowej mam większą pulę kandydatów: pozytywny zestaw treningowy ma 1200 przypadków, a negatywny zestaw treningowy ma 12000 przypadków. W przypadku tego rodzaju scenariusza mam kilka możliwości:

1) Korzystanie z ważonej SVM dla całego zestawu treningowego (P: 1200, N: 12000)

2) Używając SVM na podstawie próbnego zestawu treningowego (P: 1200, N: 1200), 1200 przypadków negatywnych jest próbkowanych z 12000 przypadków.

Czy istnieją jakieś teoretyczne wskazówki dotyczące decydowania, które podejście jest lepsze? Ponieważ zestaw danych testowych jest wysoce niezrównoważony, czy powinienem również korzystać z zestawu danych niezrównoważonych?

pytanie bitowe
źródło
1
sprawdź następujące pytania: Nadzorowane uczenie się z „rzadkimi” zdarzeniami i Najlepszy sposób obsługi niezbilansowanego zestawu danych wieloklasowych za pomocą SVM . Czy to pomaga ? Szczerze mówiąc, twoje pytania brzmią raczej podobnie;).
steffen

Odpowiedzi:

0

Rozszerzona regresja logistyczna parowana, uczenie się oparte na ROC, przyspieszanie i tworzenie worków (agregacja Bootstrap), klastrowy zespół klastrowy (LCE), sieć Bayesian, najbliższe klasyfikatory centroidów, techniki bayesowskie, zbiór ważony szorstki, k-NN

oraz wiele metod próbkowania w celu radzenia sobie z nierównowagą.

Vladimir Chupakhin
źródło