Próbuję zwiększyć gradient w zbiorze danych z częstością zdarzeń około 1% przy użyciu Enterprise Minera, ale nie daje żadnego wyniku. Moje pytanie brzmi: skoro jest to podejście oparte na drzewku decyzyjnym, czy w ogóle warto stosować zwiększanie gradientu przy tak niskim zdarzeniu?
boosting
unbalanced-classes
rare-events
gradient
użytkownik2542275
źródło
źródło
Odpowiedzi:
(Aby udzielić krótkiej odpowiedzi na to :)
W przypadku niezrównoważonego zestawu danych dobrze jest stosować algorytm maszyny zwiększającej gradient. W przypadku mocno niezrównoważonego zestawu danych o wiele bardziej istotne jest zakwestionowanie stosowności zastosowanej metryki. Powinniśmy potencjalnie unikać wskaźników, takich jak dokładność lub przywoływanie, które są oparte na arbitralnych progach, i zdecydować się na wskaźniki, takie jak ocena AUCPR lub Brier, które dają dokładniejszy obraz - zobacz doskonały wątek CV.SE na temat: Dlaczego dokładność nie jest najlepszy miernik do oceny modeli klasyfikacji? po więcej). Podobnie możemy potencjalnie zastosować podejście wrażliwe na koszty, przypisując różne koszty błędnej klasyfikacji (np. Patrz Masnadi-Shirazi i Vasconcelos (2011) Zwiększanie wrażliwości kosztowejw celu uzyskania ogólnego widoku i proponowanych zmian w znanych algorytmach zwiększających lub dla szczególnie interesującej aplikacji z prostszym podejściem sprawdź raport wyzwań Higgsa Bosona dla algorytmu XGBoost; Chen i He (2015) Higgs Boson Discovery with Boosted Trees podają więcej szczegółów).
Warto również zauważyć, że jeśli zastosujemy klasyfikator probabilistyczny (np. GBM), możemy / powinniśmy aktywnie przyglądać się kalibrowaniu zwracanych prawdopodobieństw (np. Patrz Zadrozny i Elkan (2002) Przekształcanie wyników klasyfikatora w dokładne szacunki prawdopodobieństwa wieloklasowego lub Kull i wsp. ( 2017) Kalibracja beta: dobrze uzasadniona i łatwa do wdrożenia poprawa kalibracji logistycznej dla klasyfikatorów binarnych ) w celu potencjalnego zwiększenia wydajności naszego ucznia. Zwłaszcza podczas pracy z niezrównoważonymi danymi odpowiednie wychwycenie zmian tendencji może być bardziej pouczające niż zwykłe oznaczanie danych. W tym zakresie niektórzy mogą argumentować, że podejścia wrażliwe na koszty nie są ostatecznie tak korzystne (np. Patrz Nikolaou i in. (2016)Algorytmy zwiększania wrażliwości na koszty: Czy naprawdę ich potrzebujemy? ). Jednak, aby powtórzyć pierwotny punkt, algorytmy przyspieszające nie są z natury złe dla niezrównoważonych danych, aw niektórych przypadkach mogą oferować bardzo konkurencyjną opcję.
źródło