Czy zwiększanie gradientu jest odpowiednie dla danych z niskimi wskaźnikami zdarzeń, takimi jak 1%?

14

Próbuję zwiększyć gradient w zbiorze danych z częstością zdarzeń około 1% przy użyciu Enterprise Minera, ale nie daje żadnego wyniku. Moje pytanie brzmi: skoro jest to podejście oparte na drzewku decyzyjnym, czy w ogóle warto stosować zwiększanie gradientu przy tak niskim zdarzeniu?

użytkownik2542275
źródło
3
Masz do czynienia z niezrównoważonym zestawem danych. Zwiększenie jest rzeczywiście dobrym sposobem na poradzenie sobie z tym. Aby uzyskać szczegółowe informacje, patrz stats.stackexchange.com/questions/157940/…
DaL
Ale dla mnie regresja logistyczna daje lepsze wyniki niż losowy wzrost lasu lub zwiększenie gradientu. Chciałem poprawić wydajność mojego modelu, próbując wzmocnionych drzew.
user2542275
Wzmocnienie opiera się na słabych klasyfikatorach. Teoretycznie zrobi to każdy słaby klasyfikator, który jest nieco lepszy niż losowy. W praktyce różne algorytmy są bardziej odpowiednie dla niektórych zestawów danych, więc ważny jest słaby klasyfikator. Czy możesz podać więcej na temat używanych algorytmów, ich wyników i zestawu danych?
DaL
Dobrze. Informacje o zestawie danych: wielkość próbki> 4 m, częstość zdarzeń = 1,2%. Liczba predyktorów, których istotna wartość p <0,05 wynosi 150. Regresja logistyczna z najbardziej znaczącymi zmiennymi dała wzrost o 3 przy 20% populacji. Sieć neuronowa wzrosła o około 2,8. Zwiększanie gradientu nie dawało żadnych wyników, dopóki nie użyłem próbkowania warstwowego z odwrotnymi wcześniejszymi wagami. Ale wydajność jest słaba.
user2542275
Ponieważ twój zestaw danych jest dość duży, powinieneś mieć wystarczającą liczbę próbek swojej klasy mniejszościowej, więc problem wynika z względnej nierównowagi. Masz sporo funkcji, ale nie za dużo, ale drzewo decyzyjne jest mniej odpowiednie dla takich zestawów danych. Sugeruję, abyś stworzył zrównoważony zestaw danych i zobaczył, jak dobrze działają na nim twoje algorytmy. Następnie będziesz mógł zastosować algorytm do oryginalnego zestawu danych w sposób opisany w pierwszym komentarzu.
DaL

Odpowiedzi:

7

(Aby udzielić krótkiej odpowiedzi na to :)

W przypadku niezrównoważonego zestawu danych dobrze jest stosować algorytm maszyny zwiększającej gradient. W przypadku mocno niezrównoważonego zestawu danych o wiele bardziej istotne jest zakwestionowanie stosowności zastosowanej metryki. Powinniśmy potencjalnie unikać wskaźników, takich jak dokładność lub przywoływanie, które są oparte na arbitralnych progach, i zdecydować się na wskaźniki, takie jak ocena AUCPR lub Brier, które dają dokładniejszy obraz - zobacz doskonały wątek CV.SE na temat: Dlaczego dokładność nie jest najlepszy miernik do oceny modeli klasyfikacji? po więcej). Podobnie możemy potencjalnie zastosować podejście wrażliwe na koszty, przypisując różne koszty błędnej klasyfikacji (np. Patrz Masnadi-Shirazi i Vasconcelos (2011) Zwiększanie wrażliwości kosztowejw celu uzyskania ogólnego widoku i proponowanych zmian w znanych algorytmach zwiększających lub dla szczególnie interesującej aplikacji z prostszym podejściem sprawdź raport wyzwań Higgsa Bosona dla algorytmu XGBoost; Chen i He (2015) Higgs Boson Discovery with Boosted Trees podają więcej szczegółów).

Warto również zauważyć, że jeśli zastosujemy klasyfikator probabilistyczny (np. GBM), możemy / powinniśmy aktywnie przyglądać się kalibrowaniu zwracanych prawdopodobieństw (np. Patrz Zadrozny i Elkan (2002) Przekształcanie wyników klasyfikatora w dokładne szacunki prawdopodobieństwa wieloklasowego lub Kull i wsp. ( 2017) Kalibracja beta: dobrze uzasadniona i łatwa do wdrożenia poprawa kalibracji logistycznej dla klasyfikatorów binarnych ) w celu potencjalnego zwiększenia wydajności naszego ucznia. Zwłaszcza podczas pracy z niezrównoważonymi danymi odpowiednie wychwycenie zmian tendencji może być bardziej pouczające niż zwykłe oznaczanie danych. W tym zakresie niektórzy mogą argumentować, że podejścia wrażliwe na koszty nie są ostatecznie tak korzystne (np. Patrz Nikolaou i in. (2016)Algorytmy zwiększania wrażliwości na koszty: Czy naprawdę ich potrzebujemy? ). Jednak, aby powtórzyć pierwotny punkt, algorytmy przyspieszające nie są z natury złe dla niezrównoważonych danych, aw niektórych przypadkach mogą oferować bardzo konkurencyjną opcję.

usεr11852
źródło
Uważam, że ocena Briera jest równoważna z miarą dokładności, więc będzie miała takie same ograniczenia jak dokładność przy ocenie modeli rzadkich zdarzeń.
RobertF
Wynik Briera nie jest równoważny z dokładnością. Należy pamiętać, że do obliczenia wyniku Briera używamy przewidywanego prawdopodobieństwa, podczas gdy do obliczania dokładności używamy etykiet opartych na twardym progowaniu przewidywanych prawdopodobieństw.
usεr11852
Dziękujemy za wyjaśnienie - zastosowanie szacowanego prawdopodobieństwa zamiast 0/1 dla przewidywanej klasy ma większy sens.
RobertF
Fajne. Cieszę się, że to rozwiązaliśmy! :)
usεr11852