Zobacz także podobne pytanie na temat statystyki . SE .
W zwiększeniu algorytmy, takie jak adaboost i LPBoost wiadomo, że „słabe” uczestników być łączone tylko lepsze wyniki niż przypadek użyteczne z Wikipedia:
Stosowane przez niego klasyfikatory mogą być słabe (tj. Wykazywać znaczny poziom błędów), ale dopóki ich wydajność nie jest losowa (co powoduje, że współczynnik błędu wynosi 0,5 w przypadku klasyfikacji binarnej), poprawią one ostateczny model. Przydatne będą nawet klasyfikatory o wskaźniku błędów wyższym niż można by się spodziewać po losowym klasyfikatorze, ponieważ będą miały ujemne współczynniki w końcowej liniowej kombinacji klasyfikatorów, a zatem zachowają się jak ich odwrotności.
Jakie są zalety używania słabych w porównaniu z silnymi uczniami? (np. dlaczego nie wzmocnić za pomocą „silnych” metod uczenia się - czy jesteśmy bardziej podatni na nadmierne dopasowanie?)
Czy istnieje jakaś „optymalna” siła dla słabych uczniów? Czy ma to związek z liczbą uczniów w zespole?
Czy istnieje jakaś teoria potwierdzająca odpowiedzi na te pytania?
Odpowiedzi:
Zatem przyspieszanie jest algorytmem uczenia się, który może generować prognozy o wysokiej dokładności, wykorzystując jako podprogram inny algorytm, który z kolei może skutecznie generować hipotezy tylko nieco lepiej (poprzez odwrotny wielomian) niż losowe zgadywanie.
Jego główną zaletą jest szybkość.
Kiedy Schapire zaprezentował go w 1990 roku, był przełomem, ponieważ pokazał, że wielomianowy uczący się w czasie generujący hipotezy z błędami nieco mniejszymi niż 1/2 może zostać przekształcony w wielomianowy uczący się w czasie generujący hipotezy z arbitralnie małym błędem.
Teoria, która ma uzasadnić twoje pytanie, znajduje się w „Sile słabej nauki” ( pdf ), gdzie w zasadzie wykazał, że „mocne” i „słabe” uczenie się jest równoważne.
Być może odpowiedź na pierwotne pytanie brzmi: „nie ma sensu budować silnych uczniów, kiedy można budować słabszych taniej”.
Ze stosunkowo niedawnych prac napisano: „O równoważności słabej zdolności uczenia się i liniowej separacji: nowe relaksacje i wydajne algorytmy wspomagające” ( pdf ), których nie rozumiem, ale które wydają się powiązane i mogą zainteresować bardziej wykształconych ludzi :)
źródło
Omówię nadmierne dopasowanie, o którym jeszcze nie wspomniano, z bardziej intuicyjnym wyjaśnieniem. Twoje pierwsze pytanie brzmiało:
Według mnie główne powody to:
Wzmocnienie polega na połączeniu wielu różnych hipotez z przestrzeni hipotez, aby uzyskać lepszą hipotezę końcową. Wielka moc wzmacniania wynika zatem z różnorodności połączonej hipotezy.
Jeśli użyjemy silnego ucznia, ta różnorodność ma tendencję do zmniejszania się: po każdej iteracji nie będzie wielu błędów (ponieważ model jest złożony), co nie sprawi, że zwiększenie będzie nową hipotezą. Przy bardzo podobnej hipotezie zespół będzie bardzo podobny do jednego złożonego modelu, który z kolei ma tendencję do nadmiernego dopasowania!
źródło
Przy zwiększaniu używamy słabych uczniów, ponieważ są oni trenowani szybciej niż silni. Pomyśl o tym. Jeśli używam Multi-Layer Neural Network jako osoby uczącej się, muszę trenować wiele z nich. Z drugiej strony drzewo decyzyjne może być o wiele szybsze, wtedy mogę trenować wiele z nich.
Powiedzmy, że używam 100 uczniów. Trenuję NN w 100 sekund, a drzewo decyzyjne w 10 sekund. Moje pierwsze doładowanie za pomocą NN zajmie 100 * 100 sekund, a drugie doładowanie za pomocą drzewa decyzyjnego zajmie 100 * 10 sekund.
To powiedziawszy, widziałem artykuły, które wykorzystują silnych uczniów do poprawy. Ale w tych problemach, moim zdaniem, silni uczniowie byli szybcy.
Próbowałem trenować MLP na zestawie danych wykrywania włamań KDD99 (4+ miliony) przy użyciu Weka. Moja maszyna zajęła ponad 72 godziny. Ale ulepszenie (AdaBoostM1 z drzewem decyzyjnym - decyzja kikuta) zajęło tylko 3 godziny. W tym problemie jest oczywiste, że nie mogę używać wzmocnienia z silnym uczniem, czyli uczniem, który zajmuje zbyt dużo czasu.
źródło