Dlaczego podczas uczenia się uczniowie są „słabi”?

28

Zobacz także podobne pytanie na temat statystyki . SE .

W zwiększeniu algorytmy, takie jak adaboost i LPBoost wiadomo, że „słabe” uczestników być łączone tylko lepsze wyniki niż przypadek użyteczne z Wikipedia:

Stosowane przez niego klasyfikatory mogą być słabe (tj. Wykazywać znaczny poziom błędów), ale dopóki ich wydajność nie jest losowa (co powoduje, że współczynnik błędu wynosi 0,5 w przypadku klasyfikacji binarnej), poprawią one ostateczny model. Przydatne będą nawet klasyfikatory o wskaźniku błędów wyższym niż można by się spodziewać po losowym klasyfikatorze, ponieważ będą miały ujemne współczynniki w końcowej liniowej kombinacji klasyfikatorów, a zatem zachowają się jak ich odwrotności.

  • Jakie są zalety używania słabych w porównaniu z silnymi uczniami? (np. dlaczego nie wzmocnić za pomocą „silnych” metod uczenia się - czy jesteśmy bardziej podatni na nadmierne dopasowanie?)

  • Czy istnieje jakaś „optymalna” siła dla słabych uczniów? Czy ma to związek z liczbą uczniów w zespole?

Czy istnieje jakaś teoria potwierdzająca odpowiedzi na te pytania?

tdc
źródło
Słabe osoby uczące się unikają również nadmiernego dopasowania do danych treningowych
Aman Deep Gautam,

Odpowiedzi:

15

Zatem przyspieszanie jest algorytmem uczenia się, który może generować prognozy o wysokiej dokładności, wykorzystując jako podprogram inny algorytm, który z kolei może skutecznie generować hipotezy tylko nieco lepiej (poprzez odwrotny wielomian) niż losowe zgadywanie.

Jego główną zaletą jest szybkość.

Kiedy Schapire zaprezentował go w 1990 roku, był przełomem, ponieważ pokazał, że wielomianowy uczący się w czasie generujący hipotezy z błędami nieco mniejszymi niż 1/2 może zostać przekształcony w wielomianowy uczący się w czasie generujący hipotezy z arbitralnie małym błędem.

Teoria, która ma uzasadnić twoje pytanie, znajduje się w „Sile słabej nauki” ( pdf ), gdzie w zasadzie wykazał, że „mocne” i „słabe” uczenie się jest równoważne.

Być może odpowiedź na pierwotne pytanie brzmi: „nie ma sensu budować silnych uczniów, kiedy można budować słabszych taniej”.


Ze stosunkowo niedawnych prac napisano: „O równoważności słabej zdolności uczenia się i liniowej separacji: nowe relaksacje i wydajne algorytmy wspomagające” ( pdf ), których nie rozumiem, ale które wydają się powiązane i mogą zainteresować bardziej wykształconych ludzi :)

andreister
źródło
1
+1 fajne referencje. Być może więc odpowiedź brzmi: „nie ma sensu budować silnych uczniów, kiedy można budować słabszych taniej”?
tdc
tak, brzmi jak to - zaktualizowałem odpowiedź! Ponadto, jeśli dobrze rozumiem, nie zależy to od siły twoich słabych uczniów - muszą one być „nieco” lepsze niż losowe.
andreister
1
Myślę, że to, co naprawdę macie na myśli, to: nie ma sensu budować kosztownych silnych uczniów, gdy podobne lub nawet lepsze umiejętności można osiągnąć po prostu poprzez połączenie wielu tanich słabych uczniów . Rzeczywiście, jeśli umiejętność osiągnięta przez silnych uczniów była znacznie wyższa niż umiejętność osiągnięta przez słabych uczniów, to cóż, całkowicie rozumiem sens tworzenia silnych uczniów ...
Antoine
9

Omówię nadmierne dopasowanie, o którym jeszcze nie wspomniano, z bardziej intuicyjnym wyjaśnieniem. Twoje pierwsze pytanie brzmiało:

Jakie są zalety używania słabych w porównaniu z silnymi uczniami? (np. dlaczego nie wzmocnić za pomocą „silnych” metod uczenia się - czy jesteśmy bardziej podatni na nadmierne dopasowanie?)

Według mnie główne powody to:

  • Szybkość , co całkiem dobrze ujęto w innych odpowiedziach;
  • Poprawa dokładności : jeśli masz już silnego ucznia, korzyści płynące ze wzmocnienia są mniej istotne;
  • Jak się domyślacie , unikajcie nadmiernego dopasowania . Pomyśl o tym w ten sposób:

Wzmocnienie polega na połączeniu wielu różnych hipotez z przestrzeni hipotez, aby uzyskać lepszą hipotezę końcową. Wielka moc wzmacniania wynika zatem z różnorodności połączonej hipotezy.

Jeśli użyjemy silnego ucznia, ta różnorodność ma tendencję do zmniejszania się: po każdej iteracji nie będzie wielu błędów (ponieważ model jest złożony), co nie sprawi, że zwiększenie będzie nową hipotezą. Przy bardzo podobnej hipotezie zespół będzie bardzo podobny do jednego złożonego modelu, który z kolei ma tendencję do nadmiernego dopasowania!

Arthur Colombini Gusmão
źródło
4
To jest prawdziwa odpowiedź.
Matthew Drury,
6

Przy zwiększaniu używamy słabych uczniów, ponieważ są oni trenowani szybciej niż silni. Pomyśl o tym. Jeśli używam Multi-Layer Neural Network jako osoby uczącej się, muszę trenować wiele z nich. Z drugiej strony drzewo decyzyjne może być o wiele szybsze, wtedy mogę trenować wiele z nich.

Powiedzmy, że używam 100 uczniów. Trenuję NN w 100 sekund, a drzewo decyzyjne w 10 sekund. Moje pierwsze doładowanie za pomocą NN zajmie 100 * 100 sekund, a drugie doładowanie za pomocą drzewa decyzyjnego zajmie 100 * 10 sekund.

To powiedziawszy, widziałem artykuły, które wykorzystują silnych uczniów do poprawy. Ale w tych problemach, moim zdaniem, silni uczniowie byli szybcy.

Próbowałem trenować MLP na zestawie danych wykrywania włamań KDD99 (4+ miliony) przy użyciu Weka. Moja maszyna zajęła ponad 72 godziny. Ale ulepszenie (AdaBoostM1 z drzewem decyzyjnym - decyzja kikuta) zajęło tylko 3 godziny. W tym problemie jest oczywiste, że nie mogę używać wzmocnienia z silnym uczniem, czyli uczniem, który zajmuje zbyt dużo czasu.

Atilla Ozgur
źródło
1
„Widziałem artykuły, które wykorzystują silnych uczniów do poprawy” - jakieś odniesienia?
tdc