Które klasyfikatory uczenia maszynowego są najbardziej równoległe?

10

Które klasyfikatory uczenia maszynowego są najbardziej równoległe? Jeśli miałbyś trudny problem z klasyfikacją, ograniczony czas, ale przyzwoitą sieć LAN komputerów do pracy, z jakimi klasyfikatorami byś spróbował?

Z drugiej strony wygląda mi to na kilka standardowych klasyfikatorów, które znam w następujący sposób, ale mogę się całkowicie mylić:

Losowe lasy - bardzo możliwe do zrównoleglenia, o ile każda maszyna może pomieścić wszystkie dane (tzn. Nie może samodzielnie podzielić danych szkoleniowych, ale z drugiej strony może zrównoleglać).

Zwiększanie -?

Obsługa maszyny wektorowej - niezbyt równoległa.

Drzewa decyzyjne - można częściowo podzielić, ale niezbyt skutecznie.

John Robertson
źródło
Ten post wymaga aktualizacji. Obecnie DNN to algorytmy, które najbardziej korzystają z obliczeń równoległych. i doładowania są trudne do zrównoleglenia.
TNM

Odpowiedzi:

11

Podjęto starania, aby zrównoważyć większość znanych klasyfikatorów, w tym ulepszenie [ artykuł ], SVM [ artykuł ], a nawet drzewa decyzyjne [ artykuł ]. Oczywiście, przyznając się do paralelizmu, czasami tracisz inne aspekty, takie jak implementowalność algorytmu, złożoność próbki lub inni zwykli podejrzani.

Od końca teorii pytanie jest trudniejsze, ponieważ kiedy mówisz o nauce, musisz pomyśleć o funkcji celu. Na przykład, nie wiemy nawet, że drzewa decyzyjne mogą być rozpoznawane przez PAC, więc jeśli celem (podobnie jak metodą) jest drzewo decyzyjne, nie możemy nawet się go nauczyć (jeszcze) bez wprowadzenia dodatkowych aspektów do problem. Zwiększenie pozwala obejść ten problem, zakładając słaby warunek uczenia się, SVM margines itp. Myślę, że te założenia przenoszą się na przypadek równoległy, aby zapewnić ci naukę PAC.

Ale jak zawsze istnieje duża luka między granicami (a tym samym obawami) teorii i praktyki. Na przykład w praktyce ma znaczenie to, czy równoległość dotyczy rdzeni czy klastrów. Jednym z algorytmów opracowanych specjalnie do praktycznego zastosowania w ustawieniach dużych danych jest VW i zaczyna on wspierać równoległość. Być może zainteresują Cię artykuły z warsztatów NIPS 2010 na temat praktycznego uczenia się równoległego.

Lew Reyzin
źródło