Widziałem, że ludzie wkładali wiele wysiłku w SVM i jądra i wyglądają całkiem interesująco jako starter w uczeniu maszynowym. Ale jeśli spodziewamy się, że prawie zawsze moglibyśmy znaleźć lepsze rozwiązanie pod względem (głębokiej) sieci neuronowej, jakie jest znaczenie wypróbowania innych metod w tej erze?
Oto moje ograniczenie na ten temat.
- Myślimy tylko o Supervised-Learning; Regresja i klasyfikacja.
- Czytelność wyniku nie jest liczona; liczy się tylko dokładność problemu nadzorowanego uczenia się.
- Koszt obliczeniowy nie jest brany pod uwagę.
- Nie twierdzę, że wszelkie inne metody są bezużyteczne.
Odpowiedzi:
Oto jeden teoretyczny i dwa praktyczne powody, dla których ktoś może racjonalnie preferować podejście inne niż DNN.
No darmowy lunch Twierdzenie od Wolpert i MacReady mówi
Innymi słowy, żaden algorytm nie rządzi nimi wszystkimi; musisz przeprowadzić testy porównawcze.
Oczywistym odparciem jest to, że zwykle nie przejmujesz się tym wszystkimi możliwymi problemami, a głębokie uczenie się wydaje się działać dobrze na kilka klas problemów, na których ludzie się przejmują (np. Rozpoznawanie obiektów), więc jest to rozsądny wybór pierwszy / jedyny dla innych aplikacji w tych domenach.
Wiele z tych bardzo głębokich sieci wymaga ton danych, a także ton obliczeń, aby dopasować. Jeśli masz (powiedzmy) 500 przykładów, sieć dwudziestowarstwowa nigdy się nie nauczy, a dopasowanie znacznie prostszego modelu może być możliwe. Istnieje zaskakująca liczba problemów, w których nie jest możliwe zebranie ogromnej ilości danych. Z drugiej strony można spróbować nauczyć się rozwiązywać związany z tym problem (gdzie dostępnych jest więcej danych), użyć czegoś takiego jak uczenie się w trybie transferu, aby dostosować go do konkretnego zadania niskiej dostępności danych.
Głębokie sieci neuronowe mogą również mieć nietypowe tryby awarii. Istnieje kilka artykułów wskazujących, że zmiany ledwo zauważalne przez człowieka mogą spowodować, że sieć zmieni się z prawidłowej klasyfikacji obrazu na pewną błędną klasyfikację. (Zobacz tutaj i towarzyszący mu papier przez Szegedy et al.) Inne metody mogą być bardziej odporne na to: nie zatruwają ataki SVMs (np to by Biggio, Nelson i Laskov), ale ci się stało w pociągu, zamiast testu czas. Przeciwnie, istnieją znane (ale nie świetne) granice wydajności dla algorytmu najbliższego sąsiada. W niektórych sytuacjach możesz być bardziej zadowolony z niższej ogólnej wydajności i mniejszej szansy na katastrofę.
źródło
Gdzieś na tej liście odtwarzania wykładów Geoffa Hintona (z jego kursu Coursera o sieciach neuronowych) jest odcinek, w którym mówi o dwóch klasach problemów:
Pamiętam wyjaśnienie, że chociaż sieci neuronowe rozwijają się w tej drugiej przestrzeni, tradycyjne metody statystyczne są często lepiej dostosowane do tej pierwszej. Analiza cyfrowej fotografii wysokiej rozdzielczości rzeczywistych rzeczy na świecie, miejsca, w którym przodują głębokie sieci splotowe, wyraźnie stanowi to drugie.
Z drugiej strony, gdy hałas jest dominującą cechą, na przykład w badaniu kontroli przypadków medycznych obejmującym 50 przypadków i 50 kontroli, tradycyjne metody statystyczne mogą być lepiej dostosowane do problemu.
Jeśli ktoś znajdzie ten film, proszę o komentarz, a ja zaktualizuję.
źródło
Dwie liniowo udoskonalone skorelowane zmienne. Czy sieci głębokie z 1 milionem ukrytych warstw i 2 trylionami neutronów pokonają prostą regresję liniową?
EDYTOWANE
Z mojego doświadczenia wynika, że pobieranie próbek jest droższe niż obliczenia. To znaczy, możemy po prostu wynająć kilka instancji Amazon, przeprowadzić szkolenie dogłębne, a potem wrócić kilka dni później. Koszt w moim polu wynosi około 200 USD. Koszt jest minimalny. Moi koledzy zarabiają więcej niż jeden dzień.
Pobieranie próbek zazwyczaj wymaga wiedzy w dziedzinie i specjalistycznego sprzętu. Dogłębne uczenie się jest odpowiednie tylko w przypadku problemów z tanim i łatwo dostępnym zestawem danych, takich jak przetwarzanie języka naturalnego, przetwarzanie obrazu i wszystko, co można zeskrobać z Internetu.
źródło