Czy istnieje jakiś problem z nadzorowanym uczeniem się, który (głębokie) sieci neuronowe nie mogłyby oczywiście przewyższyć innych metod?

33

Widziałem, że ludzie wkładali wiele wysiłku w SVM i jądra i wyglądają całkiem interesująco jako starter w uczeniu maszynowym. Ale jeśli spodziewamy się, że prawie zawsze moglibyśmy znaleźć lepsze rozwiązanie pod względem (głębokiej) sieci neuronowej, jakie jest znaczenie wypróbowania innych metod w tej erze?

Oto moje ograniczenie na ten temat.

  1. Myślimy tylko o Supervised-Learning; Regresja i klasyfikacja.
  2. Czytelność wyniku nie jest liczona; liczy się tylko dokładność problemu nadzorowanego uczenia się.
  3. Koszt obliczeniowy nie jest brany pod uwagę.
  4. Nie twierdzę, że wszelkie inne metody są bezużyteczne.
Rudzik
źródło
3
Jakieś ograniczenia dotyczące ilości dostępnych danych szkoleniowych?
Jake Westfall
1
Ja tego nie zrobiłem, ale spodziewam się, że ciężko byłoby trenować sieć neuronową, aby np. Rozkładać pojedynczą wartość na macierzy o nieistotnej wielkości (powiedzmy, pozycja> 10).
Mehrdad
1
Tłumacz Google używa teraz sieci neuronowych , a teraz wywołuje bardziej ciekawe niepowodzenia dla brazylijskiej nazwy miasta, w której użycie słownika słowo w słowo byłoby znacznie lepsze
Henry
Nigdy nie słyszałem o głębokim uczeniu się w zakresie stosowania uzupełniania macierzy (chociaż stosowanie uzupełniania macierzy przed głębokim uczeniem się jest powszechną praktyką). Można argumentować, że może to być problem z kosztami obliczeniowymi, ale warto również zauważyć, że nie wiem, czy wszystkie komputery na świecie mogłyby wykonać uzupełnianie macierzy głębokiego uczenia z, powiedzmy, problemem Netflix.
Cliff AB
@CliffAB: (język w połowie policzka ...) prawdopodobnie warto zauważyć, że mogą nie być w stanie, ale nie jestem pewien, czy warto zauważyć, że nie wiesz, czy są w stanie;)
Mehrdad

Odpowiedzi:

31

Oto jeden teoretyczny i dwa praktyczne powody, dla których ktoś może racjonalnie preferować podejście inne niż DNN.

  1. No darmowy lunch Twierdzenie od Wolpert i MacReady mówi

    Nazwaliśmy powiązane wyniki twierdzeniami NFL, ponieważ pokazują one, że jeśli algorytm działa dobrze na pewnej klasie problemów, to koniecznie płaci za to obniżoną wydajnością na zbiorze wszystkich pozostałych problemów.

    Innymi słowy, żaden algorytm nie rządzi nimi wszystkimi; musisz przeprowadzić testy porównawcze.

    Oczywistym odparciem jest to, że zwykle nie przejmujesz się tym wszystkimi możliwymi problemami, a głębokie uczenie się wydaje się działać dobrze na kilka klas problemów, na których ludzie się przejmują (np. Rozpoznawanie obiektów), więc jest to rozsądny wybór pierwszy / jedyny dla innych aplikacji w tych domenach.

  2. Wiele z tych bardzo głębokich sieci wymaga ton danych, a także ton obliczeń, aby dopasować. Jeśli masz (powiedzmy) 500 przykładów, sieć dwudziestowarstwowa nigdy się nie nauczy, a dopasowanie znacznie prostszego modelu może być możliwe. Istnieje zaskakująca liczba problemów, w których nie jest możliwe zebranie ogromnej ilości danych. Z drugiej strony można spróbować nauczyć się rozwiązywać związany z tym problem (gdzie dostępnych jest więcej danych), użyć czegoś takiego jak uczenie się w trybie transferu, aby dostosować go do konkretnego zadania niskiej dostępności danych.

  3. Głębokie sieci neuronowe mogą również mieć nietypowe tryby awarii. Istnieje kilka artykułów wskazujących, że zmiany ledwo zauważalne przez człowieka mogą spowodować, że sieć zmieni się z prawidłowej klasyfikacji obrazu na pewną błędną klasyfikację. (Zobacz tutaj i towarzyszący mu papier przez Szegedy et al.) Inne metody mogą być bardziej odporne na to: nie zatruwają ataki SVMs (np to by Biggio, Nelson i Laskov), ale ci się stało w pociągu, zamiast testu czas. Przeciwnie, istnieją znane (ale nie świetne) granice wydajności dla algorytmu najbliższego sąsiada. W niektórych sytuacjach możesz być bardziej zadowolony z niższej ogólnej wydajności i mniejszej szansy na katastrofę.

Matt Krause
źródło
Zgodziłem się na wszystko, co mówisz. Problem polega jednak na „ignorowaniu problemów obliczeniowych”. Oznacza to, że OP zakłada, że ​​masz nieskończone próbki i nieskończone zasoby komputerowe.
SmallChess
17
Obliczenia nieskończone! = Próbki nieskończone. Na przykład mam dostęp do zadziwiająco dużego klastra do przetwarzania danych. Jednak eksperymenty laboratoryjne, które faktycznie przeprowadzamy, aby uzyskać niektóre z tych danych, są trudne, powolne i czasochłonne (rzędu godzin do dni dla pojedynczego punktu danych), a wszystkie obliczenia na świecie nie pomogą temu .
Matt Krause,
2
Maszyny SVM z dowolnym ekstraktorem funkcji są prawdopodobnie równie wrażliwe na przeciwne wejścia jak CNN - trudniej je znaleźć, ponieważ nie mamy łatwo dostępnych gradientów warstw ekstrakcji cech.
Dougal
1
Najnowszy i interesujący przykład problemu, jaki daje @MattKrause, oraz próba obejścia go za pomocą transferu jest zaprezentowana w Sim-to-Real Robot Learning from Pixels with Progressive Nets
HBeel
@Dougal, zastanawiam się również, czy ważne jest, aby wyodrębniono ekstraktory funkcji DNN, podczas gdy SVM są (zwykle) ręcznie robione i odpowiadają cechom, które ludzie zauważają. Częścią tego, co sprawia, że ​​przykład pandy jest tak podstępny, jest niedostrzegalna różnica między przykładem przeciwnika a zwykłym.
Matt Krause,
24

Gdzieś na tej liście odtwarzania wykładów Geoffa Hintona (z jego kursu Coursera o sieciach neuronowych) jest odcinek, w którym mówi o dwóch klasach problemów:

  1. Problemy z hałasem jest kluczową cechą,
  2. Problemy z sygnałem kluczową cechą jest .

Pamiętam wyjaśnienie, że chociaż sieci neuronowe rozwijają się w tej drugiej przestrzeni, tradycyjne metody statystyczne są często lepiej dostosowane do tej pierwszej. Analiza cyfrowej fotografii wysokiej rozdzielczości rzeczywistych rzeczy na świecie, miejsca, w którym przodują głębokie sieci splotowe, wyraźnie stanowi to drugie.

Z drugiej strony, gdy hałas jest dominującą cechą, na przykład w badaniu kontroli przypadków medycznych obejmującym 50 przypadków i 50 kontroli, tradycyjne metody statystyczne mogą być lepiej dostosowane do problemu.

Jeśli ktoś znajdzie ten film, proszę o komentarz, a ja zaktualizuję.

Ben Ogorek
źródło
Doskonała odpowiedź. Właśnie dlatego przechodzimy do głębokiego uczenia się w zakresie rzeczy, które możemy już robić (takich jak rozpoznawanie obrazów i pisanie tekstu), ale możemy sięgnąć do innych modeli rzeczy, które mogą być intuicyjnie trudne.
Mustafa S Eisa
Osobiście biorę tę odpowiedź w moim największym interesie. Dziękuję bardzo za odpowiedź.
Robin
13

Dwie liniowo udoskonalone skorelowane zmienne. Czy sieci głębokie z 1 milionem ukrytych warstw i 2 trylionami neutronów pokonają prostą regresję liniową?

EDYTOWANE

Z mojego doświadczenia wynika, że ​​pobieranie próbek jest droższe niż obliczenia. To znaczy, możemy po prostu wynająć kilka instancji Amazon, przeprowadzić szkolenie dogłębne, a potem wrócić kilka dni później. Koszt w moim polu wynosi około 200 USD. Koszt jest minimalny. Moi koledzy zarabiają więcej niż jeden dzień.

Pobieranie próbek zazwyczaj wymaga wiedzy w dziedzinie i specjalistycznego sprzętu. Dogłębne uczenie się jest odpowiednie tylko w przypadku problemów z tanim i łatwo dostępnym zestawem danych, takich jak przetwarzanie języka naturalnego, przetwarzanie obrazu i wszystko, co można zeskrobać z Internetu.

SmallChess
źródło
1
Oczywiście, każda metoda MLE wykona głębokie uczenie się pod warunkiem, że model generujący będzie spełniał założenia MLE . Jednak nigdy nie dzieje się tak w przypadku rzeczywistych danych, a przynajmniej w przypadku jakichkolwiek interesujących problemów (tj. Nieprzewidzianych wyników rzutu monetą). Myślę więc, że OP prosi o przykłady dotyczące prawdziwych pytań z prawdziwymi danymi.
Cliff AB
To bardzo miła odpowiedź. Zaproponowałeś bardzo intuicyjny i realistyczny punkt widzenia. Dziękuję bardzo.
Robin