Dlaczego nie porzucić sieci neuronowych i głębokiego uczenia się? [Zamknięte]

25

Podstawowy problem z głębokim uczeniem się i ogólnie sieciami neuronowymi.

  1. Rozwiązania pasujące do danych treningowych są nieskończone. Nie mamy precyzyjnego równania matematycznego, które spełnia tylko jeden i który można powiedzieć, że uogólnia najlepiej. Mówiąc wprost, nie wiemy, które uogólniają się najlepiej.

  2. Optymalizacja wag nie jest problemem wypukłym, więc nigdy nie wiemy, że otrzymamy globalne lub lokalne minimum.

Dlaczego więc nie porzucić sieci neuronowych i zamiast tego poszukać lepszego modelu ML? Coś, co rozumiemy i co jest zgodne z zestawem równań matematycznych? Liniowy i SVM nie mają tych matematycznych wad i są w pełni zgodne z zestawem równań matematycznych. Dlaczego nie pomyśleć o tych samych liniach (choć nie muszą być liniowe) i zaproponować nowy model ML lepszy niż Linear i SVM oraz sieci neuronowe i głębokie uczenie się?

Rajesh Dachiraju
źródło
37
Jeśli to znajdziesz, ludzie to zrobią.
Matthew Drury,
23
„Dlaczego nie wymyślić ...?” Nie uwierzyłbyś, ilu naukowców jest zajętych próbowaniem tego dokładnie! Po prostu dotychczas nie odnieśli sukcesu.
Kilian Foth,
31
„Wszystkie modele są błędne, ale niektóre są przydatne”, a nns z pewnością są przydatne.
josh
15
@RajeshDachiraju - to stary idiom, ale być może byłem trochę niejasny. Zapytałeś, dlaczego nie wyrzucić NN, ponieważ nie są idealne. Moja odpowiedź jest taka, że ​​nie są one doskonałe, ale są PRZYDATNE. Ludzie używają ich do automatycznego prowadzenia samochodów, tłumaczenia języków obcych, oznaczania filmów, w ochronie wielorybów, a nawet do nakładania na zdjęcia tych śmieciowych filtrów Snapchat z psimi uszami! np. działają, więc nadal ich używamy :)
josh
13
Wiesz także, co jest nie tak: mechanika newtonowska. Mechanika kwantowa. Względność. Cała fizyka jest zła (nie ma jednego modelu opisującego wszystko, wszystkie mają swoje wady). Chemia jest całkowicie błędna w tak wielu rzeczach (opis atomu jest zawsze dobrym przybliżeniem, ale nigdy dokładnym). Jedyną dokładnie prawdziwą rzeczą na świecie jest matematyka. Czysta matematyka. Wszystko inne zbliża się do właściwej odpowiedzi. Czy powinniśmy wyrzucić resztę? (zaczynając od komputera zbudowanego z niewłaściwych przepisów?). Nie. Znowu: wszystkie modele są złe, ale niektóre są przydatne.
Mayou36,

Odpowiedzi:

48
  1. Brak możliwości ustalenia, które rozwiązanie najlepiej się uogólnia, stanowi problem, ale nie powinno nas to powstrzymywać przed korzystaniem z dobrego rozwiązania. Sami ludzie często nie wiedzą, co najlepiej się uogólnia (na przykład konkurujące ze sobą ujednolicające teorie fizyki), ale nie powoduje to zbyt wielu problemów.

  2. Wykazano, że bardzo rzadko zdarza się niepowodzenie szkolenia z powodu lokalnych minimów. Większość lokalnych minimów w głębokiej sieci neuronowej ma wartość zbliżoną do globalnego minimum, więc nie stanowi to problemu. źródło

Ale szerszą odpowiedzią jest to, że przez cały dzień można rozmawiać o niewypukłości i wyborze modelu, a ludzie nadal będą korzystać z sieci neuronowych po prostu dlatego, że działają lepiej niż cokolwiek innego (przynajmniej w takich kwestiach, jak klasyfikacja obrazów).

Oczywiście są też ludzie, którzy twierdzą, że nie powinniśmy zbytnio koncentrować się na CNN, tak jak społeczność była skupiona na SVM kilka dekad temu, i zamiast tego szukali następnej wielkiej rzeczy. W szczególności myślę, że pamiętam Hintona żałującego skuteczności CNN jako czegoś, co może utrudniać badania. powiązany post

shimao
źródło
1
Szczególnie podoba mi się ostatni akapit.
Rajesh Dachiraju,
10
Czy masz wzmiankę o punkcie 2?
DrMcCleod,
@DrMcCleod: dla mnie punkt 2 wygląda bardziej jak szowinizm. Po prostu w lżejszym sensie.
Rajesh Dachiraju,
6
@DrMcCleod jest wiele pracy, która sugeruje, że lokalne minima są bardzo zbliżone do minimów globalnych i że zamiast tego problemem są punkty siodłowe. Zobacz ten artykuł, aby omówić punkty siodłowe, i ten artykuł, dlaczego lokalne minima niekoniecznie są złe.
JLD
1
Oczekuję, że wolałbym tylko jeden teatr. Ale przypuśćmy, że wiem, że spodoba mi się prawie każdy film prawie tak samo jak ten, który naprawdę chcę obejrzeć. Wtedy nie będę rozczarowany, gdy będzie 10 teatrów i muszę wybrać jeden losowo, ponieważ wiem, że każdy teatr i film mnie zadowolą.
shimao
14

Jak wskazują komentarze do twojego pytania, wiele osób pracuje nad znalezieniem czegoś lepszego. Chciałbym odpowiedzieć na to pytanie, rozszerzając komentarz pozostawiony przez @josh


Wszystkie modele są złe, ale niektóre są przydatne (Wiki)

Powyższe stwierdzenie jest ogólną prawdą stosowaną do opisania natury modeli statystycznych. Korzystając z dostępnych danych, możemy tworzyć modele, które pozwalają nam robić użyteczne rzeczy, takie jak przybliżanie przewidywanej wartości.

Weźmy na przykład regresję liniową

Korzystając z wielu obserwacji, możemy dopasować model, aby dać nam przybliżoną wartość dla zmiennej zależnej, biorąc pod uwagę dowolne wartości dla zmiennych niezależnych.

Burnham, KP; Anderson, DR (2002), Model Selection and Multimodel> Inference: A Practical Information-Theoretic Approach (2nd ed.):

„Model jest uproszczeniem lub przybliżeniem rzeczywistości i dlatego nie odzwierciedla całej rzeczywistości.… Box zauważył, że„ wszystkie modele są złe, ale niektóre są przydatne. ”Chociaż model nigdy nie może być„ prawdą ”, model może być uszeregowane od bardzo przydatnego, przez przydatnego, do nieco przydatnego, a ostatecznie zasadniczo bezużytecznego ”.

Odchylenia od naszego modelu (jak widać na powyższym obrazku) wydają się losowe, niektóre obserwacje znajdują się poniżej linii, a niektóre powyżej, ale nasza linia regresji pokazuje ogólną korelację. Podczas gdy odchylenia w naszym modelu wydają się losowe, w realistycznych scenariuszach będą inne czynniki, które powodują to odchylenie. Na przykład wyobraź sobie, że oglądasz samochody jadące przez skrzyżowanie, gdzie muszą skręcić w lewo lub w prawo, aby kontynuować, samochody nie skręcają w żaden szczególny sposób. Chociaż możemy powiedzieć, że kierunek, w którym skręcają samochody, jest całkowicie losowy, czy każdy kierowca dociera do skrzyżowania i w tym momencie podejmuje losową decyzję, w którą stronę skręcić? W rzeczywistości prawdopodobnie kierują się gdzieś z konkretnego powodu i bez próby zatrzymania każdego samochodu, aby zapytać go o ich uzasadnienie, możemy jedynie opisać ich działania jako losowe.

Gdzie jesteśmy w stanie dopasować model z minimalnym odchyleniem, to jak możemy być pewni, że nieznana, niezauważalna lub niezmierzalna zmienna w pewnym momencie rzuci nasz model? Czy trzepot skrzydeł motyla w Brazylii wywołuje tornado w Teksasie?

Problem z używaniem modeli liniowych i SVN, o których wspominasz sam, polega na tym, że jesteśmy nieco zobowiązani do ręcznej obserwacji naszych zmiennych i ich wzajemnego wpływu. Następnie musimy zdecydować, które zmienne są ważne i napisać algorytm specyficzny dla zadania. Może to być proste, jeśli mamy tylko kilka zmiennych, ale co, jeśli mielibyśmy tysiące? Co jeśli chcielibyśmy stworzyć uogólniony model rozpoznawania obrazów, czy można to realistycznie osiągnąć dzięki takiemu podejściu?

Dogłębne uczenie się i sztuczne sieci neuronowe (ANN) mogą pomóc nam w tworzeniu użytecznych modeli dla ogromnych zestawów danych zawierających ogromne ilości zmiennych (np. Bibliotek obrazów). Jak wspomniałeś, istnieje niezrozumiała liczba rozwiązań, które mogłyby pasować do danych przy użyciu ANN, ale czy ta liczba naprawdę różni się od ilości rozwiązań, które musielibyśmy opracować na zasadzie prób i błędów?

Zastosowanie SSN wykonuje dla nas wiele pracy, możemy określić nasze dane wejściowe i pożądane wyniki (i dostosować je później, aby wprowadzić ulepszenia) i pozostawić SSN znalezienie rozwiązania. Właśnie dlatego ANN są często opisywane jako „czarne skrzynki” . Na podstawie danych wejściowych generują one przybliżenie, jednak (ogólnie) przybliżenia te nie zawierają szczegółów dotyczących ich przybliżenia.

I tak naprawdę sprowadza się to do tego, jaki problem próbujesz rozwiązać, ponieważ problem decyduje o tym, które podejście modelowe jest bardziej przydatne. Modele nie są absolutnie dokładne i dlatego zawsze występuje błąd, jednak im dokładniejsze wyniki, tym bardziej są użyteczne. Przydanie się bardziej szczegółowych informacji na temat sposobu przybliżenia może być również przydatne, w zależności od problemu może być nawet bardziej użyteczne niż zwiększona dokładność.

Jeśli na przykład obliczasz zdolność kredytową osób, użycie regresji i SVM zapewnia obliczenia, które można lepiej zbadać. Możliwość zarówno ulepszenia modelu bezpośrednio, jak i wyjaśnienia klientom, jaki wpływ na ich ogólny wynik mają oddzielne zmienne niezależne, jest bardzo przydatna. ANN może pomóc w przetwarzaniu większej ilości zmiennych w celu uzyskania dokładniejszego wyniku, ale czy ta dokładność byłaby bardziej przydatna?

Carrosive
źródło
6
Robisz dobre rzeczy, ale fakt, że „w wielu przypadkach nasze obserwacje i prognozy nie będą się zgadzać dokładnie z dopasowaną linią” nie jest trafną demonstracją hasła „wszystkie modele są złe”. W regresji liniowej modelujemy E (Y | X), a zatem punkty nie leżące dokładnie na linii nie wykazują niedoboru w naszym modelu. Losowość jest wstępnie określona i oczekiwana; model nie jest „zły”, gdy obserwujemy odchylenia od dopasowanej linii.
klumbard
@klumbard Dzięki za komentarz. Zaktualizowałem swoją odpowiedź bardziej szczegółowo, co wyjaśnia moje rozumowanie na podstawie tego jako przykładu. Przyjąłem podejście bardziej filozoficzne i wypowiedziałem się bardziej ogólnie, a nie konkretnie, jest to mój pierwszy post w tej społeczności, więc przepraszam, jeśli nie jest to odpowiednie miejsce. Wydaje się, że znasz się na szczegółach, czy mógłbyś bardziej szczegółowo rozwinąć swój komentarz? Pytanie, które mam, gdzie odchylenia nie wykazują niedoboru, czy model regresji z R-kwadratem 0,01 również nie jest „zły”?
Carrosive,
2
Moim jedynym problemem z Twoim postem jest sposób, w jaki wyrażasz: „… ponieważ w wielu przypadkach nasze obserwacje i prognozy nie będą się zgadzać dokładnie z dopasowaną linią. Jest to jeden ze sposobów, w jaki nasz model jest często„ zły ”…” . Mówię po prostu, że specyfikacja modelu zawiera składnik błędu, a więc fakt (sam), że obserwowane dane nie spadają na dopasowaną linię, nie wskazuje na „błędność” modelu. Może to wydawać się subtelnym rozróżnieniem semantycznym, ale myślę, że jest to ważne
klumbard
1
Istotną kwestią, którą zajmujesz się, jest to, że wszystkie modele są błędne z powodu pominiętej zmienności stronniczości, a także błędnej specyfikacji formy funkcjonalnej. Za każdym razem, gdy spisujesz model regresji i wnioskujesz na temat szacunków, zakładasz, że poprawnie określiłeś model, co nigdy nie jest prawdą.
klumbard
1
@klumbard Oh, widzę, skąd pochodzisz. Więc chociaż model generuje szacunki, które prawdopodobnie nie będą całkowicie dokładne, możemy zmierzyć warunek błędu, aby stwierdzić, o ile rzeczywiste wartości mogą różnić się od oszacowań, a zatem błędem byłoby twierdzenie, że model jest z natury zły. Wyciągnę tę część z mojej odpowiedzi, myślę, że mój punkt widzenia lepiej wyjaśniono w części, którą dodałem po niej. Dzięki za wyjaśnienie :)
Carrosive,
8

Globalne minimum może równie dobrze być bezużyteczne, więc nie obchodzi nas, czy je znajdziemy, czy nie. Powodem jest to, że w przypadku głębokich sieci, nie tylko czas jej znalezienia staje się wykładniczo dłuższy wraz ze wzrostem wielkości sieci, ale także globalne minimum często odpowiada przeregulowaniu zestawu treningowego. W ten sposób ucierpiałaby zdolność do generalizacji DNN (na czym naprawdę nam zależy). Często też wolimy bardziej płaskie minima odpowiadające wyższej wartości funkcji straty, niż ostrzejsze minima odpowiadające niższej wartości funkcji straty, ponieważ druga bardzo źle poradzi sobie z niepewnością na wejściach. Staje się to coraz wyraźniejsze wraz z rozwojem Bayesian Deep Learning. Solidna optymalizacja bardzo często pokonuje deterministyczną optymalizację, gdy jest stosowana do rzeczywistych problemów, w których ważna jest niepewność.

Wreszcie faktem jest, że DNN po prostu skaczą z metod takich jak XGBoost w klasyfikacji obrazów i NLP. Firma, która musi czerpać zyski z klasyfikacji obrazów, prawidłowo wybierze je jako modele do wdrożenia w produkcji ( i zainwestuje znaczną ilość pieniędzy w opracowanie funkcji, przesyłanie danych itp., Ale dygresuję). Nie oznacza to, że dominują w całym środowisku ML: na przykład robią gorzej niż XGBoost w ustrukturyzowanych danych (patrz ostatni zwycięzcy konkursów Kaggle) i wydaje się, że nie radzą sobie tak dobrze jak filtry cząstek w modelowaniu szeregów czasowych. Jednak niektóre bardzo najnowsze innowacje w sieciach RNN mogą zmienić tę sytuację.

DeltaIV
źródło
2
Naprawdę? Opinia negatywna? To trochę niepotrzebne. To rozsądna odpowiedź (+1).
usεr11852 mówi: Przywróć Monic
5
@RajeshDachiraju, ponieważ najwyraźniej próbujesz wnioskować o tym, czego ja bym nie wiedział, prawdopodobnie byłbyś zainteresowany, aby dowiedzieć się, że ludzie ze znacznie większym zrozumieniem sieci neuronowych i niewypukłej optymalizacji, o której masz wrażenie, rutynowo mówią o jedno globalne minimum dla sieci neuronowych. Wśród ogromnego stosu artykułów używających tej terminologii możesz spróbować przeczytać i sprawdzić, czy rozumiesz, w czym się mylisz.
DeltaIV
2
@RajeshDachiraju: Dziękujemy za wyjaśnienie swojego rozumowania, wiele osób po prostu nie będzie się tym przejmować. Biorąc to pod uwagę, myślę, że twoje uzasadnienie tego jest błędne i wynika z błędnej interpretacji bardzo konkretnego wyrażenia. Zgadzam się z DeltaIV, że ta standardowa terminologia.
usεr11852 mówi Przywróć Monic
1
@DeltaIV: Chodzi mi o to, że może istnieć wiele wektorów wagi, które tracą 0 danych treningowych (oczywiście utrzymanie architektury na stałym poziomie). Cały trening polega na uzyskaniu wektora masy ciała? Nie zgadzam się z tobą. Jeden z tych wektorów masy jest niezwykle przydatny. Ale proszę, niech zgodzimy się nie zgadzać i zakończyć tę rozmowę tutaj. Pozdrawiam Rajesh
Rajesh Dachiraju,
1
7

Myślę, że najlepszym sposobem na zastanowienie się nad tym pytaniem jest konkurencyjny rynek. Jeśli porzucisz głębokie uczenie się, a konkurenci go wykorzystają, ORAZ okazuje się, że działa ono lepiej niż to, czego używałeś, wtedy zostaniesz pokonany na rynku.

Wydaje mi się, że tak właśnie się dzisiaj dzieje, tzn. Głębokie uczenie się wydaje się działać lepiej niż cokolwiek innego w przypadku wielu problemów na rynku. Na przykład tłumacze języka online korzystający z głębokiego uczenia się są lepsi niż wcześniej stosowane podejścia czysto językowe. Jeszcze kilka lat temu tak nie było, ale postępy w głębokim uczeniu się doprowadziły tych, którzy przywykli do pozycji lidera na rynku.

Powtarzam „rynek”, ponieważ to właśnie napędza obecny wzrost głębokiego uczenia się. W momencie, gdy biznes znajdzie coś pożytecznego, coś stanie się szeroko rozpowszechnione. To nie tak , że my , komitet, zdecydowaliśmy, że głębokie uczenie się powinno być popularne. To biznes i konkurencja.

Druga część polega na tym, że oprócz faktycznego sukcesu ML, istnieje również lęk przed przegapieniem łodzi. Wiele firm ma paranoję, że jeśli przegapią sztuczną inteligencję, upadną jako firmy. Strach ten jest podsycany przez wszystkie te domy konsultacyjne, Gartnerów itp., Szepcząc do prezesów, że muszą zrobić AI lub umrzeć jutro.

Nikt nie zmusza firm do korzystania z głębokiego uczenia się. IT i R&D są podekscytowani nową zabawką. Doping akademii, więc impreza potrwa, dopóki muzyka się nie skończy, tj. Dopóki głębokie uczenie się nie skończy. W międzyczasie możesz go rzucić i wymyślić lepsze rozwiązanie.

Aksakal
źródło
Co z finansowaniem badań akademickich? Czy możesz rzucić nieco światła na to?
Rajesh Dachiraju
2
Wiele funduszy pochodzi z branży. Profesorowie, którzy zdobywają najwięcej pieniędzy z branży, są tymi najbardziej wpływowymi w środowisku akademickim. Uniwersytety zabierają ogromną część pieniędzy, które otrzymują od firm, więc kochają tych profesorów. Jeśli czytasz ten artykuł w NYT, możesz dowiedzieć się o szaleństwie zarówno w środowisku akademickim, jak i przemyśle
Aksakal
bardzo dobre odniesienie do rynku (+1): Powiedziałem to samo („Firma, która musi czerpać zyski z klasyfikacji obrazów, poprawnie wybierze je jako modele do wdrożenia w produkcji”). Jednak łagodnie nie zgodziłbym się na paranoję. To fakt (nie paranoja), że Waymo ma szansę pokonać Teslę, Audi i innego producenta samochodów, którego nazwy nie pamiętam teraz, a to w dużej mierze ze względu na ogromne inwestycje Google w Deep Learning. Audi z pewnością mogłoby skorzystać z SIFT i SURF (dobrze przetestowanych technologii widzenia komputerowego, które nie są w żaden sposób powiązane z głębokim uczeniem się), gdyby ...
DeltaIV
...poszukiwany. Przewaga DL w stosunku do SIFT, SURF i innych metod opartych na geometrii, jeśli chodzi o klasyfikację obrazów, jest faktem potwierdzonym przez pięć lat solidnych badań akademickich i przemysłowych. Zdecydowanie nie jest to panaceum (patrz porażki IBM Watsona) i jest trochę szumu, ale są też twarde, zimne fakty.
DeltaIV,
2
@DeltaIV ML zdecydowanie działa w niektórych aplikacjach, ale myślę, że dzisiejsze szerokie rozpowszechnienie go wynika z paranoi i szumu w dużym stopniu. Niezależnie od tego, czy działa, czy nie, CTO po prostu to robią. Mam przyjaciół, którzy nie mieli pojęcia, o czym mówiłem jeszcze rok temu, teraz mówią, że AI to przyszłość, zaczną implementacje itp.
Aksakal
4

Istnieją doskonałe odpowiedzi, w większości uwzględniające przydatność DL i ANN. Chciałbym jednak sprzeciwić się OP w bardziej fundamentalny sposób, ponieważ pytanie to już przyjmuje za pewnik matematyczną niekonsekwencję sieci neuronowych.

Przede wszystkim, nie jest matematyczną teorię (większość modeli) Neural Networks. Można również argumentować, że regresja liniowa nie uogólnia się, chyba że model podstawowy jest ... no cóż, liniowy. W algorytmach neuronowych zakłada się model (nawet jeśli nie jest to jawny) i obliczany jest błąd dopasowania. Fakt, że algorytmy są modyfikowane za pomocą różnych heurystyk, nie unieważnia pierwotnego wsparcia matematycznego. BTW, lokalna optymalizacja jest również matematycznie spójną, a tym bardziej użyteczną teorią.

W tej linii, jeśli sieci neuronowe stanowią tylko jedną klasę metod w ramach całego zestawu narzędzi naukowców, jaka jest linia oddzielająca sieci neuronowe od reszty technik? W rzeczywistości SVM były kiedyś uważane za klasę NN i wciąż pojawiają się w tych samych książkach. Z drugiej strony, NN można uznać za technikę regresji (nieliniowej), być może z pewnym uproszczeniem. Zgadzam się z PO, że musimy szukać lepszych, dobrze uzasadnionych, wydajnych algorytmów, niezależnie od tego, czy oznaczysz je jako NN, czy nie.

Miguel
źródło
Problem z niekonsekwencją polega na tym, że nie można zadawać prostych pytań, takich jak: Kiedy należy przerwać trening i zrezygnować? Również wiele plotek, takich jak „Dropot”, „spadek masy ciała”, „ReLu” i różne aktywacje, normalizacja partii, maksymalne łączenie, softmax, wczesne zatrzymywanie, różne harmonogramy kursów uczenia się i wszystkie kombinacje i kombinacje z nich powodują, że projektant zawsze ma wątpliwości czy w pewnym momencie się poddać, czy nie.
Rajesh Dachiraju,
1
@RajeshDachiraju To samo można powiedzieć o współczynnikach kar w algorytmach optymalizacji punktu zewnętrznego lub o wielkości kroku w metodach Runge-Kutta. Słowo „niekonsekwentne” ma ścisłe znaczenie w nauce, które nie ma tutaj zastosowania.
Miguel,
0

Chyba dla jakiegoś problemu mniej zależy nam na matematycznym rygorze i prostocie, ale bardziej na jego użyteczności, obecny status to sieć neuronowa, która lepiej wykonuje pewne zadania, takie jak rozpoznawanie wzorców w przetwarzaniu obrazu.

Lily Long
źródło
0

W tym pytaniu jest wiele. Zobaczmy, co napisałeś jeden po drugim.

Rozwiązania pasujące do danych treningowych są nieskończone. Nie mamy precyzyjnego równania matematycznego, które spełnia tylko jeden i który można powiedzieć, że uogólnia najlepiej.

Fakt, że istnieje nieskończenie wiele rozwiązań, wynika z tego, że problem uczenia się jest problemem źle postawionym, więc nie może istnieć jeden, który najlepiej by się uogólniał. Ponadto, bez twierdzenia o darmowym obiedzie, jakąkolwiek metodą zastosujemy, nie możemy zagwarantować, że jest najlepsza we wszystkich problemach edukacyjnych.

Mówiąc wprost, nie wiemy, które uogólniają się najlepiej.

To stwierdzenie nie jest do końca prawdziwe. Istnieją twierdzenia o minimalizacji ryzyka empirycznego autorstwa Vapnika i Chervonenkisa, które łączą liczbę próbek, wymiar VC metody uczenia się i błąd uogólnienia. Pamiętaj, że dotyczy to tylko danego zestawu danych. Biorąc pod uwagę zbiór danych i procedurę uczenia się, znamy granice uogólnienia. Zauważ, że dla różnych zestawów danych nie ma i nie może być pojedyncza najlepsza procedura uczenia się z powodu braku twierdzenia o darmowym obiedzie.

Optymalizacja wag nie jest problemem wypukłym, więc nigdy nie wiemy, że otrzymamy globalne lub lokalne minimum. Dlaczego więc nie porzucić sieci neuronowych i zamiast tego poszukać lepszego modelu ML?

Oto kilka rzeczy, o których musisz pamiętać. Optymalizacja nie wypukłego problemu nie jest tak łatwa jak wypukła; to prawda. Jednak klasa metod uczenia się, które są wypukłe, jest ograniczona (regresja liniowa, SVM) i w praktyce osiągają gorsze wyniki niż klasa metod niewypukłych (wzmocnienie, CNN) w różnych problemach. Najważniejsze jest więc to, że w praktyce najlepiej działają sieci neuronowe. Chociaż istnieje wiele bardzo ważnych elementów, które sprawiają, że sieci neuronowe działają dobrze:

  1. Można je stosować na bardzo dużych zestawach danych ze względu na stochastyczny spadek gradientu.
  2. W przeciwieństwie do SVM, wnioskowanie za pomocą głębokich sieci nie zależy od zestawu danych. To sprawia, że ​​sieci neuronowe są wydajne w czasie testu.
  3. Za pomocą sieci neuronowych można bezpośrednio kontrolować ich zdolność uczenia się (pomyśl o liczbie parametrów), po prostu dodając więcej warstw lub zwiększając je. Jest to kluczowe, ponieważ dla różnych zestawów danych możesz chcieć większych lub mniejszych modeli.

Coś, co rozumiemy i co jest zgodne z zestawem równań matematycznych? Liniowy i SVM nie mają tych matematycznych wad i są w pełni zgodne z zestawem równań matematycznych. Dlaczego nie pomyśleć o tych samych liniach (choć nie muszą być liniowe) i zaproponować nowy model ML lepszy niż Linear i SVM oraz sieci neuronowe i głębokie uczenie się?

Zrzucanie rzeczy, które działają z powodu ich niezrozumienia, nie jest doskonałym kierunkiem badań. Z drugiej strony, wysiłek w ich zrozumieniu jest doskonałym kierunkiem badań. Nie zgadzam się również z tym, że sieci neuronowe są niezgodne z równaniami matematycznymi. Są dość spójne. Wiemy, jak je zoptymalizować i przeprowadzić wnioskowanie.

Gnattuha
źródło
-2

Co powiesz na oglądanie sieci neuronowych z eksperymentalnego punktu widzenia? To, że je stworzyliśmy, nie oznacza, że ​​jesteśmy zobowiązani do ich intuicyjnego zrozumienia. Lub że nie wolno nam się z nimi bawić, aby lepiej zrozumieć, co robią.

Oto kilka przemyśleń na ich temat:

  • Struktura: są to hierarchie. Są jak drzewa, które dzielą dane wejściowe. Korzenie są wejściami, a liście są warstwą wyjściową. Im bardziej warstwa znajduje się na wyjściu, tym bardziej jest dla nich odpowiednia, tym wyższy poziom abstrakcji zawiera (bardziej chodzi o obraz niż piksele).
  • Funkcjonalność: „bawią się” danymi, modus operandi polega na eksperymentowaniu ze związkami w neuronach (wagach), aż rzeczy „klikną” (margines błędu jest dopuszczalny).

Jest to zgodne z naszym sposobem myślenia. Jest to nawet zgodne z działaniem metody naukowej. Tak więc, pękając sieci neuronowe, możemy również rozwiązać ogólne pytanie, co reprezentuje wiedza.

ROBERTO EDWINS
źródło
-3

Nie zapominaj, że istnieje szeroka dziedzina badań wykorzystująca LM, GLM, modelowanie wielopoziomowe. Ostatnio techniki bayesowskie i Hamiltonian Monte Carlo (społeczność STAN jest naprawdę na czele tego) osiągnęły pełnoletność i wiele problemów, które STAN rozwiązuje naprawdę łatwo i tak naprawdę nie potrzebują sieci NN ani głębokich sieci. Badania w dziedzinie nauk społecznych Mikroekonomia to dwa (duże) przykłady takich dziedzin, które szybko przyjmują Stana.

Modele Stana są bardzo „czytelne”. Współczynniki faktycznie mają interpretację rozkładu późniejszego, podobnie jak prognozy. Priory są częścią procesu generowania danych i nie muszą być sprzężone, aby były wydajne (jak gibbs). Modelowanie w stanie jest rozkoszą, faktycznie dostraja nieprzyjemne parametry MCMC automatycznie całkiem dobrze i ostrzega, gdy eksploracja utknie z naprawdę ładnymi wizualizacjami.

Jeśli nie próbował go już zobaczyć niesamowite pokazy Stan tutaj ).

Pod koniec dnia myślę, że ludzie nie rozmawiają o tym zbyt wiele, ponieważ badania w tej dziedzinie i problemy nie są tak „seksowne” / „fajne” jak w przypadku NN.

Sid
źródło
-5

Co zwykle dzieje się, gdy nie ma spójności matematycznej (przynajmniej w tym przypadku sieci neuronowych) ... kiedy nie daje pożądanych wyników, na zestawie testowym szef powróci i powie ... Hej, dlaczego nie spróbuj Porzuć (jakie wagi, która warstwa, ile to twój ból głowy, ponieważ nie ma matematycznego sposobu ustalenia), więc po tym, jak spróbujesz i mam nadzieję, że uzyskasz marginalną poprawę, ale nie pożądaną, twój szef wróci i powie, dlaczego nie próbuj odchudzania (jaki czynnik?)? a później, dlaczego nie wypróbować ReLU lub innej aktywacji na niektórych warstwach, a nadal nie, dlaczego nie spróbować „maksymalnego łączenia”? wciąż nie, dlaczego nie spróbować normalizacji wsadowej, nadal nie lub przynajmniej konwergencji, ale nie pożądany wynik, Och, jesteś w lokalnym minimum, spróbuj innego harmonogramu szybkości uczenia się, po prostu zmienić architekturę sieci? i powtórz wszystko powyżej w różnych kombinacjach! Trzymaj to w pętli, dopóki nie odniesiesz sukcesu!

Z drugiej strony, jeśli próbujesz spójnego SVM, po konwergencji, jeśli wynik nie jest dobry, to dobrze, liniowe jądro, którego używamy, nie jest wystarczająco dobre, ponieważ dane mogą nie być liniowe, użyj jądra o innym kształcie, spróbuj jądro w innym kształcie, jeśli masz przeczucie, jeśli nadal nie, po prostu zostaw je, jest to ograniczenie SVM.

Mówię o tym, że sieci neuronowe są tak niespójne, że nawet nie jest źle! Nigdy nie akceptuje swojej porażki! Inżynier / projektant bierze na siebie ciężar, na wypadek, gdyby nie działał zgodnie z oczekiwaniami.

Rajesh Dachiraju
źródło
3
Nie wydaje mi się, aby zawierała odpowiedź na twoje własne pytanie. Czy uważasz, że mógłbyś go edytować tak, aby brzmiał mniej jak rant, i wyjaśnić, w jaki sposób wyjaśnia to, dlaczego sieci neuronowe i głębokie uczenie się mogą być bardziej przydatne niż model ML (co wydaje się być twoim pierwotnym pytaniem)?
Silverfish,
1
Chodzi o to, że z SVM wiemy, kiedy zrobiliśmy to najlepiej, jak potrafimy, ale z NNs nie możemy wiedzieć. Prawdopodobnie, biorąc pod uwagę łatwość, z jaką oszukuje się DL, nawet dane takie jak błąd nie mówią nam, jak dobrze model naprawdę sobie radzi.
po
1
@yters, tak, ale komentarz silverfish był taki, że nie jest to odpowiedź na pytanie, dlaczego nie rzucić DL. Jest to bliższe sformułowanie pytania. Sugerowałbym połączenie go z pytaniem.
P.Windridge