Jeśli wartości cyfrowe są jedynie szacunkami, dlaczego nie powrócić do analogu dla AI?

18

Impulsem do przejścia w XX wieku z obwodów analogowych na cyfrowe był napędzany pragnieniem większej dokładności i niższego szumu. Teraz opracowujemy oprogramowanie, w którym wyniki są przybliżone, a hałas ma wartość dodatnią.

  • W sztucznych sieciach używamy gradientów (Jakobian) lub modeli drugiego stopnia (Hessian) do oszacowania kolejnych kroków w zbieżnym algorytmie i zdefiniowania akceptowalnych poziomów niedokładności i wątpliwości. 1
  • W strategiach konwergencji celowo dodajemy hałas , wstrzykując przypadkowe lub pseudolosowe zakłócenia, aby poprawić niezawodność poprzez zasadniczo wyskakiwanie lokalnych minimów na powierzchni optymalizacyjnej podczas konwergencji. 2)

To, co akceptujemy i celowo wprowadzamy w obecnych systemach AI, to te same rzeczy, które doprowadziły elektronikę do układów cyfrowych.

Dlaczego nie wrócić do obwodów analogowych dla sieci neuronowych i wdrożyć je za pomocą matryc operacyjnych wzmacniaczy zamiast matryc cyfrowych elementów przetwarzania sygnałów?

Wartości parametrów uczenia sztucznej sieci można utrzymać za pomocą zintegrowanych kondensatorów ładowanych przez konwertery D-to-A, dzięki czemu wyuczone stany mogą korzystać z cyfrowej dokładności i wygody, a propagacja do przodu korzysta z zalet analogowych.

  • Większa prędkość 3
  • Tranzystory o rząd wielkości mniej reprezentują komórki sieciowe
  • Naturalny hałas termiczny 4

Artykuł naukowy lub poszukiwanie patentowe analogowych sztucznych sieci ujawnia wiele pracy w ciągu ostatnich czterdziestu lat, a trend badawczy został utrzymany. Obliczeniowe obwody analogowe są dobrze rozwinięte i stanowią podstawę dla układów neuronowych.

Czy obecna obsesja na punkcie obliczeń cyfrowych może zaciemniać powszechny pogląd na opcje architektoniczne AI?

Czy hybrydowy analog jest lepszą architekturą dla sztucznych sieci?

 


Przypisy

[1] Ramy uczenia się PAC (prawdopodobnie w przybliżeniu poprawne) wiążą dopuszczalny błąd ϵ i dopuszczalną wątpliwość δ z wielkością próby wymaganą do uczenia się dla określonych typów modeli. (Zauważ, że 1ϵ oznacza dokładność, a 1δ oznacza zaufanie do tych ram.)

[2] Pokazano gradient stochastyczny, gdy stosowane są odpowiednie strategie i hiperparametry, aby zbiegać się szybciej podczas uczenia się i staje się najlepszą praktyką w typowych rzeczywistych zastosowaniach sztucznych sieci.

[3] Procesor Intel Core i9-7960X działa z prędkością turbo 4,2 GHz, podczas gdy standardowy nadawanie stacjonarne satelitarne wynosi 41 GHz.

[4] Szum termiczny można uzyskać na krzemie poprzez wzmocnienie i filtrowanie wycieku elektronów przez diody Zenera z odwróconym napięciem w punkcie lawinowym. Źródłem zjawisk kwantowych jest szum termiczny Johnsona-Nyquista. Sanguinetti i in. glin. w „Kwantowym generowaniu liczb losowych w telefonie komórkowym” (2014): „Detektor można modelować jako kanał stratny z prawdopodobieństwem transmisji η, a następnie konwerter foton-elektron z wydajnością jednostkową… zmierzony rozkład będzie być połączeniem niepewności kwantowej i szumu technicznego ”, a praca JTWPA CalTecha. Oba mogą stać się standardami wytwarzania prawdziwie niedeterministycznego szumu kwantowego w układach scalonych.

Bibliografia

FauChristian
źródło
1
Twierdziłbym, że coś ci się podoba. Staramy się umieścić AI w układach analogowych (myślę, że Apple może coś robić z iPhonem). Nie jestem pewien, ile badań zostało zrobionych, ale jestem pewien, że gdzieś znajdziesz białą księgę. Zdecydowanie warto to zbadać. Przewiduję, że wkrótce mogą pojawić się programowalne układy AI, które mają określoną liczbę wejść i wyjść (podobne do rejestrów magistrali).
Zakk Diaz
To nie jest pełna odpowiedź, ale podejrzewam, że głównym problemem są koszty. Obwody drukujące są super tanie w skali i wciąż dość drogie w małych partiach. Dyskretne procesory graficzne są już produkowane masowo i działają „wystarczająco dobrze”. Układ analogowy zwykle może dobrze wykonać tylko jedno zadanie, a preferowane modele zmieniają się szybko. Dyskretny układ można zaprogramować do wykonywania wielu różnych czynności. Jeśli znajdziemy „najlepszą” topologię dla ANN, być może warto będzie ponownie stworzyć układy analogowe.
John Doucette
1
Łał. Mój pierwszy dzień na tej stronie i znalazłem kogoś, kto podziela mi zdanie. :-D

Odpowiedzi:

6

Myślę, że istnieją różne powody. Po pierwsze: elastyczność. Dzięki nowoczesnym procesorom i procesorom graficznym możesz zbudować praktycznie każdy model AI, jaki chcesz, w każdym rozmiarze i złożoności, jaki chcesz. Skąd możesz mieć pewność, że model, którego obecnie używasz, będzie odpowiedni za kilka lat? Może w najbliższych latach nastąpi przełom w NN? Być może niektórzy naukowcy odkryli, że istnieje lepszy sposób na rozwinięcie sztucznej inteligencji niż w przypadku NN, algorytmów genetycznych itp. Zwykłe układy scalone poradzą sobie z tym wszystkim i wystarczająco dobrze. Ale jeśli chcesz go zoptymalizować i nie martwić się o pieniądze, możesz opracować wyspecjalizowaną architekturę (robią to już różne firmy, co znacznie przyspiesza określone zadania).

Powód drugi: Masowa produkcja. To znaczy, firmy mogłyby ostatecznie wyprodukować wysoce zintegrowane analogowe komponenty AI (powiedzmy, na przykład, układy NN). Ale to byłaby większa inwestycja. Jest raczej niejasne, czy jednostki, które są wystarczająco elastyczne, aby stanowić poważną alternatywę sprzętową dla sztucznej inteligencji, mogą być łatwo wytwarzane w produkcji masowej nm, która może konkurować z procesorami i procesorami graficznymi. Szczególnie te ostatnie są wysoce zoptymalizowane do wykonywania masowych obliczeń równoległych. A jeśli przyjrzysz się rozwojowi architektur podobnych do GPU (może zrobić kilka rzeczy, ale bardzo dobrze), które są dodatkowo zoptymalizowane pod kątem uczenia się na maszynie, możesz zauważyć, że byłaby to trudna konkurencja dla jednostek analogowych.

Wszystkie powyższe nie oznaczają, że nie ma badań w tej dziedzinie. Istnieje kilka eksperymentów, które próbują to zarchiwizować, ale nie są jeszcze „niebezpieczne” dla zwykłych architektur. W końcu nadejdą w przyszłości, kiedy lepiej zrozumiemy sztuczną inteligencję i inteligencję i po prostu próbujemy je ulepszyć, ale jestem raczej sceptyczny.

EDYCJA: Również coś, co również należy do elastyczności: możesz lepiej eksperymentować z algorytmami AI działającymi na „normalnym” sprzęcie cyfrowym. Na przykład, możesz łatwo sprawdzić NN w niektórych lokalizacjach, możesz szybko zmodyfikować dane wejściowe lub podać alternatywne, naprawdę nie jesteś z niczym związany. A ponieważ wciąż nie znamy ani nie rozumiemy w pełni każdego modelu, kiedy użyć, który, jeśli istnieją lepsze architektury dla określonego zadania itp., Nie ma sensu umieszczać czegoś „młodego” i „eksperymentalnego” w stałym analogu architektura.

Ben
źródło
Chociaż ekonomia skali (sama wielkość produkcji) faworyzuje dziś technologię cyfrową, nie zrobiła tego w latach 80., a wielu nie w latach 40. XX wieku. Tranzystor jest tańszy. W rdzeniu CUDA znajduje się 128 000 tranzystorów na rdzeń i tylko 40 tranzystorów w multipleksowanym wzmacniaczu operacyjnym. Co ważniejsze, pytanie jest teoretyczne - co ma największy sens technologiczny - a nie to, co jest ekonomiczne w obecnym stanie ekonomii VLSI. Jeśli w ciągu ostatnich 100 lat pojawi się jakikolwiek wzór, możemy zauważyć, że dzisiejszą normą jest dzieło muzealne jutra. - Pomocne może być przeczytanie wymagań nagrody.
FauChristian
Ale czy to nie jest podobne w tym scenariuszu? Ogromne rozwijanie tego sprzętu TERAZ nie miałoby sensu z ekonomicznego punktu widzenia, ale też nie technologicznego. Po prostu nie wiemy wystarczająco dużo.
Ben
Jeśli „my” to członkostwo AI Stack Exchange, istnieje silna tendencja do tego, co zostało już zaimplementowane w popularnych bibliotekach Pythona. Wydaje się jednak, że rządy i duże korporacje są zainteresowane sieciami wzbogacającymi i analogowymi VLSI, np. USAF i Intel. Laboratoria robotyki pchają się w kierunku analogów, a neuro-kognitywni badacze uważają ANN za niegodne środkowej N. Prawdziwy neuron jest tysiące razy bardziej złożony niż funkcja ReLU. To, co okaże się dominujące w przypadku jakiej aplikacji, jest niejasne, ale to nie to samo, co niewystarczająca wiedza na temat opcji.
FauChristian
Być może przeczytałeś w pytaniu słowo „czysty”. Żadne z trwających badań nie sugeruje czystego analogu, z tarczami zamiast klawiatur i CRT zamiast LCD. Wszystkie najnowsze propozycje w literaturze i w aktywnym rozwoju VLSI są zgodne z dobrze rozumianym paradygmatem: Symuluj programowalny (nie ustalony) analog, który może uczyć się programu, tak jak cyfrowe sztuczne sieci, a następnie realizować w krzemie, bez usuwania programowalności lub zdolności uczenia się. Sygnały w czasie rzeczywistym mogą być analogowe, cyfrowe lub oba, ale ogólna kontrola układu jest cyfrowa, tak jak w przypadku GPU lub DSP.
FauChristian
Okres nagród wkrótce się skończy, a pytanie, czy nauka analogowa ma sens, ponieważ może wykorzystać łatwo dostępny szum kwantowy, nie zostało jeszcze uwzględnione w tej odpowiedzi. Pytanie nie zawierało prognozy. Ponadto ogromny budżet, który wydaje się być ukierunkowany na analogowe obliczenia perceptronów, splotu i sieci szczytowych, może bardzo dobrze przeważać, ale tylko wtedy, gdy długoterminowa rentowność jest racjonalna. Tak więc pytanie.
FauChristian
6

Szybka odpowiedź

Kiedy Intel nabył Nirvana, wyraził przekonanie, że analog VLSI ma swoje miejsce w neuromorficznych układach scalonych w niedalekiej przyszłości 1, 2, 3 .

To, czy było tak z powodu możliwości łatwiejszego wykorzystania naturalnego szumu kwantowego w obwodach analogowych, nie jest jeszcze znane. Jest to bardziej prawdopodobne ze względu na liczbę i złożoność równoległych funkcji aktywacyjnych, które można spakować w pojedynczy układ VLSI. Pod tym względem analog ma przewagę rzędu rzędów nad cyfrową.

Członkom AI Stack Exchange prawdopodobnie przyda się przyspieszenie tej mocno wskazanej ewolucji technologii.

Ważne trendy i nie-trendy w AI

Aby naukowo podejść do tego pytania, najlepiej porównać teorię sygnałów analogowych i cyfrowych bez tendencji.

Entuzjaści sztucznej inteligencji mogą znaleźć w Internecie wiele informacji na temat głębokiego uczenia się, ekstrakcji funkcji, rozpoznawania obrazów oraz bibliotek oprogramowania do pobrania i natychmiastowego rozpoczęcia eksperymentów. Jest to sposób, w jaki większość ludzi moczy stopy dzięki tej technologii, ale szybkie wprowadzenie do sztucznej inteligencji ma również swoją wadę.

Kiedy teoretyczne podstawy wczesnego udanego wdrożenia sztucznej inteligencji skierowanej do konsumenta nie są zrozumiałe, powstają założenia sprzeczne z tymi fundamentami. Ważne opcje, takie jak analogowe sztuczne neurony, sieci wzbogacone i informacje zwrotne w czasie rzeczywistym, są pomijane. Poprawa formy, możliwości i niezawodności jest zagrożona.

Entuzjazm w rozwoju technologii powinien być zawsze łagodzony przynajmniej w równym stopniu racjonalnym myśleniem.

Konwergencja i stabilność

W systemie, w którym dokładność i stabilność są uzyskiwane dzięki sprzężeniu zwrotnemu, zarówno wartości sygnałów analogowych, jak i cyfrowych są zawsze jedynie szacunkami.

  • Wartości cyfrowe w algorytmie zbieżnym, a ściślej w strategii opracowanej w celu zbieżności
  • Wartości sygnałów analogowych w stabilnym obwodzie wzmacniacza operacyjnego

Zrozumienie paralelności między zbieżnością poprzez korekcję błędów w algorytmie cyfrowym a stabilnością uzyskaną dzięki sprzężeniu zwrotnemu w oprzyrządowaniu analogowym jest ważne przy rozważaniu tego pytania. Są to podobieństwa z wykorzystaniem współczesnego żargonu, z cyfrowym po lewej i analogowym po prawej.

┌───────────────────────────────┬───────────────── ─────────────┐
│ * Cyfrowe sztuczne sieci * │ * Analogowe sztuczne sieci * │
├───────────────────────────────┼───────────────── ─────────────┤
Propag Propagacja do przodu │ Pierwotna ścieżka sygnału │
├───────────────────────────────┼───────────────── ─────────────┤
│ Funkcja błędu │ Funkcja błędu │
├───────────────────────────────┼───────────────── ─────────────┤
│ Konwergentny │ Stabilny │
├───────────────────────────────┼───────────────── ─────────────┤
│ Nasycenie gradientu │ Nasycenie na wejściach │
├───────────────────────────────┼───────────────── ─────────────┤
│ Funkcja aktywacji │ Funkcja przekazywania do przodu │
└───────────────────────────────┴───────────────── ─────────────┘

Popularność układów cyfrowych

Głównym czynnikiem wzrostu popularności obwodów cyfrowych jest ograniczenie szumów. Dzisiejsze obwody cyfrowe VLSI mają długi średni czas do awarii (średni czas między wystąpieniami, gdy napotkana jest niepoprawna wartość bitu).

Wirtualna eliminacja szumów dała obwodom cyfrowym znaczącą przewagę nad obwodami analogowymi w zakresie pomiarów, kontroli PID, obliczeń i innych zastosowań. Dzięki obwodom cyfrowym można zmierzyć do pięciu cyfr dziesiętnych dokładności, kontrolować z niezwykłą precyzją i obliczyć π do tysiąca cyfr dziesiętnych dokładności, powtarzalnie i niezawodnie.

To głównie budżety lotnicze, obronne, balistyczne i przeciwdziałające podniosły popyt produkcyjny, aby osiągnąć ekonomię skali w produkcji obwodów cyfrowych. Zapotrzebowanie na rozdzielczość wyświetlania i szybkość renderowania napędza obecnie wykorzystanie GPU jako cyfrowego procesora sygnałowego.

Czy te w dużej mierze siły ekonomiczne powodują najlepsze wybory projektowe? Czy cyfrowe sieci sztuczne najlepiej wykorzystują cenne nieruchomości VLSI? To jest wyzwanie tego pytania i jest dobre.

Rzeczywistość złożoności układu scalonego

Jak wspomniano w komentarzu, dziesiątki tysięcy tranzystorów wymagają wdrożenia w krzemie niezależnego, wielokrotnego użytku sztucznego neuronu sieci. Wynika to głównie z mnożenia macierzy wektorowej prowadzącej do każdej warstwy aktywacyjnej. Wystarczy tylko kilkadziesiąt tranzystorów na sztuczny neuron, aby zaimplementować zwielokrotnienie macierzy wektorowej i szereg wzmacniaczy operacyjnych warstwy. Wzmacniacze operacyjne mogą być zaprojektowane do wykonywania funkcji takich jak krok binarny, sigmoid, soft plus, ELU i ISRLU.

Hałas sygnału cyfrowego z zaokrąglania

Sygnalizacja cyfrowa nie jest wolna od szumów, ponieważ większość sygnałów cyfrowych jest zaokrąglona, ​​a zatem przybliżona. Nasycenie sygnału w propagacji wstecznej pojawia się najpierw jako szum cyfrowy generowany z tego przybliżenia. Dalsze nasycenie występuje, gdy sygnał jest zawsze zaokrąglany do tej samej reprezentacji binarnej.

vmiknN.

v=n=0N.1n2)k+mi+N.-n

Programiści czasami spotykają się z efektem zaokrąglania liczb zmiennoprzecinkowych IEEE z podwójną lub pojedynczą precyzją, gdy odpowiedzi, które mają wynosić 0,2, pojawiają się jako 0.20000000000001. Jedna piąta nie może być reprezentowana z doskonałą dokładnością jako liczba binarna, ponieważ 5 nie jest współczynnikiem 2.

Nauka w mediach i popularne trendy

mi=mdo2)

W uczeniu maszynowym, podobnie jak w przypadku wielu produktów technologicznych, istnieją cztery kluczowe wskaźniki jakości.

  • Wydajność (która wpływa na szybkość i oszczędność użytkowania)
  • Niezawodność
  • Precyzja
  • Zrozumiałość (która napędza łatwość konserwacji)

Czasami, ale nie zawsze, osiągnięcie jednego kompromisuje drugiego, w którym to przypadku należy zachować równowagę. Spadek gradientu jest strategią konwergencji, którą można zrealizować za pomocą algorytmu cyfrowego, który ładnie równoważy te cztery, dlatego jest dominującą strategią w wielowarstwowym szkoleniu perceptronów i w wielu głębokich sieciach.

Te cztery rzeczy były kluczowe dla wczesnej pracy cybernetycznej Norberta Wienera przed pierwszymi obwodami cyfrowymi w Bell Labs lub pierwszym flip-flopem zrealizowanym za pomocą lamp próżniowych. Termin cybernetyka pochodzi od greckiego κυβερνήτης (wymawiane kyvernítis ) oznaczającego sternika, gdzie ster i żagle musiały kompensować ciągle zmieniający się wiatr i prąd, a statek musiał zbliżyć się do zamierzonego portu lub portu.

Analiza tego pytania oparta na trendach może otaczać pomysł, czy VLSI można osiągnąć w celu uzyskania ekonomii skali w sieciach analogowych, ale kryteria podane przez jego autora to unikanie poglądów opartych na trendach. Nawet jeśli tak nie było, jak wspomniano powyżej, do wytworzenia sztucznych warstw sieciowych z obwodami analogowymi potrzeba znacznie mniej tranzystorów niż cyfrowych. Z tego powodu uzasadnione jest udzielenie odpowiedzi na pytanie, zakładając, że analog VLSI jest bardzo wykonalny przy rozsądnych kosztach, jeśli uwaga zostanie skierowana na jego osiągnięcie.

Projekt sztucznej sieci analogowej

Analogiczne sztuczne sieci są badane na całym świecie, w tym joint venture IBM / MIT, Nirvana Intela, Google, siły powietrzne USA już w 1992 r. 5 , Tesla i wiele innych, niektóre wskazane w komentarzach i uzupełnieniu do tego pytanie.

Zainteresowanie analogami dla sztucznych sieci ma związek z liczbą równoległych funkcji aktywacyjnych zaangażowanych w uczenie się, które mogą zmieścić się na milimetr kwadratowy nieruchomości z chipem VLSI. Zależy to w dużej mierze od liczby wymaganych tranzystorów. Macierze tłumienia (macierze parametrów uczenia) 4 wymagają mnożenia macierzy wektorowych, co wymaga dużej liczby tranzystorów, a zatem znacznej części nieruchomości VLSI.

Musi istnieć pięć niezależnych składników funkcjonalnych w podstawowej wielowarstwowej sieci perceptronów, jeśli ma być dostępna do w pełni równoległego szkolenia.

  1. Mnożenie macierzy wektorowej, które parametryzuje amplitudę propagacji do przodu między funkcjami aktywacji każdej warstwy
  2. Zachowanie parametrów
  3. Funkcje aktywacji dla każdej warstwy
  4. Zachowanie danych wyjściowych warstwy aktywacyjnej do zastosowania w propagacji wstecznej
  5. Pochodna funkcji aktywacyjnych dla każdej warstwy

W obwodach analogowych, z większą równoległością właściwą dla metody transmisji sygnału, 2 i 4 mogą nie być konieczne. Teoria sprzężenia zwrotnego i analiza harmonicznych zostaną zastosowane do projektu obwodu, przy użyciu symulatora takiego jak Spice.

dopdo(r)r(t,do)tjajawja τpτzaτre

do=dopdo(r(t,do)ret)(ja=0ja-2)(τpwjawja-1+τzawja+τrewja)+τzawja-1+τrewja-1)

Dla wspólnych wartości tych obwodów w obecnych analogowych układach scalonych mamy koszt dla analogowych układów VLSI, które z czasem zbliżają się do wartości co najmniej trzy rzędy wielkości poniżej wartości dla układów cyfrowych z równoważnym równoległym treningiem.

Bezpośrednie adresowanie wtrysku hałasu

Pytanie brzmi: „Używamy gradientów (jakobianów) lub modeli drugiego stopnia (hesianów) do oszacowania kolejnych kroków w algorytmie zbieżnym i celowo dodając szum [lub] wstrzykując pseudolosowe zaburzenia w celu poprawy niezawodności konwergencji poprzez wyskakiwanie lokalnych studni w błędzie powierzchnia podczas konwergencji. ”

Powodem, dla którego pseudolosowy hałas jest wprowadzany do algorytmu konwergencji podczas szkolenia oraz w sieciach ponownych uczestników w czasie rzeczywistym (takich jak sieci wzmacniające), jest istnienie lokalnych minimów na powierzchni nierówności (błędu), które nie są globalnymi minimami tego powierzchnia. Globalne minima to optymalnie wyszkolony stan sztucznej sieci. Lokalne minima mogą być dalekie od optymalnych.

Ta powierzchnia ilustruje funkcję błędu parametrów (dwa w tym bardzo uproszczonym przypadku 6 ) i kwestię lokalnych minimów ukrywających istnienie globalnych minimów. Niskie punkty na powierzchni reprezentują minima w krytycznych punktach lokalnych regionów optymalnej konwergencji treningu. 7,8

Powierzchnia błędu pokazuje, jak można pominąć Global Optimum

Funkcje błędów są po prostu miarą rozbieżności między bieżącym stanem sieci podczas treningu a pożądanym stanem sieci. Podczas szkolenia sztucznych sieci celem jest znalezienie globalnego minimum tej dysproporcji. Taka powierzchnia istnieje, niezależnie od tego, czy dane próbki są oznakowane, czy nie, oraz czy kryteria ukończenia szkolenia są wewnętrzne czy zewnętrzne względem sztucznej sieci.

Jeśli szybkość uczenia się jest niewielka, a stan początkowy znajduje się u początku przestrzeni parametrów, zbieżność, przy użyciu opadania gradientu, zbiegnie się do lewej skrajnej studni, która jest lokalnym minimum, a nie globalnym minimum po prawej stronie.

Nawet jeśli eksperci inicjujący sztuczną sieć do nauki są wystarczająco sprytni, aby wybrać punkt środkowy między tymi dwoma minimami, gradient w tym punkcie nadal będzie nachylony w kierunku minimum lewej ręki, a zbieżność osiągnie nieoptymalny stan treningu. Jeśli optymalność szkolenia ma kluczowe znaczenie, co często ma miejsce, szkolenie nie osiągnie wyników jakości produkcji.

Jednym z zastosowanych rozwiązań jest dodanie entropii do procesu konwergencji, który często jest po prostu zastrzykiem osłabionego sygnału wyjściowego generatora liczb pseudolosowych. Innym rzadziej stosowanym rozwiązaniem jest rozgałęzienie procesu szkolenia i próba wstrzyknięcia dużej ilości entropii w drugim procesie zbieżnym, tak aby równolegle wyszukiwać konserwatywne i nieco dzikie.

Prawdą jest, że szum kwantowy w bardzo małych obwodach analogowych ma większą jednorodność widma sygnału od jego entropii niż cyfrowy pseudolosowy generator i do uzyskania szumu wyższej jakości potrzeba znacznie mniej tranzystorów. Czy wyzwania związane z wdrożeniem VLSI zostały przezwyciężone, nie zostaną jeszcze ujawnione przez laboratoria badawcze osadzone w rządach i korporacjach.

  • Czy takie elementy stochastyczne stosowane do wstrzykiwania zmierzonych wielkości losowości w celu zwiększenia szybkości i niezawodności treningu będą odpowiednio odporne na hałas zewnętrzny podczas treningu?
  • Czy będą wystarczająco chronione przed wewnętrznymi rozmowami?
  • Czy pojawi się zapotrzebowanie, które obniży koszty produkcji VLSI na tyle, aby osiągnąć punkt większego wykorzystania poza wysoko finansowanymi przedsiębiorstwami badawczymi?

Wszystkie trzy wyzwania są prawdopodobne. Pewne i bardzo interesujące jest to, w jaki sposób projektanci i producenci ułatwiają cyfrową kontrolę ścieżek sygnału analogowego i funkcje aktywacji, aby osiągnąć szybki trening.

Przypisy

[1] https://ieeexplore.ieee.org/abstract/document/8401400/

[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-rule-robotic-age

[3] https://www.roboticstomorrow.com/article/2018/04/whats-the-difference-between-analog-and-neuromorphic-chips-in-robots/11820

[4] Tłumienie odnosi się do pomnożenia sygnału wyjściowego z jednego uruchomienia przez trenowalny parametr w celu zapewnienia sumy, którą można zsumować z innymi w celu wprowadzenia do aktywacji kolejnej warstwy. Chociaż jest to termin fizyki, jest on często używany w elektrotechnice i jest właściwym terminem opisującym funkcję mnożenia macierzy wektorowej, która osiąga to, co w mniej wykształconych kręgach nazywa się ważeniem nakładów warstw.

[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf

[6] Istnieje wiele więcej niż dwóch parametrów w sztucznych sieciach, ale tylko dwa są przedstawione na tej ilustracji, ponieważ wykres może być zrozumiały tylko w 3D i potrzebujemy jednego z trzech wymiarów dla wartości funkcji błędu.

[7] Definicja powierzchni: z=(x-2))2)+(y-2))2)+60-401+(y-1.1)2)+(x-0,9)2)-40(1+((y-2.2)2)+(x-3.1)2))4)

[8] Powiązane komendy gnuplot:

set title "Error Surface Showing How Global Optimum Can be Missed"
set xlabel "x"
set ylabel "y"
set pm3d at b
set ticslevel 0.8
set isosample 40,40
set xrange [0:4]
set yrange [0:4]
set nokey
splot (x-2)**2 + (y-2)**2 + 60 \
    - 40 / sqrt(1+(y-1.1)**2+(x-0.9)**2) \
    - 40 / (1+(y-2.2)**2+(x-3.1)**2)**4
Douglas Daseeco
źródło
4

Cyfrowe oprzyrządowanie ogniw analogowych

Jednym z kluczowych wyzwań w analogowych sztucznych sieciach jest to, że oprzyrządowanie sieciowe byłoby najbardziej praktyczne, gdyby było cyfrowe. Każda implementacja VLSI analogowych perceptronów, zwojów lub sieci szczytowych prawdopodobnie będzie musiała mieć komponenty cyfrowe w układzie hybrydowym dla kilku funkcji.

  • Wskaźniki zdrowia
  • Wskaźniki usterek
  • Archiwizacja i wyszukiwanie wyuczonych parametrów 1
  • Ogólna kontrola systemu
  • Ustawianie hiperparametrów
  • Statystyka operacyjna
  • Introspekcja dla rozwoju i debugowania
  • Punkty przerwania
  • Audytowalność

Oznacza to, że realizacja analogowej sztucznej sieci ogólnego przeznaczenia będzie wymagała konwersji A-D-D i D-A-A. 2 Wyzwaniem związanym z projektowaniem VLSI staje się wtedy unikanie gromadzenia się tranzystorów po wprowadzeniu dużej liczby bloków konwersji. Taki pokonałby przewagę gęstości analogowej realizacji propagacji do przodu i do tyłu.

Prawdopodobnym rozwiązaniem jest zastosowanie matrycy zatrzaskowej do dystrybucji sygnałów z przetworników D-na-A do kondensatorów i matrycy przełączającej o niskim wycieku w celu wybrania, która wartość będzie odczytywana przez przetworniki A-do-D. Należy tego dokonać bez wprowadzania szumu cyfrowego na ścieżki analogowe i bez obniżania przechowywanych opłat lub utraty dokładności ich ładowania.

O tym, jak znacząca byłaby liczba dodatkowych tranzystorów i tras poza pierwotnym obwodem sieci, można dowiedzieć się tylko poprzez wykonanie procesu projektowania VLSI.

Ważne wkłady typu open source

University of Massachusetts wprowadził w lutym 2018 r. Repozytorium BindsNet 3,4 o otwartym kodzie źródłowym . Symuluje analogowe sieci szczytowe z cyfrowym oprogramowaniem i sprzętem oraz wykorzystuje przyspieszenie GPU przez PyTorch.

Ułatwia to współczesne eksperymentowanie z projektami i strategiami sieci wzbogacania. Sukces zastosowania symulacji, jeśli jest wystarczająco znaczący, prawdopodobnie doprowadziłby do lepszych projektów VLSI.


Przypisy

[1] W każdym praktycznym systemie uczenia się wyuczone parametry muszą zostać wyodrębnione z implementacji VLSI, zapisane w bazie danych i udostępnione dowolnej liczbie systemów programistycznych, testowych, UAT lub produkcyjnych w celu wdrożenia, analizy pierwotnych przyczyn błędów, skalowania i odzyskiwanie po awarii. Zapisywanie i ładowanie musi być podstawową cechą hybrydowych analogowych sieci VLSI, nawet między epokami podczas treningu i podczas rzeczywistego użytkowania w terenie.

[2] Nie można w nieskończoność utrzymywać wyuczonego stanu sztucznej sieci w kondensatorach. Chociaż kondensatory stały się dominującym komponentem pasywnym dla obwodów analogowych zaprojektowanych w standardowych procesach CMOS, nie mogą mieć dużej pojemności, a przeciek nie jest równy zero. Okres półtrwania pojemnościowych obwodów pamięci i wymagana dokładność wartości parametrów określą szybkość odczytu i warunkowego cyklu ponownej aktualizacji.

[3] BindsNet repozytorium open source

[4] BindsNET [artykuł]: Biblioteka sieci neuronowych zorientowana na uczenie maszynowe w Pythonie dla publikacji streszczenia z pracy BindsNet w Harvard U.

FauChristian
źródło
4

Dziwi mnie, że nikt nie wspomniał o niektórych konkretnych kierunkach badań w dziedzinie analogowej sztucznej inteligencji. Ponadto wyjaśnienie, że sztuczna inteligencja nie jest dokładnie tym samym, co uczenie maszynowe, jak sugeruje ta odpowiedź . Ostatnie postępy w dziedzinie obliczeń analogowych dotyczyły wyłącznie uczenia maszynowego.

Analogowy CMOS:

Najpierw porozmawiajmy o najwcześniejszych analogowych implementacjach neuronów. Dr.Giacomo Indiveri i wsp. Byli nielicznymi pionierami w tej dziedzinie. Chociaż za pomocą logiki CMOS możesz projektować dynamiczne sieci neuronowe STDP (plastyczność zależna od czasu skoku), wykorzystanie algorytmów uczenia maszynowego jest trudne. Ludzki mózg nie został jeszcze w pełni zrozumiany, zwłaszcza w jaki sposób komunikuje złożone informacje za pomocą skoków. Sieci oparte na pikach są dobre w wykonywaniu stosunkowo niewielkich zadań związanych z rozpoznawaniem obrazów i niską złożonością (większość prac wydaje się bardziej martwić poprawą wydajności niż dotyczyć bardzo złożonych zadań). Ze względu na dużą liczbę dostępnych tranzystorów możemy być w stanie wykorzystać je w skomplikowanych zadaniach.

Najlepszym przykładem byłoby użycie przez Google tej idei niskiej precyzji w TPU i precyzji kompensacji, poprzez użycie ogromnej liczby jednostek przetwarzających, co powoduje pewien kompromis między czasem, precyzją i obszarem. Może to być analogiczne do ogromnej liczby tranzystorów w procesorze, aczkolwiek z małą precyzją. ( Dogłębne spojrzenie na pierwszą Google Tensor Processing Unit (TPU) )

UWAGA: Niektórzy mogą twierdzić, że technologia CMOS należy do domeny cyfrowej, ale ponieważ nie używamy tutaj CMOS do wykonywania jakichkolwiek operacji cyfrowych, lubię myśleć o niej jako o analogu.

Zadania oparte na spike są najwyraźniej całkiem dobre dla sieci Winner Take All (podobnie jak samoorganizujące się mapy ), więc jest to ogólny sposób implementacji algorytmów uczenia maszynowego w układach VLSI.

Sieci oparte na skokach nie mają idealnej pamięci, nie można mieć precyzyjnych wag. Zaproponowali wdrożenie wag biologicznych, synaps lub pamięci za pomocą kondensatorów, ale najwyraźniej napotyka problemy podobne do normalnych układów krzemowych, takie jak wyciek ładunku, a także inne nieidealności oparte na krzemie i z tego, co zrozumiałem, mogą również modelować ograniczone ciężary ( jak -1, 0, 1).

Obliczenia cyfrowe:

Tutaj pojawia się obliczenia cyfrowe. Zadania wymagające dużej liczby reprezentacji zmiennoprzecinkowej nie mogą być po prostu realizowane za pomocą skoków, ponieważ nie wiemy jeszcze, ani nie jesteśmy w stanie całkowicie naśladować biofizycznych lub jakichkolwiek aspektów prawdziwego neuronu w tym zakresie. Obliczenia cyfrowe po prostu pomagają w przekazywaniu większej ilości informacji z taką precyzją, jaką chcemy (jeśli zaprojektujemy taki procesor). Mimo że wąskie gardła są znaną wadą architektury von Neumanna w obliczeniach cyfrowych, nie stanowi to tak dużego problemu, jak reprezentacja informacji za pomocą skoków. Skoki zawsze mają ustaloną wielkość, jedynym sposobem, w jaki prawdopodobnie przekazuje informacje, jest ich częstotliwość i znak (pobudzający lub hamujący). Również prędkości zegara są dość wysokie we współczesnych komputerach.

Memristors: nowy kierunek

Oto najnowszy wynalazek, Memristor . To zdecydowanie najbardziej obiecujące urządzenie analogowe w uczeniu maszynowym. Memristory to bardzo nowa koncepcja przewidywana w latach 70. i wyprodukowana dopiero w 2008 r. Zasadniczo są to pamięci RAM lub Resisitive RAM. W tym rezystancja rezystora pamięci lub Memristor jest bezpośrednio związana z przeszłą bieżącą historią, która jest bardzo podobna do biofizycznych modeli neuronu. Można je również łatwo wyszkolić, korzystając z tablic poprzecznych (w zasadzie matrycy styków elektrycznych) pamięci (tablice poprzeczne będą reprezentować matryce wagowe, napięcie przykładane wzdłuż rzędów lub wzdłuż kolumn determinuje propagację do przodu lub do tyłu).

W ten sposób Memristor daje prawdziwy analogowy obrót algorytmom uczenia maszynowego. Niestety, ze względu na jego niedawne pojawienie się, istnieje wiele problemów, które wymagają jeszcze rozwiązania.

  • Memrystory mogą ulec degradacji dość szybko, tzn. Mają ograniczone cykle treningowe.
  • Memrystory wprowadzają dużo hałasu, co najwyraźniej nie pomaga w regularyzacji, jak mógłby pomyśleć inżynier ML.
  • Elementy egzotyczne wymagane do jego wykonania (T.jaO2) i H.faO2)) użytkownicy Memristors w kręgach akademickich są bardzo ograniczeni. Ale kilka laboratoriów pracujących nad tym obszarem to:

Laboratorium badawcze nanoelektroniki, Uniwersytet Purdue

Materiały elektrochemiczne, ETH Zurich

Projekt Ludzki mózg

MARCS Institute for Brain, Behavior and Development

Fotonika neuromorficzna:

Ostatnio pojawiło się zainteresowanie w dziedzinie fotoniki neuromorficznej. Oto krótki artykuł na ten sam temat. Nie jestem zaznajomiony z wewnętrznymi działaniami tego samego, ale AFAIK obejmuje przesyłanie informacji w formie optycznej w samym chipie przetwarzającym. Prowadzi to do niektórych korzyści w porównaniu z normalnymi obwodami analogowymi lub cyfrowymi:

  • Szybsze przetwarzanie informacji.
  • Wyższa gęstość informacji.
  • Lepsza wierność danych dzięki bardzo mniejszym stratom.
DuttaA
źródło
Uwaga dodatkowa: Niektóre z moich obserwacji opierają się na faktach, a niektóre pochodzą wyłącznie z pamięci, więc mogę się mylić (ponieważ jestem początkującym w tej dziedzinie). Wskaż błędy.
DuttaA,
2

Uważam, że większość ludzi właściwie rzetelnie odpowiedziała na to pytanie w naprawdę pouczający sposób. Chciałbym tylko powiedzieć, że powszechnie stosujemy obwody cyfrowe, ponieważ taka jest istniejąca technologia, a obwody analogowe zdecydowanie wydają się naprawdę obiecujące.

Jednak w tej chwili pomysł ten nie jest zbyt dobrze rozwinięty, pomimo ilości badań przeprowadzonych w ostatnich latach. Żadna firma do tej pory nie próbowała wdrożyć tego pomysłu na poziomie komercyjnym, gdzie produkuje takie układy do użytku poza laboratorium.

Poza tym pomysł ten wydaje się nowym podejściem i ma ogromny potencjał.

Ale z naszym niezrozumieniem, jak działają niektóre modele, niektóre po prostu nie stanowią problemu; jak sieci neuronowe naprawdę rozwiązują tak złożone problemy i wiele innych rzeczy. Dlatego wciąż jest to dość odległa technologia, aby osiągnąć swój pełny potencjał.

PS Nadal jestem początkującym w tej dziedzinie i uważam, że moja opinia się nie liczy, więc jeśli byłbym gdzieś zbędny lub nie dałem oczekiwanej odpowiedzi, szczerze żałuję.

użytkownik79161
źródło
Ta odpowiedź pokazuje myśl. Prawdą jest również to, że istniejąca technologia nie wykazuje tyle postępu w programowalnym analogowym VLSI, co cyfrowym. ... Nie wiadomo, jaki jest wynik badań i rozwoju amerykańskiej marynarki wojennej i kontroli analogowej DARPA, finansowanych od dziesięcioleci. Odtajniono tylko wstępne dokumenty. ICBM i technologia przeciwdziałania mogą być analogowymi obwodami inteligencji w zakresie 100 GHz. Albo nie. ... Twoje pismo nie było ani zbędne, ani naiwne. Z pewnością w otwartym kodzie technologie te dopiero zaczynają być widoczne. Dobra odpowiedź. Możesz zostawić go takim, jaki jest lub dalej go rozwijać.
FauChristian
2

Można również podejść do pytania z teorii teorii informacji:

Do wyboru są dwie kompromisy / zniżki:

Informacje analogowe, które mogą przedstawiać informacje w sposób bardziej precyzyjny / określony, ale ich ilość jest ograniczona.

Informacje cyfrowe, które nie w pełni odzwierciedlają rzeczywisty świat, ale mogą zawierać nieograniczoną ilość informacji w ciągu kilku bitów. Dobrym przykładem może być coś w rodzaju inkrementacji pętli:

i = 0
while True:
   print(i)
   i += 1

Który z nich jest wtedy silniejszy?

Aleksei Maide
źródło
To jest ogólnie prawda. Zastanów się, co to znaczy uczyć się w kontekście sztucznej inteligencji. Symulowaliśmy różne rodzaje uczenia się na maszynach poprzez systemy reguł z meta regułami, sztucznymi sieciami, rozszerzeniami łańcucha Markowa, logiką rozmytą oraz szeroką gamą innych technik i architektur. Kiedy ma miejsce uczenie się, istnieje pewien rodzaj optymalnego zachowania, które uczenie się próbuje zdobyć. W jaki sposób systemy analogowe lub cyfrowe mogą się łączyć lub śledzić (w czasie rzeczywistym) to optymalne zachowanie i które ma długoterminową przewagę?
FauChristian
1

Hava Siegelmann

Na pierwszy rzut oka informatyka analogowa jest lepsza od cyfrowej. Komputery kwantowe są szybsze niż komputery Von-Neumann, a układy neuromorficzne potrzebują mniej energii niż procesory Intel. Również z teoretycznego punktu widzenia wiele osób opowiada się za komputerami analogowymi. Hava Siegelmann badał zdolność sieci neuronowej do super-turinga, co oznacza, że ​​komputer analogowy może emulować komputer cyfrowy, ale nie na odwrót. Dlaczego więc nie powinniśmy korzystać z obliczeń analogowych?

Stephen Wolfram

Powód ma związek z systemem edukacji. Matematyka klasyczna nauczana w szkołach to matematyka analogowa. Opiera się na regułach slajdów, tabeli logarytmicznej i myśleniu w obwodach. Przeciwnie, myślenie w dyskretnych wartościach algorytmu i opisywanie świata w zera, a te są fundamentalnie różne i prowadzą nas do nowego rodzaju matematyki. Stephen Wolfram wyjaśnił, że zrozumienie automatów komórkowych jest ważnym krokiem do opisu wszechświata i ma rację. Ignorowanie matematyki analogowej i preferowanie języków komputerowych zdolnych do opanowania jest potężną metodą w edukacji. Pomaga nie tylko zapoznać się z komputerami, ale także ze wszystkimi innymi rzeczami, takimi jak medycyna, literatura i ekonomia. Nawet jeśli maszyny analogowe są technicznie lepsze, powinniśmy preferować wolne, ale dyskretne maszyny Turinga,

Nauczanie matematyki

Aby zrozumieć różnicę między obliczeniami cyfrowymi i analogowymi, musimy skupić się na samej matematyce wykorzystywanej w szkołach. Jeśli chodzi o przyspieszenie obliczeń analogowych, odpowiedni rodzaj matematyki jest zgrupowany wokół pól elektrycznych, integracji i różnicowania. W szkołach uczy się tego pod ogólnym pojęciem „Analiza matematyczna”. Temat ten był bardzo ważny w przeszłości, ponieważ analiza pomaga budować mosty, maszyny i samochody. We wszystkich tych domenach używana jest algebra wektorowa do opisu przestrzeni geometrycznej.

Jeśli obliczenia analogowe są tak potężne, dlaczego ktoś potrzebuje cyfrowej matematyki? Ma to związek z algorytmem. Planimetr i analizator różnicowy nie mają do zaoferowania możliwości programowania. Nie można zdefiniować algorytmów i sztucznych języków. Spojrzenie na historię matematyki pokazuje, że teoria algorytmów nie była zbyt powszechna w przeszłości. We współczesnej matematyce jest to omawiane pod pojęciem rachunku Lambda i problemu Haltinga .

Zabawne jest to, że rachunek Lamdy na pierwszy rzut oka nie ma praktycznych zastosowań. Nie jest potrzebne, jeśli ktoś chce obliczyć powierzchnię mostu. Teoria algorytmów jest szkołą myśli służącą do poprawy krytycznego myślenia. Jest to filozofia potrzebna ludziom, a nie maszynom.

Manuel Rodriguez
źródło
Miło, że wspomniałeś o Seigelmann. Drugi akapit trudno jest logicznie przestrzegać. Z pewnością edukacja ma zasadnicze znaczenie dla tego pytania, a sekwencjonowanie DNA i obrazowanie cyfrowe zdecydowanie poprawiły medycynę. Czy możesz wyjaśnić, jak poprawiła się literatura? Niektórzy twierdzą, że cyfrowe przetwarzanie danych pogorszyło zmienność gospodarki, ale ma zasadnicze znaczenie dla nagród, dlatego ktoś wolałby wolną dyskretną niż szybką ciągłą, nie wynika z oświadczenia Wolframa. Nie ma też odniesienia do tego oświadczenia. Czy możesz podać odniesienie i podać brakującą logikę?
FauChristian