Jałowe płaskowyże w krajobrazach treningowych sieci neuronowej

9

Tutaj autorzy twierdzą, że wysiłki stworzenia skalowalnej kwantowej sieci neuronowej przy użyciu zestawu sparametryzowanych bramek uznaje się za nieudane dla dużej liczby kubitów. Wynika to z faktu, że z powodu lematu Levy'ego gradient funkcji w przestrzeniach o dużych wymiarach jest wszędzie prawie zerowy.

Zastanawiałem się, czy ten argument można zastosować również do innych hybrydowych kwantowo-klasycznych metod optymalizacji, takich jak VQE (Variational Quantum Eigensolver) lub QAOA (Quantum Approximate Optimization Al Algorytm).

Co myślisz?

asdf
źródło
„za pomocą zestawu parametryzowanych bramek” Jaki zestaw? Czy to przypadek?
rrtucci
Artykuł napisał Jarrod McClean, który jest także pionierem VQE. Wyobrażam sobie, że Jarrod nie wierzy, że VQE uważa się za porażkę w większej liczbie kubitów. Myślę, że twój opis Lemmy Levy'ego jest nieco inny niż sugeruje to artykuł. Mówicie, że „gradient funkcji w przestrzeniach wielowymiarowych jest wszędzie prawie zerowy”, ale artykuł mówi tylko, że dzieje się tak w szczególnym kontekście QNN opisanych w artykule.
user1271772,
Aby rozwinąć nieco mój ostatni komentarz: Można po prostu zbudować funkcję wielowymiarową, która zmienia się bardzo szybko wszędzie, nie będzie miała wszędzie gradientu „prawie zero”. Wniosek oparty na lemacie Levy'ego w artykule dotyczy konkretnej funkcji, którą optymalizują, a nie „żadnej” funkcji w przestrzeni o dużych wymiarach.
user1271772,
1
@asdf: Po spędzeniu większości dnia na przeglądaniu gazety w końcu znalazłem odpowiedź dla ciebie. Spójrz.
user1271772

Odpowiedzi:

4

Po pierwsze : praca odnosi się do [ 37 ] lematu Levy'ego, ale nie ma wzmianki o „lemie Levy'ego” w [37]. Znajdziesz go nazywano „Levy'ego Nierówność”, który nazywany jest Lemat Levy w to , co jest nie cytowane w dokumencie można wymienić.

Po drugie : istnieje prosty dowód, że twierdzenie to jest fałszywe w przypadku VQE. W chemii kwantowej optymalizujemy parametry funkcji falowej ansatz|Ψ(p)w celu uzyskania najniższej (tj. najdokładniejszej) energii. Energia jest oceniana przez:

mip=Ψ(p)|H.|Ψ(p)Ψ(p)|Ψ(p).

VQE oznacza po prostu, że używamy komputera kwantowego do oceny tej energii, a klasycznego komputera do wyboru, w jaki sposób poprawić parametry p tak, że energia będzie niższa w następnej iteracji kwantowej.

Tak więc, czy gradient będzie wynosił 0, prawie wszędzie, gdy liczba parametrów w pjest duży "nie zależy wcale od tego, czy używamy VQE (na komputerze kwantowym), czy po prostu uruchamiamy standardowy program chemii kwantowej (np. Gaussa ) na klasycznym komputerze. Chemicy kwantowi zazwyczaj optymalizują zmiennie powyższą energię z maksymalnie1010 parametry w p, a jedynym powodem, dla którego nie wykraczamy poza to, jest to, że kończy nam się pamięć RAM, a nie dlatego, że krajobraz energii zaczyna się wyrównywać. W tym artykule można zobaczyć na końcu streszczenia, że ​​obliczyli energię dla funkcji falowej z około1012parametry , gdzie parametry są współczynnikami wyznaczników Slatera. Powszechnie wiadomo, że krajobraz energetyczny nie jest tak płaski (tak jakby byłby, gdyby gradient wynosił 0 prawie wszędzie), nawet jeśli istnieją tryliony parametrów lub nawet więcej.

Wniosek : Zastosowanie Lemmy Levy'ego będzie zależeć od konkretnego krajobrazu energetycznego, który masz, który będzie zależał od obu H. i twój ansatz |Ψ(p). W przypadku ich szczególnej implementacji QNN, stwierdzili, że zastosowanie Lemmy Levy'ego jest odpowiednie. W przypadku VQE mamy kontrprzykład na twierdzenie, że lemat Levy'ego „zawsze” ma zastosowanie. Przeciwnym przykładem, w którym Lemma Levy'ego nie ma zastosowania, jest czasH.jest molekularnym hamiltonianem i|Ψjest funkcją falową CI .

użytkownik1271772
źródło