Próbuję zrozumieć, jak działa metoda optymalizacji oparta na sprzężeniu dla optymalizacji ograniczonej przez PDE. W szczególności staram się zrozumieć, dlaczego metoda łączenia jest bardziej wydajna w przypadku problemów, w których liczba zmiennych projektowych jest duża, ale „liczba równań jest niewielka”.
Co rozumiem:
Rozważ następujący problem optymalizacji ograniczonej przez PDE:
gdzie jest (wystarczająco ciągłą) funkcją celu wektorowych zmiennych projektowych i wektora zmiennych polowych nieznanych które zależą od zmiennych projektowych, a jest resztową postacią PDE.
Oczywiście możemy pierwsze odmiany I i R jako
Wprowadzając wektor mnożników Lagrange'a , zmienność funkcji celu można zapisać jako
Zmieniając warunki, możemy napisać:
Zatem jeśli jesteśmy w stanie rozwiązać dla takie, że
Następnie gradient oceniano tylko pod względem zmiennych projektowych .
Dlatego algorytm optymalizacji oparty na sprzężeniu zapętlałby następujące kroki:
- Biorąc pod uwagę aktualne zmienne projektowe
- Rozwiąż dla zmiennych pola (z PDE)
- Rozwiąż mnożniki Lagrange'a (z równania sąsiadującego)
- Oblicz gradienty
- Zaktualizuj zmienne projektowe
Moje pytanie
W jaki sposób ta przylegająca „sztuczka” poprawia koszt optymalizacji na iterację w przypadku, gdy liczba zmiennych projektowych jest duża? Słyszałem, że koszt oceny gradientu dla metody łączenia jest „niezależny” od liczby zmiennych projektowych. Ale jak dokładnie to prawda?
Jestem pewien, że coś bardzo oczywistego przeoczyłem.
źródło
Odpowiedzi:
Myślę o koszcie z perspektywy algebry liniowej. (Zobacz te notatki Stephena G. Johnsona , które uważam za bardziej intuicyjne niż mnożnik Lagrange'a). Podejście przyszłościowe polega na bezpośrednim rozwiązaniu problemu wrażliwości:
który polega na rozwiązaniu układu liniowego dla każdego parametru w wektorze , a następnie ocenieβ
gdzie oznacza całkowitą pochodną, a oznacza pochodną częściową.d ∂
Podejście sąsiednie zauważa, że
więc zmienna przylegająca (mnożnik Lagrange'a) może być zdefiniowana przezλ
co odpowiada równaniu sąsiadującemu
To przegrupowanie terminów wymaga tylko jednego liniowego rozwiązania zamiast liniowego rozwiązania dla każdego parametru, co sprawia, że ocena przyłączy jest tania w przypadku wielu parametrów.
Nie jest całkowicie niezależny; przypuszczalnie koszt oceny i wzrośnie wraz z liczbą parametrów. Rozwiązania liniowe będą jednak nadal tego samego rozmiaru, o ile rozmiar się nie zmieni. Zakłada się, że rozwiązania są znacznie droższe niż oceny funkcji.(∂I/∂β) (∂R/∂β) u
źródło
W skrócie, korzyść wynika z faktu, że aby obliczyć pochodne zredukowanego celu , tak naprawdę nie musisz znać pochodnej w odniesieniu do jako osobny obiekt, ale tylko ta jego część, która prowadzi do zmian w .I(β,u(β)) u(β) β I(β,u(β))
Przejdźmy do notacji Czuję się bardziej komfortowo z: ( jest zmienna projektowa, jest zmienną stanu, a jest celem). Powiedzmy, że jest wystarczająco ładne, aby zastosować twierdzenie o funkcji niejawnej, więc równanie ma unikalne rozwiązanie które jest stale różnicowalne względem , i pochodna jest podane przez rozwiązanie ( i są pochodnymi częściowymi) .
Oznacza to, że możesz zdefiniować zredukowany cel , który również jest różniczkowalny (jeśli jest). Jednym ze sposobów scharakteryzowania gradientu są pochodne kierunkowe (np. Obliczenie wszystkich pochodnych cząstkowych w odniesieniu do podstawy przestrzeni projektowej). W tym przypadku pochodną kierunkową w kierunku podaje reguła łańcucha jako Jeśli jest fajny, jedyną trudną rzeczą do obliczenia jest dla danego . Można tego dokonać mnożąc przezj(u):=J(y(u),u) J(y,u) ∇j(u) h
Jeśli jednak znajdziemy operator taki, że to musi to być pożądany gradient. Patrząc na , możemy napisać (gdzie jest operatorem sąsiednim), więc wystarczy obliczyć . Używając tego , można to zrobić za pomocą , tj. i ustawienie W optymalizacji ograniczonej przez PDE,∇j
źródło