Czy są jakieś heurystyki dla optymalizacji metody sukcesywnej nadmiernej relaksacji (SOR)?

10

Jak rozumiem, sukcesywne nad relaksacją działa poprzez wybranie parametru i użycie liniowej kombinacji (quasi) iteracji Gaussa-Seidela i wartości w poprzednim kroku czasu ... 0ω2

uk+1=(ω)ugsk+1+(1ω)uk

Podaję „quasi”, ponieważ zawiera najnowsze informacje zaktualizowane zgodnie z tą zasadą, w dowolnym momencie. (zauważ, że dla jest to dokładnie gauss-seidel). ugsk+1ω=1

W każdym razie przeczytałem, że przy optymalnym wyborze dla (takiego, że iteracja zbiega się szybciej niż jakikolwiek inny) zbliża się 2 do problemu poissona, gdy rozdzielczość przestrzenna zbliża się do zera. Czy istnieje podobny trend w przypadku innych symetrycznych, dominujących po przekątnej problemów? Czy istnieje sposób optymalnego wyboru omegi bez osadzania jej w adaptacyjnym schemacie optymalizacji? Czy istnieją inne heurystyki dla innych rodzajów problemów? Jakie problemy byłyby zbyt niskie ( ) optymalne?ωω<1

Paweł
źródło
Nie do końca twoje pytanie, ale patrz Salakhutdinov i Roweis, Adaptive Overrelaxed Bound Optimization Methods 2003, 8 str. ( Przyspieszenia adaptacyjne mają wysoki huk na złotówkę, ale nie można ich analizować, więc nie na temat tutaj.)
den

Odpowiedzi:

12

Tłumione Jacobi

Załóżmy, że macierz ma przekątnej . Jeśli widmo leży w przedziale dodatniej osi rzeczywistej, to macierz iteracji Jacobiego ze współczynnikiem tłumienia ma widmo w zakresie , więc minimalizacja promienia widmowego za pomocą daje współczynnik zbieżności Jeśli , to ten współczynnik konwergencji jest bardzo słaby, zgodnie z oczekiwaniami. Zauważ, że stosunkowo łatwo jest oszacowaćADD1A[a,b]ω

BJacobi=IωD1A
[1ωb,1ωa]
ωopt=2a+b
ρopt=12aa+b=baa+b.
abbstosując metodę Kryłowa, ale dość drogie oszacować .a

Sukcesywna nadmierna relaksacja (SOR)

Young (1950), okazały się optymalnego wyniku dla SOR stosowane do matryc z tak zwanego WŁASNOŚCI , spójnej kolejności , a dodatnie rzeczywiste wartości własne . Biorąc pod uwagę maksymalną wartość własną niehamowanej macierzy iteracji Jacobi ( jest zagwarantowane przez założenia w tym przypadku), optymalnym współczynnikiem tłumienia dla SOR jest co daje współczynnik konwergencji Zauważ, że zbliża się do 2, gdy .D1AμmaxID1Aμmax<1

ωopt=1+(μmax1+1μmax2)2
ρopt=ωopt1.
ωoptμmax1

Komentarze

To już nie jest 1950 rok i naprawdę nie ma sensu używać stacjonarnych metod iteracyjnych jako solverów. Zamiast tego używamy ich jako wygładzaczy dla wielu sieci. W tym kontekście dbamy tylko o górną granicę spektrum. Optymalizacja współczynnika relaksacji w SOR powoduje, że SOR wytwarza bardzo małe tłumienie wysokich częstotliwości (w zamian za lepszą zbieżność na niższych częstotliwościach), dlatego zwykle lepiej jest używać standardowego Gaussa-Seidela, odpowiadającego w SOR. W przypadku problemów niesymetrycznych i problemów o bardzo zmiennych współczynnikach, słabo zrelaksowany SOR ( ) może mieć lepsze właściwości tłumiące.ω=1ω<1

Szacowanie obu wartości własnych jest drogie, ale największą wartość własną można szybko oszacować za pomocą kilku iteracji Kryłowa. Wygładzacze wielomianowe (wstępnie przygotowane z Jacobi) są bardziej skuteczne niż wielokrotne iteracje tłumionego Jacobi i są łatwiejsze do skonfigurowania, więc powinny być preferowane. Zobacz tę odpowiedź, aby uzyskać więcej informacji na temat wygładzaczy wielomianowych.D1A

Czasami twierdzi się, że SOR nie powinien być stosowany jako warunek wstępny dla metod Kryłowa, takich jak GMRES. Wynika to z obserwacji, że optymalny parametr relaksacji powinien umieścić wszystkie wartości własne macierzy iteracji na kole wyśrodkowany na początku. Spektrum kondycjonowanego operatora

BSOR=1(1ωD+L)1A
(1ωD+L)1Ama wartości własne na kole o tym samym promieniu, ale wyśrodkowane na 1. W przypadku słabo uwarunkowanych operatorów promień koła jest dość bliski 1, więc GMRES widzi wartości własne bliskie źródłu pod pewnym kątem, co zwykle nie jest dobre dla konwergencji. W praktyce GMRES może racjonalnie zbiegać się po przygotowaniu z SOR, szczególnie w przypadku problemów, które są już dość dobrze uwarunkowane, ale inne warunki wstępne są często bardziej skuteczne.
Jed Brown
źródło
4
Zgadzam się, że to już nie jest rok 1950: o) nie zgadzam się jednak, że nie ma sensu używać iteracyjnych rozwiązań solvera. Wydajność podręczników wieloskładnikowych możemy osiągnąć za pomocą stacjonarnego solvera iteracyjnego dla inżynieryjnego solvera aplikacyjnego opartego na rozwiązaniach nieliniowych o swobodnej powierzchni wysokiego rzędu (zarówno równania przepływu potencjalnego, jak i równania eulera). Wydajność była tak dobra, jak wstępnie przygotowana metoda podprzestrzeni krylov GMRES z osiągalną dokładnością (nasz najnowszy pub znajduje się tutaj onlinelibrary.wiley.com/doi/10.1002/fld.2675/abstract służący jako dowód koncepcji).
Allan P. Engsig-Karup
1
Używasz Gaussa-Seidla jako płynniejszej dla wielosieciowej (do której należą metody takie jak SOR). Jeśli multigrid działa dobrze, zewnętrzna metoda Kryłowa również nie jest konieczna (chociaż twoje opracowanie nie pokazuje tych porównań). Gdy tylko multigrid zaczyna tracić efektywność (np. Więcej niż 5 iteracji, aby osiągnąć błąd dyskretyzacji), zwykle warto owijać metodę Kryłowa wokół cyklu multigrid.
Jed Brown
Cała metoda jest p-multigrid z wygładzaniem typu GS, jednak kompletną metodę można zapisać jako stacjonarną metodę iteracyjną, ponieważ wszystkie operatory są stałe. Możesz go zobaczyć jako wstępnie kondycjonowaną metodę Richardsona, a M - kondycjoner zbudowany z metody wielosiatkowej. Analiza została wykonana, ale nie została jeszcze opublikowana. W rzeczywistości praca ta poszła w innym kierunku, który proponujecie. Metodę krylowa w tej pracy (GMRES) odrzucono, a następnie przekształcono ją w wielopoziomową metodę wyższego rzędu, ponieważ stwierdziliśmy, że była ona równie wydajna (i przy zmniejszonych wymaganiach pamięci).
Allan P. Engsig-Karup
Zastosowanie - i -multigrid jest oczywiście niezależne od tego, czy na zewnątrz stosowana jest metoda Kryłowa. Względne koszty różnych operacji są oczywiście różne dla procesorów graficznych w porównaniu do procesorów, a implementacje są zmienne. Wstępnie przygotowany Richardson to tylko metoda korekcji wad. Podobnie są metody nieliniowe Newtona i Picarda (jeśli są zapisane jako takie). Inne metody nieliniowe (NGMRES, BFGS itp.) Również wykorzystują historię i mogą być lepsze w zależności od względnej siły nieliniowości. php
Jed Brown
Należy zauważyć, że w wygładzaczach wielosieciowych czasem lepiej jest (jeśli pozwala na to architektura), aby multipleksowanie sprzężeń wysokiego / niskiego rzędu było zwielokrotnione. To także rozszerza formułę „wstępnie kondycjonowanego Richardsona”. (W zeszłym tygodniu rozmawiałem na konferencji z facetem, który chciał postrzegać zasadniczo wszystkie metody jako warunkowo przygotowane Richardson z iteracją zagnieżdżoną, co nie uważam za szczególnie korzystne w porównaniu z innymi stwierdzeniami dotyczącymi składu solvera. Nie wiem, czy to jest istotne dla ciebie, ale twoje uwagi przypomniały mi o dyskusji).
Jed Brown