KKT w pigułce graficznie

13

Cel

Potwierdź, czy rozumienie KKT jest prawidłowe, czy nie. Szukaj dalszych wyjaśnień i potwierdzeń w KKT.

tło

Próbowanie zrozumienia warunków KKT, szczególnie tych uzupełniających, które zawsze pojawiają się niespodziewanie w artykułach SVM. Nie potrzebuję listy abstrakcyjnych wzorów, ale potrzebuję konkretnego, intuicyjnego i graficznego wyjaśnienia.

Pytanie

Jeśli P, który minimalizuje funkcję kosztu f (X), znajduje się wewnątrz ograniczenia (g (P)> = 0), jest to rozwiązanie. Wygląda na to, że KKT nie ma znaczenia w tym przypadku.

wprowadź opis zdjęcia tutaj

Wygląda na to, że KKT mówi, że jeśli P nie znajduje się w wiązaniu, wówczas rozwiązanie X powinno spełniać poniższe zdjęcie. Czy chodzi o KKT, czy brakuje mi innych ważnych aspektów?

wprowadź opis zdjęcia tutaj

Inne wyjaśnienia

  1. Czy f (x) powinno być wypukłe, aby zastosować KKT?
  2. Czy g (x) powinno być liniowe, aby zastosować KKT?
  3. Czy λ powinno być konieczne w λ * g (X) = 0? Dlaczego g (X) = 0 lub g (Xi) = 0 to za mało?

Bibliografia


Aktualizacja 1

Dziękuję za odpowiedzi, ale wciąż nie mogę zrozumieć. Skoncentruj się na konieczności tylko tutaj:

Czy warunek (2) w odpowiedzi Matthew Gunna na temat nieoptymalnego punktu (w zielonym kółku) i KKT nie będzie tam spełniony? A kwestię tę można zidentyfikować, patrząc na Hesjan jako na odpowiedź Marka L. Stone'a?

Przypuszczam, że inną sytuacją są punkty siodłowe, ale to samo dotyczy?

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj użytkownik23658

pon
źródło
1
To pytanie może zwrócić większą uwagę na stronie matematyki; Warunki KKT niekoniecznie są „statystyczne”. Statystycy pożyczają te i inne wyniki analizy numerycznej w celu rozwiązania interesujących problemów statystycznych, ale jest to raczej pytanie matematyczne.
user23658
1
(1) Jeśli ograniczenia nie wiążą się, problem optymalizacji z ograniczeniami ma takie samo rozwiązanie jak problem optymalizacji bez ograniczeń. (2) Ani nie musi być wypukły, ani nie musi być liniowy, aby warunki KKT były optymalnie konieczne. (3) Potrzebujesz specjalnych warunków (np. Problem wypukły, gdy utrzymuje się Slater), aby warunki KKT były wystarczające do uzyskania optymalnego. gfg
Matthew Gunn
2
Podstawową ideą uzupełniającego warunku luzu (tj. gdzie jest ograniczeniem) jest to, że jeśli ograniczenie jest luźne (tj. ) przy optymalnym , wówczas kara za zaostrzenie ograniczenia wynosi 0. A jeśli istnieje dodatnia kara za zaostrzenie ograniczenia, wówczas ograniczenie musi być wiążące (tj. ). Jeśli ruch odbywa się płynnie, opłata za przejazd mostem dla innego samochodu wynosi zero. A jeśli opłata za przejazd mostem , wówczas most musi znajdować się na granicy pojemności.g ( x ) 0 g ( x ) < 0 x λ λ g ( x ) = 0 λ λ > 0λg(x)=0g(x)0g(x)<0xλλg(x)=0λλ>0
Matthew Gunn
1
Podstawowe twierdzenie KKT mówi, że jeśli warunki KKT nie są spełnione w punkcie , to punkt nie jest optymalny. Warunki KKT są niezbędne dla optymalnego, ale niewystarczającego. (Na przykład, jeśli funkcja ma punkty siodłowe, lokalne minima itp. ... warunki KKT mogą być spełnione, ale punkt nie jest optymalny!) W przypadku niektórych klas problemów (np. Problem wypukły, w którym występuje stan Slatera), KKT warunki stają się wystarczającymi warunkami. xxx
Matthew Gunn

Odpowiedzi:

8

xδfxx

Wyobraź sobie, że masz problem z optymalizacją:

minimize (over x)f(x)subject toj{1k}gj(x)0

Gdzie i istnieje ograniczeń.xRnk

Warunki KKT i Farkas Lemma

Niech będzie wektorem kolumnowym oznaczającym gradient obliczony w .f(x)fx

W tej sytuacji Farkas Lemma stwierdza, że ​​dla dowolnego punktu dokładnie jedna z następujących instrukcji:xRn

  1. Istnieje taki, że iλRkj=1kλjgj(x)=f(x)λ0
  2. Istnieje taki, że iδRnjδgj(x)0δf(x)<0

Co to znaczy? Oznacza to, że dla każdego możliwego punktu :x

  • Warunek (1) zostaje zachowany, a warunki KKT są spełnione.
  • Warunek (2) obowiązuje i istnieje możliwy kierunek który poprawia funkcję celu bez zwiększania ograniczeń . (np. możesz poprawić , przechodząc z do )δfgjfxx+ϵδ

Warunek (1) stwierdza, że ​​istnieją nieujemne mnożniki dzięki czemu warunki KKT są spełnione w punkcie . (Geometrycznie mówi się, że leży w wypukłym stożku określonym przez gradienty wiązań).λxf

Warunek (2) stwierdza, że ​​w punkcie istnieje kierunek aby przenieść (lokalnie), tak aby:xδ

  • Poruszanie się w kierunku zmniejsza funkcję celu (ponieważ iloczyn iloczynu i jest mniejszy od zera).δf(x)δ
  • Poruszanie się w kierunku nie zwiększa wartości ograniczeń (ponieważ iloczyn iloczynu i jest mniejszy lub równy zero dla wszystkich ograniczenia ).δgj(x)δj

(Geometrycznie możliwy kierunek definiuje oddzielającą hiperpłaszczyznę między wektorem a wypukłym stożkiem zdefiniowanym przez wektory .)δf(x)gj(x)

(Uwaga: aby zamapować to na Farkas Lemma , zdefiniuj macierz )A=[g1,g2,,gk]

Ten argument wskazuje na konieczność (ale nie wystarczalność) warunków KKT w optymalny sposób. Jeśli warunki KKT nie są spełnione (i spełnione są kwalifikacje ograniczeń), możliwe jest ulepszenie celu bez naruszania ograniczeń.

Rola kwalifikacji ograniczających

Co może pójść źle? Możesz uzyskać zdegenerowane sytuacje, w których gradienty wiązań nie opisują dokładnie możliwych kierunków ruchu.

Istnieje wiele różnych kwalifikacji ograniczeń do wyboru, które pozwolą na działanie powyższego argumentu.

Minimalna, maksymalna interpretacja (imho najbardziej intuicyjna)

Utwórz Lagrangian

L(x,λ)=f(x)+j=1kλjgj(x)

Zamiast minimalizować podlegające ograniczeniom , wyobraź sobie, że próbujesz zminimalizować podczas gdy jakiś przeciwnik próbuje go zmaksymalizować. Mnożniki można interpretować jako kary (wybrane przez niektórych przeciwników) za naruszenie ograniczeń. g j L λ ifgjLλi

Rozwiązanie pierwotnego problemu optymalizacji odpowiada:

minxmaxλL(x,λ)

To jest:

  1. Najpierw wybierasz aby zminimalizować Lagrangian , wiedząc, że ...xL
  2. Następnie aby zmaksymalizować Lagrangian (obserwując twój pick ).λx

Na przykład, jeśli naruszysz ograniczenie , mogę cię ukarać, ustawiając na nieskończoność!g2λ2

Słaba dualność

W przypadku dowolnej funkcji zauważ, że:f(x,y)

x^,y^minxf(x,y^)f(x^,y^)maxyf(x^,y)

Ponieważ odnosi się to do każdego i to również, że: x^y^

maxyminxf(x,y)minxmaxyf(x,y)

W ustawieniach Langriana ten wynik jest taki, że jest znany jako słaba dualność.maxλminxL(x,λ)minxmaxλL(x,λ)

Podwójny problem daje ci dolną granicę rozwiązaniamaxλminxL(x,λ)

Silna dualność

W pewnych szczególnych warunkach (np. Problem wypukły, gdy utrzymuje się stan Slatera), masz silną dualność (tj. Właściwość punktu siodłowego).

maxλminxL(x,λ)=minxmaxλL(x,λ)

Ten piękny wynik oznacza, że ​​możesz odwrócić kolejność problemu.

  1. Najpierw wybieram kary aby zmaksymalizować Lagrangian.λ

  2. Następnie wybierz aby zminimalizować Lagrangian .L.xL

zestaw w tym procesie są cenami za naruszenie ograniczeń, a ceny są ustawione tak, że nigdy nie będzie naruszać ograniczeń.λ

Matthew Gunn
źródło
Doceń informacje i linki, aby wypełnić luki w zrozumieniu. Pozwól mi potwierdzić. Warunek (1) oznacza, że ​​KKT mówi, że punkt X jest rozwiązaniem, musi spełniać λ * g (X) = 0, λ> = 0, a długość gradientu g (X) wynosi λ razy że f (X), w przeciwnym razie znajdziemy gradient punktu f (X), w którym można znaleźć mniejsze f (X ')?
pon.
3
Slater warunek jest (tylko) kwalifikacją ograniczenia, którą można zastosować do wypukłych problemów optymalizacyjnych, tzn. Czyni koniecznym KKT. Wypukłość sprawia, że ​​KKT jest wystarczający. Tak więc spowolnienie warunku dla problemu optymalizacji wypukłej, w którym funkcja celu i ograniczenia są wypukłe i ciągle różnicowalne, sprawia, że ​​KKT jest konieczne i wystarczające dla globalnego minimum. Późniejszy warunek polega na tym, że istnieje co najmniej jeden możliwy do wykonania punkt (tj. Spełnienie wszystkich ograniczeń), który znajduje się w ścisłym wnętrzu wszystkich ograniczeń nieliniowych (wszystko idzie z ograniczeniami liniowymi, o ile jest to wykonalne).
Mark L. Stone
5

f (x) wypukłość jest konieczna, aby KKT było wystarczające, aby x był lokalnym minimum. Jeśli f (x) lub -g (x) nie są wypukłe, x spełniające KKT może być albo lokalnym minimum, punktem pośrednim, albo lokalnym maksimum.

g (x) jest liniowy, a f (x) jest ciągle różnicowalny, wystarczy, aby warunki KKT były konieczne dla lokalnego minimum. g (x) jest liniowy, oznacza to, że spełniono kwalifikację ograniczenia liniowości, aby KKT był niezbędny dla lokalnego minimum. Istnieją jednak inne mniej restrykcyjne kwalifikacje ograniczeń, które są wystarczające, aby warunki KKT były konieczne dla lokalnego minimum. Zobacz sekcję Warunki regularności (lub kwalifikacje ograniczeń) w https://en.wikipedia.org/wiki/Karush%E2%80%93Kuhn%E2%80%93Tucker_conditions .

Jeśli lokalne minimum nie ma żadnych „aktywnych” ograniczeń (więc w przypadku tylko ograniczenia nierówności, ograniczenie to nie jest spełnione z równością), mnożniki Lagrange'a związane z takimi ograniczeniami muszą wynosić zero, w takim przypadku KKT sprowadza się do warunku, że gradient celu = 0. W takim przypadku zerowy „koszt” optymalnej wartości obiektywnej zaostrzenia ograniczenia epsilon.

Więcej informacji :

Funkcja celu i ograniczenia są wypukłe, a ciągłe różnicowanie oznacza, że ​​KKT jest wystarczające dla globalnego minimum.

Jeśli funkcja celu i ograniczenia są ciągle rozróżnialne, a ograniczenia spełniają kryteria kwalifikacji, KKT jest konieczne dla lokalnego minimum.

Jeśli funkcja celu i ograniczenia są ciągle różnicowalne, wypukłe, a ograniczenia spełniają kryteria kwalifikacji, KKT jest konieczne i wystarczające dla globalnego minimum.

Powyższa dyskusja w rzeczywistości dotyczy tylko warunków KKT 1. rzędu. Istnieją również warunki KKT drugiego rzędu, które można określić jako: Punkt spełniający warunki KKT 1 rzędu i dla którego funkcja celu i ograniczenia są dwa razy ciągle różnicowalne, jest (wystarcza) dla lokalnego minimum, jeżeli Hesjan z Lagrangian rzutuje na zerowa przestrzeń jakobianów aktywnych wiązań jest dodatnia półfinałowa. (Pozwolę ci spojrzeć na terminologię użytą w poprzednim zdaniu.) Pozwalając, aby była podstawą zerowej przestrzeni jakobianów aktywnych wiązań, warunkiem KKT drugiego rzędu jest to, że jest dodatnie , gdzieZ T H Z H ZZZTHZHjest Hesjanem z Lagrangian. Aktywne ograniczenia obejmują wszystkie ograniczenia równości oraz wszystkie ograniczenia nierówności, które są spełnione z równością w rozpatrywanym punkcie. Jeśli żadne ograniczenia nie są aktywne w rozważanym punkcie KKT 1. rzędu, macierz tożsamości jest podstawą zerową , a wszystkie mnożniki Lagrange'a muszą wynosić zero, dlatego warunek konieczny drugiego rzędu dla lokalnego minimum zmniejsza się do znanego warunku z nieograniczonej optymalizacji że Hesjan funkcji celu jest dodatni półokreślony. Jeśli wszystkie ograniczenia są liniowe, Hesjan z Lagrangian = Hesjan funkcji celu, ponieważ druga pochodna funkcji liniowej = 0.Z

Mark L. Stone
źródło