Cel
Potwierdź, czy rozumienie KKT jest prawidłowe, czy nie. Szukaj dalszych wyjaśnień i potwierdzeń w KKT.
tło
Próbowanie zrozumienia warunków KKT, szczególnie tych uzupełniających, które zawsze pojawiają się niespodziewanie w artykułach SVM. Nie potrzebuję listy abstrakcyjnych wzorów, ale potrzebuję konkretnego, intuicyjnego i graficznego wyjaśnienia.
Pytanie
Jeśli P, który minimalizuje funkcję kosztu f (X), znajduje się wewnątrz ograniczenia (g (P)> = 0), jest to rozwiązanie. Wygląda na to, że KKT nie ma znaczenia w tym przypadku.
Wygląda na to, że KKT mówi, że jeśli P nie znajduje się w wiązaniu, wówczas rozwiązanie X powinno spełniać poniższe zdjęcie. Czy chodzi o KKT, czy brakuje mi innych ważnych aspektów?
Inne wyjaśnienia
- Czy f (x) powinno być wypukłe, aby zastosować KKT?
- Czy g (x) powinno być liniowe, aby zastosować KKT?
- Czy λ powinno być konieczne w λ * g (X) = 0? Dlaczego g (X) = 0 lub g (Xi) = 0 to za mało?
Bibliografia
- Lagrange Multipler KKT stan
- Czy każdy punkt rynny w SVM ma dodatni mnożnik?
- http://fnorio.com/0136Lagrange_method_of_undetermined_multipliers/Lagrange_method_of_undetermined_multipliers.html
Aktualizacja 1
Dziękuję za odpowiedzi, ale wciąż nie mogę zrozumieć. Skoncentruj się na konieczności tylko tutaj:
Czy warunek (2) w odpowiedzi Matthew Gunna na temat nieoptymalnego punktu (w zielonym kółku) i KKT nie będzie tam spełniony? A kwestię tę można zidentyfikować, patrząc na Hesjan jako na odpowiedź Marka L. Stone'a?
Przypuszczam, że inną sytuacją są punkty siodłowe, ale to samo dotyczy?
Odpowiedzi:
Wyobraź sobie, że masz problem z optymalizacją:
Gdzie i istnieje ograniczeń.x∈Rn k
Warunki KKT i Farkas Lemma
Niech będzie wektorem kolumnowym oznaczającym gradient obliczony w .∇f(x) f x
W tej sytuacji Farkas Lemma stwierdza, że dla dowolnego punktu dokładnie jedna z następujących instrukcji:x∈Rn
Co to znaczy? Oznacza to, że dla każdego możliwego punktu :x
Warunek (1) stwierdza, że istnieją nieujemne mnożniki dzięki czemu warunki KKT są spełnione w punkcie . (Geometrycznie mówi się, że leży w wypukłym stożku określonym przez gradienty wiązań).λ x −∇f
Warunek (2) stwierdza, że w punkcie istnieje kierunek aby przenieść (lokalnie), tak aby:x δ
(Geometrycznie możliwy kierunek definiuje oddzielającą hiperpłaszczyznę między wektorem a wypukłym stożkiem zdefiniowanym przez wektory .)δ −∇f(x) ∇gj(x)
(Uwaga: aby zamapować to na Farkas Lemma , zdefiniuj macierz )A=[∇g1,∇g2,…,∇gk]
Ten argument wskazuje na konieczność (ale nie wystarczalność) warunków KKT w optymalny sposób. Jeśli warunki KKT nie są spełnione (i spełnione są kwalifikacje ograniczeń), możliwe jest ulepszenie celu bez naruszania ograniczeń.
Rola kwalifikacji ograniczających
Co może pójść źle? Możesz uzyskać zdegenerowane sytuacje, w których gradienty wiązań nie opisują dokładnie możliwych kierunków ruchu.
Istnieje wiele różnych kwalifikacji ograniczeń do wyboru, które pozwolą na działanie powyższego argumentu.
Minimalna, maksymalna interpretacja (imho najbardziej intuicyjna)
Utwórz Lagrangian
Zamiast minimalizować podlegające ograniczeniom , wyobraź sobie, że próbujesz zminimalizować podczas gdy jakiś przeciwnik próbuje go zmaksymalizować. Mnożniki można interpretować jako kary (wybrane przez niektórych przeciwników) za naruszenie ograniczeń. g j L λ if gj L λi
Rozwiązanie pierwotnego problemu optymalizacji odpowiada:
To jest:
Na przykład, jeśli naruszysz ograniczenie , mogę cię ukarać, ustawiając na nieskończoność!g2 λ2
Słaba dualność
W przypadku dowolnej funkcji zauważ, że:f(x,y)
Ponieważ odnosi się to do każdego i to również, że:x^ y^
W ustawieniach Langriana ten wynik jest taki, że jest znany jako słaba dualność.maxλminxL(x,λ)≤minxmaxλL(x,λ)
Podwójny problem daje ci dolną granicę rozwiązaniamaxλminxL(x,λ)
Silna dualność
W pewnych szczególnych warunkach (np. Problem wypukły, gdy utrzymuje się stan Slatera), masz silną dualność (tj. Właściwość punktu siodłowego).
Ten piękny wynik oznacza, że możesz odwrócić kolejność problemu.
Najpierw wybieram kary aby zmaksymalizować Lagrangian.λ
Następnie wybierz aby zminimalizować Lagrangian .L.x L
zestaw w tym procesie są cenami za naruszenie ograniczeń, a ceny są ustawione tak, że nigdy nie będzie naruszać ograniczeń.λ
źródło
f (x) wypukłość jest konieczna, aby KKT było wystarczające, aby x był lokalnym minimum. Jeśli f (x) lub -g (x) nie są wypukłe, x spełniające KKT może być albo lokalnym minimum, punktem pośrednim, albo lokalnym maksimum.
g (x) jest liniowy, a f (x) jest ciągle różnicowalny, wystarczy, aby warunki KKT były konieczne dla lokalnego minimum. g (x) jest liniowy, oznacza to, że spełniono kwalifikację ograniczenia liniowości, aby KKT był niezbędny dla lokalnego minimum. Istnieją jednak inne mniej restrykcyjne kwalifikacje ograniczeń, które są wystarczające, aby warunki KKT były konieczne dla lokalnego minimum. Zobacz sekcję Warunki regularności (lub kwalifikacje ograniczeń) w https://en.wikipedia.org/wiki/Karush%E2%80%93Kuhn%E2%80%93Tucker_conditions .
Jeśli lokalne minimum nie ma żadnych „aktywnych” ograniczeń (więc w przypadku tylko ograniczenia nierówności, ograniczenie to nie jest spełnione z równością), mnożniki Lagrange'a związane z takimi ograniczeniami muszą wynosić zero, w takim przypadku KKT sprowadza się do warunku, że gradient celu = 0. W takim przypadku zerowy „koszt” optymalnej wartości obiektywnej zaostrzenia ograniczenia epsilon.
Więcej informacji :
Funkcja celu i ograniczenia są wypukłe, a ciągłe różnicowanie oznacza, że KKT jest wystarczające dla globalnego minimum.
Jeśli funkcja celu i ograniczenia są ciągle rozróżnialne, a ograniczenia spełniają kryteria kwalifikacji, KKT jest konieczne dla lokalnego minimum.
Jeśli funkcja celu i ograniczenia są ciągle różnicowalne, wypukłe, a ograniczenia spełniają kryteria kwalifikacji, KKT jest konieczne i wystarczające dla globalnego minimum.
Powyższa dyskusja w rzeczywistości dotyczy tylko warunków KKT 1. rzędu. Istnieją również warunki KKT drugiego rzędu, które można określić jako: Punkt spełniający warunki KKT 1 rzędu i dla którego funkcja celu i ograniczenia są dwa razy ciągle różnicowalne, jest (wystarcza) dla lokalnego minimum, jeżeli Hesjan z Lagrangian rzutuje na zerowa przestrzeń jakobianów aktywnych wiązań jest dodatnia półfinałowa. (Pozwolę ci spojrzeć na terminologię użytą w poprzednim zdaniu.) Pozwalając, aby była podstawą zerowej przestrzeni jakobianów aktywnych wiązań, warunkiem KKT drugiego rzędu jest to, że jest dodatnie , gdzieZ T H Z H ZZ ZTHZ H jest Hesjanem z Lagrangian. Aktywne ograniczenia obejmują wszystkie ograniczenia równości oraz wszystkie ograniczenia nierówności, które są spełnione z równością w rozpatrywanym punkcie. Jeśli żadne ograniczenia nie są aktywne w rozważanym punkcie KKT 1. rzędu, macierz tożsamości jest podstawą zerową , a wszystkie mnożniki Lagrange'a muszą wynosić zero, dlatego warunek konieczny drugiego rzędu dla lokalnego minimum zmniejsza się do znanego warunku z nieograniczonej optymalizacji że Hesjan funkcji celu jest dodatni półokreślony. Jeśli wszystkie ograniczenia są liniowe, Hesjan z Lagrangian = Hesjan funkcji celu, ponieważ druga pochodna funkcji liniowej = 0.Z
źródło