Co to jest minimalizacja zużycia energii w uczeniu maszynowym?

14

Czytałem o optymalizacji pod kątem źle postawionego problemu w widzeniu komputerowym i natrafiłem na poniższe wyjaśnienie dotyczące optymalizacji na Wikipedii. Nie rozumiem tylko, dlaczego nazywają tę optymalizację „ minimalizacją energii ” w Computer Vision?

Problem optymalizacji można przedstawić w następujący sposób:

Biorąc pod uwagę: funkcję z jakiegoś zbioru A do liczb rzeczywistychf:ARA

Poszukiwany: element w A taki, że f ( x 0 ) f ( x ) dla wszystkich x w A („minimalizacja”) lub taki, że f ( x 0 ) f ( x ) dla wszystkich x w A („ maksymalizacja ”).x0Af(x0)f(x)xAf(x0)f(x)xA

Takie sformułowanie nazywa się problemem optymalizacji lub problemem programowania matematycznego (termin niezwiązany bezpośrednio z programowaniem komputerowym, ale nadal używany na przykład w programowaniu liniowym - patrz Historia poniżej). Wiele rzeczywistych i teoretycznych problemów można modelować w tych ogólnych ramach. Problemy sformułowane przy użyciu tej techniki w dziedzinie fizyki i wizji komputerowej mogą odnosić się do techniki jako minimalizacji energii, mówiąc o wartości funkcji jako reprezentującej energię modelowanego układu.f

iamprem
źródło

Odpowiedzi:

8

Modele oparte na energii stanowią ujednoliconą strukturę do reprezentowania wielu algorytmów uczenia maszynowego. Interpretują interpretację jako minimalizowanie funkcji energii, a uczenie się jako minimalizowanie funkcji straty.

Funkcja energii jest funkcją konfiguracji ukrytych zmiennych i konfiguracji danych wejściowych podanych w przykładzie. Wnioskowanie zwykle oznacza znalezienie konfiguracji niskoenergetycznej lub próbkowanie z możliwej konfiguracji, aby prawdopodobieństwo wyboru danej konfiguracji było rozkładem Gibbsa.

Funkcja straty jest funkcją parametrów modelu podanych w wielu przykładach. Np. W nadzorowanym problemie z uczeniem się Twoja strata jest całkowitym błędem w celach. Czasami nazywany jest „funkcjonalnym”, ponieważ jest funkcją funkcji (sparametryzowanej), która stanowi model.

Główny artykuł:

Y. LeCun, S. Chopra, R. Hadsell, M. Ranzato i FJ Huang, „Samouczek na temat uczenia się opartego na energii” w Predicting Structured Data, MIT Press, 2006.

Zobacz także:

LeCun, Y. i Huang, FJ (2005). Funkcje strat dla dyskryminacyjnego treningu modeli opartych na energii. W materiałach z 10. Międzynarodowych warsztatów na temat sztucznej inteligencji i statystyki (AIStats'05). Źródło: http://yann.lecun.com/exdb/publis/pdf/lecun-huang-05.pdf

Ranzato, M., Boureau, Y.-L., Chopra, S., i LeCun, Y. (2007). Ujednolicone, oparte na energii ramy dla uczenia się bez nadzoru. Proc. Konferencja na temat AI i statystyki (AI-Stats). Źródło: http://dblp.uni-trier.de/db/journals/jmlr/jmlrp2.html#RanzatoBCL07

Neil G.
źródło
3
Czy potrafisz rozwinąć pojęcie „interpretują wnioskowanie jako minimalizowanie funkcji energii, a uczenie się jako minimalizowanie funkcji straty”? Czym różni się funkcja energii od funkcji straty?
Cliff AB
Czy możesz podać swoją odpowiedź
iamprem,
@CliffAB Mam nadzieję, że to jest jaśniejsze?
Neil G
@ NeilG: szczerze mówiąc, wciąż jestem trochę zdezorientowany. Dla mnie brzmi to tak, jakby „funkcja energii” była w istocie tym samym, co funkcja prawdopodobieństwa w statystykach. Czy to rozsądna interpretacja, czy brakuje mi czegoś bardziej subtelnego?
Cliff AB
@CliffAB: Funkcja energii może być logarytmicznym prawdopodobieństwem, w którym to przypadku całkowita energia wykładnicza wynosi jeden. Jednak nie jest to nawet konieczne: nie probabilistyczne modele oparte na energii nie martwią się tą normalizacją, która może uczynić ich naukę bardziej wydajną niż modele probabilistyczne. Jest tak, ponieważ unika się oceny drogich całek w przestrzeni konfiguracyjnej.
Neil G
2

xt

mi=Σxt2)

S.S.mi=Σ(y-y^)2)
gdzie y^jest dopasowaną odpowiedzią. Zauważ podobieństwo? SSE to energia. Energia ta jest zminimalizowana dzięki dopasowanym parametrom.

stan
źródło
1
Myślę, że mylisz stratę z energią
Neil G.
Używam standardowej definicji energii z przetwarzania sygnału . Informatyka / uczenie maszynowe mają tendencję do redefiniowania terminów. Pochodzę ze statystyk i tła przetwarzania sygnałów
stan
Twoja pierwsza formuła to funkcja energii. Druga formuła to funkcja straty, ponieważ nie jest to funkcja konfiguracji.
Neil G
@ Neil Jestem pewien, że prawidłowo używasz terminologii określonej w cytowanych artykułach. To po prostu inna terminologia niż to, do czego jestem przyzwyczajony, gdy SSE to energia
stan