Jest to dla mnie trudny temat do wyszukiwania w Google, ponieważ optymalizacja słów i stochastyczna w wyszukiwaniu prawie automatycznie domyślnie wyszukuje optymalizację stochastyczną. Ale tak naprawdę chcę wiedzieć, jakie istnieją metody optymalizacji modeli komputerowych, gdy wyniki modelu komputerowego są stochastyczne, tj. Nie deterministyczne?
Na przykład, jeśli weźmiemy pod uwagę model komputerowy, w którym istnieje nieznana funkcja reprezentująca dane wyjściowe modelu komputerowego, istnieje wiele metod statystycznych służących do rozwiązywania problemów, takich jak
gdy jest deterministyczne. Ale co się stanie, gdy jest stochastyczny? Czy istnieje rozwiązanie problemu, a w najlepszym razie możemy tylko rozwiązać
gdzie jest zwykłym operatorem oczekiwania.
źródło
Odpowiedzi:
( Rozszerzając mój komentarz na poprawną odpowiedź ).
Jak wspomniałem, zależy to od twojego celu.
Oczekiwana wartość jest tylko jedną z wielu możliwych opcji celu optymalizacji. Na przykład, zakładając, że są normalnie rozłożone, możesz:f ( x )E[f(x)] f(x)
κ∈Rκ>0κκ
Zasadniczo optymalizacja bayesowska (BO, która jest związana z procesami Gaussa i krigingiem ) dotyczy kosztownych, a czasem głośnych ocen funkcji; chociaż większość literatury skupiała się na poprzedniej części. Możesz znaleźć opinie na temat optymalizacji bayesowskiej pod tym pytaniem .
Kilka osób zastosowało BO do hałaśliwych funkcji. Jako wstęp do tematu David Ginsbourger wygłosił przemówienie zatytułowane „Wariacje na temat oczekiwanej poprawy” podczas warsztatów na temat procesów gaussowskich dla globalnej optymalizacji (Sheffield, 17 września 2015 r.). Możesz znaleźć jego przemówienie tutaj , a wszystkie przemówienia są dostępne na tej stronie (polecam również wszystkie inne przemówienia jako doskonałe ogólne wprowadzenie do BO.)
Jako odniesienia zacznę od pracy wykonanej przez Ginsbourgera i współpracowników oraz Gramacy i współpracowników:
Picheny, V. i Ginsbourger, D., 2014. „Głośne metody optymalizacji oparte na krigingu: ujednolicona implementacja w pakiecie DiceOptim”. Statystyka obliczeniowa i analiza danych , 71, s. 1035–1053. ( link )
Picheny, V., Ginsbourger, D., Richet, Y. i Caplin, G., 2013. „Oparta na kwantach optymalizacja głośnych eksperymentów komputerowych z dostrajaną precyzją”. Technometrics , 55 (1), s. 2–13. ( link )
Gramacy, RB i Lee, HK, 2012. „Bayesian potraktował modele procesu Gaussa za pomocą aplikacji do modelowania komputerowego”. Journal of American Statistics Association . ( link )
Gramacy, RB i Apley, DW, 2015. „Lokalne zbliżenie procesu Gaussa do dużych eksperymentów komputerowych”. Journal of Computational and Graphical Statistics , 24 (2), str. 561-578. ( link )
Zarówno Ginsburger, jak i Gramacy mają pakiety R, które implementują swoje metody BO, odpowiednio DiceOptim i tgp .
źródło
Obecne odpowiedzi koncentrują się na właściwej (matematycznej) definicji stochastycznego celu optymalizacji - chcę przedstawić nieco bardziej stosowaną perspektywę.
Ten problem występuje często przy dopasowywaniu modeli stochastycznych, np. Przy użyciu nieformalnych lub syntetycznych prawdopodobieństw. Odwołanie (1) zawiera listę opcji, których można użyć do zdefiniowania odległości między modelem stochastycznym a danymi.
Po zdefiniowaniu celu w ten sposób pozostaje kwestia znalezienia optymalnego środka hałaśliwego celu. Do przejścia są dwie drogi: a) optymalizacja i b) próbkowanie MCMC. Pytałeś konkretnie o optymalizację, ale chcę wprowadzić MCMC, ponieważ często lepiej nadają się do tego zadania.
a) Jeśli pozostaniesz przy optymalizacji, musisz upewnić się, że nie utkniesz i że optymalizator poradzi sobie ze stochastycznym celem. Rozdział 4 w rozprawie doktorskiej Matteo Fasiolo zawiera pewne wskazówki, patrz (2).
b) Jak zauważamy w (1), MCMC są ogólnie bardziej odporne na cel stochastyczny - w łagodnych warunkach dotyczących rozkładu hałasu MCMC uśrednia hałas, a próbkowany cel będzie nie do odróżnienia od nieszumnego cel ze średnią głośnego celu. Jednak MCMC również mogą utknąć, gdy napotkają ocenę, która jest szczególnie dobra. To, czego NIE MOŻESZ ROBIĆ, to uzyskanie następującego „oczywistego” pomysłu: po prostu oblicz zarówno bieżącą, jak i proponowaną wartość w każdej iteracji MCMC. Słowo kluczowe do wyszukania tutaj to „pseudo-marginalna”, patrz także tutaj i tutaj .
1) Hartig, F .; Calabrese, JM; Reineking, B .; Wiegand, T. & Huth, A. (2011) Wnioskowanie statystyczne dla stochastycznych modeli symulacyjnych - teoria i zastosowanie . Ecol. Lett., 14, 816–827.
2) Fasiolo, M. (2016) Metody statystyczne dla złożonej dynamiki populacji . University of Bath
źródło
Powiedzmy, że znajdujemy się w dyskretnej przestrzeni prawdopodobieństwa, więc . Intuicyjnie potrzebujesz funkcji , abyś mógł zoptymalizować . Możesz zoptymalizować tylko jeden cel! U : R n → R U ( f ( x ) )f(x)∈Rn U:Rn→R U(f(x))
Optymalizacja funkcji jednego celu może wydawać się dość ograniczająca, ale tak nie jest ! Pojedynczy cel może reprezentować niewiarygodnie różnorodne preferencje, które możesz mieć względem tego, co jest lepsze lub gorsze.
Przeskakując do przodu, prostym miejscem do rozpoczęcia może być wybranie zmiennej losowej a następnie rozwiązanie:λ
E[f(x)]
Podstawowe ustawienia:
Twoim problemem jest wybranie tak aby:x∗∈X
Równoważność z maksymalizacją użyteczności (w określonych warunkach technicznych)
Dla uproszczenia technicznego powiem, że znajdujemy się w dyskretnej przestrzeni prawdopodobieństwa z wynikami, więc mogę reprezentować losowy wynik za pomocą wektora .n y~ y∈Rn
W pewnych warunkach technicznych (które nie są ograniczeniem w sensie praktycznym) powyższy problem jest równoważny maksymalizacji funkcji użyteczności . (Funkcja użyteczności przypisuje bardziej preferowane wyniki większej liczbie).U(y)
Ta logika miałaby zastosowanie do każdego problemu, w którym twój wybór prowadzi do wielu zmiennych wyniku.
Nadanie większej struktury funkcji użytecznej : Oczekiwana hipoteza użyteczności :U
Jeśli znajdujemy się w otoczeniu probabilistycznym i akceptujemy aksjomaty Neumanna-Morgernsterna , ogólna funkcja użyteczności musi przyjąć specjalną formę:U
Zauważ, że prosty przypadek maksymalizuje wartość oczekiwaną (tj. Brak awersji do ryzyka).u(yi)=yi
Innym podejściem: ciężaryλ
Inną rzeczą do zrobienia jest:
Intuicyjnie możesz wybrać wagi które są większe lub mniejsze niż prawdopodobieństwo wystąpienia stanu, a to oddaje znaczenie stanu.p iλi pi
Głębsze uzasadnienie tego podejścia jest takie, że w pewnych warunkach technicznych istnieją wagi lambda takie, że powyższy problem i wcześniejsze problemy (np. Maksymalizacja ) mają to samo rozwiązanie.U ( f ( x ) )λ U(f(x))
źródło