Załóżmy, że chcesz łowić ryby w pobliskim jeziorze od 8:00 do 20:00. Z powodu przełowienia wprowadzono prawo, które mówi, że możesz złowić tylko jedną rybę dziennie. Kiedy złapiesz rybę, możesz ją zatrzymać (i w ten sposób wrócić do domu z tą rybą), lub wrzucić ją z powrotem do jeziora i kontynuować łowienie (ale ryzykuj później osiedlenie się z mniejszą rybą lub brak ryb). Chcesz złapać jak największą rybę; w szczególności chcesz zmaksymalizować oczekiwaną masę ryb, które przywieziesz do domu.
Formalnie możemy ustawić ten problem w następujący sposób: ryby są łapane w określonym tempie (więc czas potrzebny do złapania następnej ryby jest zgodny ze znanym rozkładem wykładniczym), a rozmiar złowionych ryb jest zgodny z pewną (znaną) dystrybucją . Chcemy pewnego procesu decyzyjnego, który biorąc pod uwagę aktualny czas i rozmiar właśnie złowionej ryby, decyduje, czy zatrzymać ją, czy odrzucić.
Pytanie zatem brzmi: jak podjąć taką decyzję? Czy jest jakiś prosty (lub skomplikowany) sposób decydowania, kiedy przestać łowić ryby? Myślę, że problem jest równoznaczny z ustaleniem, na pewien czas t, jaka oczekiwana masa ryb, którą optymalny rybak zabrałby do domu, gdyby zaczęli w czasie t; optymalny proces decyzyjny pozwoliłby utrzymać rybę tylko wtedy, gdy jest ona cięższa niż oczekiwana masa. Ale to wydaje się trochę samoreferencyjne; określamy optymalną strategię połowową pod kątem optymalnego rybaka i nie jestem pewien, jak postępować.
źródło
Odpowiedzi:
Niechλ oznacza szybkość procesu Poissona i niech S.( x ) = 1 - F.( x ) gdzie fa( x ) jest funkcją skumulowanego rozkładu rozkładu wielkości ryb.
Niecht = 0 oznacza koniec dnia i niech sol( t ) , t ≤ 0 , oznacza oczekiwany połów w przedziale ( t , 0 ) który otrzymujemy, jeśli zastosujemy optymalną strategię. Wyraźnie sol( 0 ) = 0 . Ponadto, jeśli złapiemy rybę o rozmiarze x w czasie t , powinniśmy ją zatrzymać i przestać łowić, jeśli jest większa niż sol( t ) . To jest nasza zasada decyzyjna. Realizacja procesu i zrealizowana decyzja (zielony punkt) mogą zatem wyglądać następująco:
Pracując w ciągłym czasie, wykorzystując pomysły ze stochastycznego programowania dynamicznego , zmianę wsol( t ) w czasie opisuje proste równanie różniczkowe. Rozważmy nieskończenie mały odstęp czasu ( t - dt , t ) . Prawdopodobieństwo, że złowimy rybę o rozmiarze X> g( t ) w tym przedziale czasu wynosi
λ dt S.( g( t ) ) ,
przeciwnym razie nasz oczekiwany połów wyniesie sol( t ) .
Stosując wzór na średni pozostały okres życia , oczekiwany rozmiar ryby większy niżsol( t ) jako
mi( X| X> g( t ) ) = g( t ) + 1S.( g( t ) )∫∞sol( t )S.( x ) dx .
Zatem, stosując prawo całkowitego oczekiwania, oczekiwany połów w przedziale( t - dt , 0 ) staje się
sol( t - dt)=[λdtS(g(t))][g(t)+1S(g(t))∫∞g(t)S(x)dx]+[1−λdtS(g(t)]g(t).
Zmiana układu okazuje się, żesol( t ) spełnia wymagania
resolret= - λ ∫∞sol( t )S.( x ) dx .(1)
Uwaga sposóbsol( t ) w kierunku końca spadku dzień przy szybkości równa iloczynowi natężenia Poissonaλ i średniej wielkości ryb∫∞0S.( x ) dx odzwierciedla to zostanie w tym miejscu najlepiej od trzymania każda ryba, którą moglibyśmy złowić.
źródło