Biorąc pod uwagę oczekiwania związane z serią Taylor (szczególnie pozostała część)

42

Moje pytanie dotyczy próby uzasadnienia powszechnie stosowanej metody, a mianowicie przyjęcia oczekiwanej wartości Taylor Series. Załóżmy, że mamy losową zmienną o dodatniej średniej i wariancji . Dodatkowo mamy funkcję, powiedzmy, .Xμσ2log(x)

Po rozszerzeniu Taylora o średnio otrzymujemy gdzie, jak zwykle, to st.logX

logX=logμ+Xμμ12(Xμ)2μ2+13(Xμ)3ξX3,
ξX|ξXμ|<|Xμ|

Jeśli przyjmiemy oczekiwania, otrzymamy przybliżone równanie, które ludzie zwykle określają jako coś oczywistego (patrz znak w pierwszym równaniu tutaj) :

ElogXlogμ12σ2μ2

PYTANIE : Interesuje mnie, jak udowodnić, że oczekiwana wartość pozostałego terminu jest w rzeczywistości nieznaczna, tj. (lub innymi słowy, ).

E[(Xμ)3ξX3]=o(σ2)
E[o(Xμ)2]=o(E[(Xμ)2])

Co próbowałem zrobić : zakładając, że (co z kolei oznacza w ), próbowałem podzielić całkę na dwie części, otaczając niektórymi -vicinity : σ20XμPμεNε

Rp(x)(xμ)3ξx3dx=xNεdx+xNεdx

Pierwszy można ograniczyć ze względu na fakt, że a zatem nie przeszkadza. Ale z drugim mamy dwa zbieżne fakty: z jednej strony (jako ). Ale z drugiej strony nie wiemy, co zrobić z . 1 / ξ 3 P ( | X - μ | > ε ) 0 σ 20 1 / ξ 30Nε1/ξ3

P(|Xμ|>ε)0
σ2)01/ξ3)

Inną możliwością mogłaby być próba użycia lematu Fatou, ale nie wiem, jak to zrobić.

Doceni każdą pomoc lub podpowiedź. Zdaję sobie sprawę, że jest to bardzo techniczne pytanie, ale muszę je przejść, aby zaufać tej metodzie „oczekiwania Taylora”. Dzięki!

PS Sprawdziłem tutaj , ale wygląda na to, że to coś innego.

agronskiy
źródło
Dlaczego przed trzecim terminem rozszerzenia Taylora jest znak minus? Także dlaczego w czwartym semestrze jest a nie? czego mi brakuje? 3 !33!
Alecos Papadopoulos,
@Alecos: Spójrz na tą pochodną . To odpowie na oba pytania. log xnlogx
kardynał
4
(+1) Kwestia ta pojawiła się ostatnio w dyskusji na temat dwóch pytań związanych ze znalezieniem momentów . W takich sprawach warto zachować szczególną ostrożność. :-)X1
kardynał
1
Przybliżenie pierwszego rzędu może w niektórych przypadkach być lepsze ze względu na twierdzenie o wartości średniej. Nie jestem pewien, czy twierdzenie o wartości średniej pomogłoby w ogólnym przypadku.
probabilislogiczny
1
Bym, że, że dominuje zbieżność może twierdzenie tu przydatne, ponieważ równanie Jest wymiana granicach i integracji. E(o(..))=o(E(..))
probabilityislogic

Odpowiedzi:

32

Masz rację sceptycznie podchodząc do tego podejścia. Metoda szeregowa Taylora nie działa ogólnie, chociaż heurystyka zawiera jądro prawdy. Podsumowując poniższą dyskusję techniczną,

  • Silna koncentracja oznacza, że ​​metoda szeregowa Taylora działa dla przyjemnych funkcji
  • Sprawy mogą i pójdą drastycznie źle w przypadku dystrybucji o dużych rozmiarach lub niezbyt przyjemnych funkcji

Jak wskazuje odpowiedź Alecosa, sugeruje to, że metoda serii Taylora powinna zostać złomowana, jeśli dane mogą mieć ciężkie ogony. (Specjaliści od finansów, patrzę na ciebie.)

Jak zauważył Elvis, kluczowym problemem jest to, że wariancja nie kontroluje wyższych momentów . Aby zobaczyć dlaczego, uprośćmy twoje pytanie tak bardzo, jak to możliwe, aby przejść do głównej idei.

Załóżmy , że mamy ciąg zmiennych losowych z σ ( X n ) 0 jako n .Xnσ(Xn)0n

P: Czy możemy zagwarantować, że jak n ?E[|Xnμ|3]=o(σ2(Xn))n?

Ponieważ zmiennymi losowymi z drugich momentów skończonych i nieskończonych momentach trzecich, odpowiedź jest zdecydowanie nie . Dlatego generalnie metoda szeregowa Taylora zawodzi nawet w przypadku wielomianów 3 stopnia . Iteracja tego argumentu pokazuje, że nie można oczekiwać, że metoda szeregowa Taylora zapewni dokładne wyniki, nawet dla wielomianów, chyba że wszystkie momenty zmiennej losowej są dobrze kontrolowane.

Co zatem mamy zrobić? Z pewnością metoda ta działa dla ograniczonych zmiennych losowych, których obsługa jest zbieżna do punktu, ale ta klasa jest zdecydowanie zbyt mała, aby była interesująca. Załóżmy zamiast tego, że sekwencja pochodzi z bardzo skoncentrowanej rodziny, która spełnia (powiedzmy)Xn

(1)P{|Xnμ|>t}eCnt2

dla każdego i niektórych C > 0 . Takie losowe zmienne są zaskakująco częste. Na przykład, gdy X n jest średnią empirycznąt>0C>0Xn

Xn:=1ni=1nYi

miłych zmiennych losowych (np. iid i ograniczone), różne nierówności stężenia sugerują, że X n spełnia (1). Standardowy argument (patrz p. 10 tutaj ) ogranicza p- te momenty dla takich zmiennych losowych:YiXnp

E[|Xnμ|p](p2Cn)p/2.

Dlatego dla każdego „wystarczająco miły” funkcja analityczna (patrz poniżej), możemy związany błędu E m na m -term Taylor serii zbliżenia, korzystając z nierówności trójkątafEmm

Em:=|E[f(Xn)]p=0mf(p)(μ)p!E(Xnμ)p|1(2Cn)(m+1)/2p=m+1|f(p)(μ)|pp/2p!

gdy . Ponieważ przybliżenie Stirlinga daje p ! p p - 1 / 2 , błąd ściętego spełnia szereg Tayloran>C/2p!pp1/2

(2)Em=O(n(m+1)/2) as nwheneverp=0p(1p)/2|f(p)(μ)|<.

W związku z tym, gdy jest silnie stężony i f jest dostatecznie dobre, seria aproksymacja Taylora rzeczywiście dokładny. Nierówność występująca w (2) oznacza, że f ( p ) ( μ ) / p ! = O ( p - p / 2 ) , więc w szczególności nasz warunek wymaga, aby f było całkowite . Ma to sens, ponieważ (1) nie narzuca żadnych założeń dotyczących ograniczenia na X n .Xnff(p)(μ)/p!=O(pp/2)fXn

Zobaczmy, co może pójść nie tak, gdy ma osobliwość (po komentarzu Whubera). Załóżmy, że wybieramy f ( x ) = 1 / x . Jeśli weźmiemy X n z N o r m a L ( 1 , 1 / n ) Rozkład obcięty od zera do dwóch, wówczas X brak jest wystarczającej koncentracji, e [ M ( X n ) ] = dla każdego nff(x)=1/xXnNormal(1,1/n)XnE[f(Xn)]=n. Innymi słowy, mamy wysoce skoncentrowaną, ograniczoną zmienną losową , a mimo to metoda szeregowa Taylora zawodzi, gdy funkcja ma tylko jedną osobliwość.

Kilka słów na temat dyscypliny. Uważam, że ładniej jest przedstawić warunek występujący w (2) jako wyprowadzony niż deus ex machina, który jest wymagany w rygorystycznym formacie twierdzenia / dowodu. Aby uczynić argument całkowicie rygorystycznym, należy najpierw zauważyć, że implikuje to prawa strona w (2)

E[|f(Xn)|]i=0|f(p)(μ)|p!E[|Xnμ|p]<

przez tempo wzrostu chwil subgaussów z góry. Stąd twierdzenie Fubiniego

E[f(Xn)]=i=0f(p)(μ)p!E[(Xnμ)p]

Reszta dowodu przebiega jak wyżej.

Mike McCoy
źródło
1
Mogłem przegapić to w krótkim czytaniu, ale czy twierdzisz (między innymi), że pod warunkiem, że trzeci moment jest wystarczająco „pod kontrolą”, to oczekiwanie log ( X ) można rozsądnie oszacować, biorąc pod uwagę oczekiwania [MacLaurin] seria logów ? Jestem zaniepokojony, bo nie widziałem żadnego odniesienia do właściwości konwergencji samej serii, które są co najmniej tak samo ważne jak ogony rozkładu X . Xlog(X)logX
whuber
2
@whuber Masz rację; będziesz potrzebować wsparcia aby znaleźć się w ROC serii Taylor, więc w szczególności 0 < X < 2 μ prawie na pewno. Zaktualizuję post, aby to odzwierciedlić. X0<X<2μ
Mike McCoy,
2
Nadal myślę, że coś mi umknęło. Np. Gdy ma rozkład normalny ( 1 , 1 ) obcięty do ( 0 , 2 ) , to oczywiście jest „wysoce skoncentrowany”, ma średnią μ = 1 i prawie na pewno mieści się w promieniu zbieżności f ( x ) = 1 / x = 1 / ( 1 - ( 1 - x ) ) (który jest analityczny we wnętrzu dysku jednostki wyśrodkowany na 1X(1,1)(0,2)μ=1f(x)=1/x=1/(1(1x))1, który zawiera ), ale E [ f ( X ) ] jest nieskończone. (0,2μ)E[f(X)]
whuber
1
@gron Zrobiłeś mały błąd. Gdy , pochodna | f ( p ) ( μ ) | = p ! / μ p . Warunek nie obowiązuje, ponieważ (2) = p ! p ( 1 - p / 2 ) μ p dla dowolnego μ > 0f(x)=1/x|f(p)(μ)|=p!/μp
(2)=p!p(1p/2)μp
μ>0. Możesz również sprawdzić, czy (2) nie działa, ponieważ każda funkcja, która spełnia (2), również spełnia , a zatem f nie ma osobliwości ( cała , na połączenie). log(p!f(p)(μ))/pf
Mike McCoy
1
@gron Potrzebujesz dwóch rzeczy: (1) upewnij się, że RV ma wsparcie ściśle w ramach ROC szeregu mocy log (tj. dla ε > 0 ) i (2) make upewnić się, że momenty spadku RV wystarczająco szybko, że oszacowanie błędu E m powyżej jest skończona. Jeśli chodzi o kontrolowanie chwil, powinieneś zadać nowe pytanie, ponieważ zajmie to zbyt wiele postaci (a ja osobiście jestem ciekawa nowych sposobów). [0+ε,2με]ε>0Em
Mike McCoy,
10

Chociaż moja odpowiedź nigdzie nie zbliży się do poziomu matematycznego wyrafinowania pozostałych odpowiedzi, postanowiłam ją opublikować, ponieważ uważam, że ma to coś do zaoferowania - chociaż, jak mówią, wynik będzie „negatywny”.

Mówiąc lekko, powiedziałbym, że PO jest „niechętny do ryzyka” (ponieważ większość ludzi, podobnie jak sama nauka), ponieważ PO wymaga wystarczających warunków, aby przybliżenie rozszerzenia Taylora drugiego rzędu było „ do przyjęcia". Ale to nie jest konieczny warunek.

Po pierwsze, koniecznym, ale niewystarczającym warunkiem wstępnym, aby oczekiwana wartość Resztki była niższego rzędu niż wariancja rv, jak wymaga PO, jest to, że szereg zbiega się w pierwszej kolejności. Czy powinniśmy po prostu założyć konwergencję? Nie.

Ogólne wyrażenie, które badamy, to:

E[g(Y)]=fY(y)[i=0g(i)(μ)(yμ)ii!]dy[1]

Jak stwierdza Loistl (1976) , odwołując się do książki Gemignani „Calculus and Statistics” (1978, s. 170), warunkiem zbieżności nieskończonej sumy jest (zastosowanie testu współczynnika zbieżności)

yμ<|yμ|<limi|(g(i)(μ)g(i+1)(μ)(i+1))|[2]

... gdzie jest średnią wartości rv Chociaż jest to również warunek wystarczający (test stosunku jest niejednoznaczny, jeśli powyższa relacja zachowuje się z równością), szeregi będą się różnić, jeśli nierówność utrzyma się w innym kierunku.μ

Loistl zbadał trzy specyficzne formy funkcjonalne dla , wykładniczej, mocy i logarytmu (jego praca jest w dziedzinie Oczekiwanej użyteczności i wyboru portfela, więc przetestował standardowe formy funkcjonalne używane do reprezentowania wklęsłej funkcji użyteczności). Dla tych form funkcjonalnych stwierdził, że tylko dla wykładniczej formy funkcjonalnej nie nałożono żadnych ograniczeń na y - μ . Przeciwnie, w przypadku mocy i przypadku logarytmicznego (gdzie mamy już 0 < y ), stwierdzamy, że ważność nierówności [ 2 ] jest równoważna y - μ < μ 0g()yμ0<y[2]

yμ<μ0<y<2μ

Oznacza to, że jeśli nasza zmienna zmienia się poza tym zakresem, ekspansja Taylora mająca jako centrum ekspansji średnią zmiennej będzie się różnić.

Tak więc: dla niektórych form funkcjonalnych wartość funkcji w pewnym punkcie jej domeny jest równa jej nieskończonej ekspansji Taylora, bez względu na to, jak daleko ten punkt jest od centrum ekspansji. W przypadku innych form funkcjonalnych (w tym logarytmu) punkt zainteresowania powinien leżeć nieco „blisko” wybranego centrum ekspansji. W przypadku, gdy mamy wartość RV, przekłada się to na ograniczenie teoretycznego wsparcia zmiennej (lub badanie jej obserwowanego empirycznie zakresu).

Loitl, wykorzystując przykłady numeryczne, pokazał również, że zwiększenie kolejności rozszerzenia przed obcięciem może pogorszyć dokładność przybliżenia. Należy zauważyć, że empirycznie szeregi czasowe obserwowanych zmiennych w sektorze finansowym wykazują zmienność większą niż wymagana przez nierówność. Dlatego Loitl opowiadał się za tym, aby metodologię aproksymacji szeregu Taylora całkowicie odrzucić, w odniesieniu do teorii wyboru portfela.

Odbicie nastąpiło 18 lat później od Hlawitschki (1994) . Cenny wgląd i wynik tutaj był i cytuję

... chociaż seria może się ostatecznie zbiegać, niewiele można powiedzieć o którejkolwiek z jej częściowych serii; zbieżność szeregu nie oznacza, że ​​terminy natychmiast zmniejszają się lub że jakikolwiek konkretny termin jest wystarczająco mały, aby go zignorować. Rzeczywiście, jak pokazano tutaj, możliwe jest, że seria może wydawać się rozbieżna, zanim ostatecznie zbiegnie się w limicie. Jakość aproksymacji momentu do oczekiwanej użyteczności, które są oparte na pierwszych kilku terminach szeregu Taylora, nie może zatem być określona przez właściwości zbieżności szeregu nieskończonego. Jest to kwestia empiryczna, a empirycznie, dwuminutowe przybliżenia analizowanych tutaj funkcji użyteczności dobrze sprawdzają się w przypadku wyboru portfela. Hlawitschka (1994)

E(g(Y) że zawsze dawało wyniki ilościowe, które były wystarczająco bliskie tej dokładnej wartości (patrz jego tabela A1 na s. 718).

Więc gdzie nas to opuszcza? Powiedziałbym, że w zawieszeniu. Wydaje się, że zarówno w teorii, jak i empiryce, akceptacja przybliżenia Taylora drugiego rzędu zależy krytycznie od wielu różnych aspektów badanego specyficznego zjawiska i zastosowanej metodologii naukowej - zależy od założeń teoretycznych, użytych form funkcjonalnych, na zaobserwowaną zmienność szeregu ...

Ale zakończmy to pozytywnie: w dzisiejszych czasach moc komputera zastępuje wiele rzeczy. Możemy więc symulować i testować poprawność aproksymacji drugiego rzędu dla szerokiego zakresu wartości zmiennej, niezależnie od tego, czy pracujemy nad zagadnieniem teoretycznym, czy empirycznym.

Alecos Papadopoulos
źródło
8

Nie rzeczywista odpowiedź, ale przykład pokazujący, że rzeczy nie są tak miłe i że potrzebne są dodatkowe hipotezy, aby ten wynik był prawdziwy.

XnU([1n;1n])N(nn1,1n)1n11n=n1nE(Xn)=10n

E(Xn2)=13n2×1n+((nn1)2+1n)×n1n,

f(x)=1/xf(0)=0f(Xn)

1n1n1xdx
n

fXn

PS. Czy ten przykład nie jest kontr-przykładem odpowiedzi Nicka? Kto się myli?

Elvis
źródło
1
E[Xk]k=1,2,3
f(x)x=μf(x)=1xx=0f
μ=1
1
Elvis, tak, potrzebujemy warunków globalnych. Zasadniczo reszta musi zachowywać się ładnie po zważeniu przez ogony rozkładu. Aby zobaczyć coś podobnego do twojego przykładu, który pojawił się ostatnio, zobacz tutaj , tutaj i tutaj .
kardynał
4

To nie jest kompletna odpowiedź, tylko inny sposób osiągnięcia przybliżenia drugiego rzędu.

fa(X)=fa(μ)+fa(ξ1)(X-μ)

Xξ1μXμXξ1μXμfa(ξ1)

fa(ξ1)=fa(μ)+fa(ξ2))(ξ1-μ)

Xξ1ξ2)μXμXξ1ξ2)μXμ

f(X)=f(μ)+f(μ)(Xμ)+f(ξ2)(ξ1μ)(Xμ)

fXμXXξiξ1μ=12(Xμ)ξ2=μX

prawdopodobieństwo prawdopodobieństwa
źródło