Ogranicza się do

21

Jeśli jest funkcją wypukłą, to nierówność Jensena stwierdza, że i mutatis mutandis, gdy jest wklęsłe. Oczywiście w najgorszym przypadku nie można górnej granicy w kategoriach dla wypukłego , ale czy istnieje granica, która idzie w tym kierunku, jeśli jest wypukły, ale „niezbyt wypukły”? Czy istnieje jakieś standardowe ograniczenie, które określa warunki dla funkcji wypukłej (i ewentualnie także rozkład, jeśli to konieczne), które pozwoliłyby wyciągnąć wniosek, że , gdzief ( E [ x ] ) E [ f ( x ) ] f E [ f ( x ) ] f ( E [ x ] ) f f f E [ f ( x ) ] φ ( f ) f ( E [ x ] ) φ ( f ) fff(E[x])E[f(x)]fE[f(x)]f(E[x])fffE[f(x)]φ(f)f(E[x])φ(f)jest jakąś funkcją krzywizny / stopnia wypukłości ? Może coś podobnego do stanu Lipschitza?f

Ian
źródło
Głosowanie na zakończenie jest nie na temat. math.stackexchange.com może?
Aryabhata
7
Myślę, że to pytanie powinno pozostać otwarte; jest to rodzaj nierówności, który wielu pracujących teoretyków uznałby za użyteczne regularnie.
Aaron Roth
10
Wiem, że jest to bliższe czystej matematyce niż większości zadanych do tej pory pytań, ale argumentowałbym, że jest to temat, ponieważ takie rzeczy często pojawiają się w analizie algorytmów losowych (która jest aplikacją, w której mam umysł). Myślę, że matematyka, która jest szeroko stosowana w informatyce, powinna być uważana za uczciwą grę w pytania.
Ian
6
głosuj, aby pozostać otwartym. zdecydowanie na temat
Suresh Venkat
1
Głosuję również, aby pozostać otwartym.
Jeffε

Odpowiedzi:

21

EDYCJA: w oryginalnej wersji brakowało wartości bezwzględnej. Przepraszam!!

Cześć Ian. Pokrótce przedstawię dwie przykładowe nierówności, jedną przy użyciu wiązania Lipschitza, drugą przy użyciu wiązania na drugiej pochodnej, a następnie omówię pewne trudności w tym problemie. Chociaż jestem zbędny, ponieważ podejście wykorzystujące jedną pochodną wyjaśnia, co dzieje się z większą liczbą pochodnych (przez Taylora), okazuje się, że druga wersja pochodnej jest całkiem niezła.

Po pierwsze, związane z Lipschitzem: po prostu przerób standardową nierówność Jensena. Ta sama sztuczka dotyczy: oblicz ekspansję Taylora na oczekiwanej wartości.

W szczególności Niech ma odpowiednią miarę μ i ustaw m : = E ( x ) . Jeśli f ma stałą L Lipschitza , to według twierdzenia TayloraXμm:=E(x)fL

f(x)=f(m)+f(z)(xm)f(m)+L|xm|,

gdzie (Uwaga: x m i x > m jest możliwe). Używając tego i ponownie pracując nad dowodem Jensena (jestem paranoikiem i sprawdziłem, czy ten standardowy rzeczywiście jest na wikipedii),z[m,x]xmx>m

E(f(X))=f(x)dμ(x)f(m)dμ(x)+L|xm|dμ(x)=f(E(X))+LE(|XE(X)|).

Załóżmy teraz . W tym przypadku,|f(x)|λ

f(x)=f(m)+f(m)(xm)+f(z)(xm)22f(m)+f(m)(xm)+λ(xm)22,

a więc

E(f(X))f(m)+f(m)(E(X)m)+λE((Xm)2)2=f(E(X))+λVar(X)2.

Chciałbym krótko wspomnieć o kilku rzeczach. Przepraszam, jeśli są oczywiste.

Jest to, że nie można po prostu powiedzenia „wlog ” przez przesuwanie rozkładu, ponieważ zmienia się zależność między i .f μE(X)=0fμ

Następnie granica musi w jakiś sposób zależeć od dystrybucji. W tym celu patrz wyobrazić, że i . Niezależnie od wartości , nadal otrzymujesz . Z drugiej strony . Tak więc, zmieniając , możesz uczynić odstęp między dwiema wielkościami dowolnymi! Intuicyjnie większa masa jest wypychana ze średniej, a zatem dla każdej ściśle wypukłej funkcji nazwa wzrośnie.f ( x ) = x 2 σ f ( E ( X ) ) = f ( 0 ) = 0 E ( f ( X ) ) = E ( X 2 ) = σ 2 σ E ( f ( X ) )XGaussian(0,σ2)f(x)=x2σf(E(X))=f(0)=0E(f(X))=E(X2)=σ2σE(f(X))

Wreszcie nie widzę, jak uzyskać mnożenie, jak sugerujesz. Wszystko, czego użyłem w tym poście, jest standardowe: twierdzenie Taylora i granice pochodnych są chlebem i masłem w granicach statystyki i automatycznie dają błędy addytywne, a nie mnożące.

Zastanowię się jednak i opublikuję coś. Nieokreślona intuicja mówi, że będzie wymagała bardzo uciążliwych warunków zarówno dla funkcji, jak i rozkładu, i że granica addytywna jest w istocie jej sednem.

matus
źródło
Za każdym razem, gdy edytuję, odpowiedź jest podbijana. Zwrócę więc uwagę: druga granica pochodnej jest ścisła w podanym przykładzie.
matus
Myślę, że masz rację, że granice addytywne są najlepsze z możliwych bez znacznie silniejszych warunków dla funkcji.
Ian
Drogi łanie, myślałem o tym problemie nieco bardziej, ale główną trudność w moim umyśle daje przykład, który podałem, gdzie , ale E ( f ( X ) ) > 0 . Możesz ograniczyć zarówno rodzinę funkcji (ograniczone, pochodne ograniczone, całkowalne), jak i rozkład (gładkie, ograniczone, ograniczone momenty) i nadal masz te przykłady. Wystarczy mieć symetryczną, nieujemną funkcję równą zero przy średniej rozkładu. To powiedziawszy, wszystko zależy od ograniczeń Twojego dokładnego problemu. W ogólnym przypadku myślę, że charakter addytywny jest fundamentalny.f(E(X))=0E(f(X))>0
matus
@Ian: Dowody nierówności Chernoffa i Azumy-Hoeffdinga wykorzystują argumenty przypominające to, więc możesz przeczytać je dla inspiracji. Patrz np. Książka Mitzenmachera i Upfala na temat randomizacji w informatyce.
Warren Schudy,
3

Aby uzyskać wgląd, rozważ rozkład skoncentrowany na dwóch wartościach; powiedzmy, z jednakowymi prawdopodobieństwami 1/2, że wynosi 1 lub 3, skąd . Take N > > 0 i ε > 0 . Rozważ funkcje f, dla których f ( 1 ) = f ( 3 ) = N ϵ i f ( E [ x ] ) = f ( 2 ) = ϵ . RobiącE[x]=2N>>0ϵ>0ff(1)=f(3)=Nϵf(E[x])=f(2)=ϵ wystarczająco małe iciągłełączenie f pomiędzy tymi trzema punktami możemy sprawić, że krzywizna f będzie tak mała, jak to pożądane. Następnieϵff

jeszczeE[f(x)]=Nϵ

.N=Nϵ/ϵ=E[f(x)]/f(E[x])φ(f)

To pokazuje, że musi być dowolnie duże.φ(f)

whuber
źródło