Zrozumienie dowodu lematu stosowanego w nierówności Hoeffdinga

11

Studiuję notatki do wykładu Larry'ego Wassermana na temat statystyki, w których Casella i Berger są głównym tekstem. Pracuję nad jego notatkami z wykładu, zestawem 2 i utknąłem w wyprowadzaniu lematu stosowanego w nierówności Hoeffdinga (s. 2-3). Powtarzam dowód w uwagach poniżej, a po dowodzie wskażę, gdzie utknąłem.


Lemat

Załóżmy, że i że . Następnie .E(X)=0aXbE(etX)et2(ba)2/8

Dowód

Ponieważ , możemy napisać jako wypukłą kombinację i , a mianowicie where . Wypukłość funkcji mamyaXbXabX=αb+(1α)aα=Xabayety

etXαetb+(1α)eta=Xabaetb+bXbaeta

Weź oczekiwania obu stron i użyj faktu aby uzyskaćE(X)=0

E(etX)abaetb+bbaeta=eg(u)

gdzie , i . Zauważ, że . Również dla wszystkich u> 0 .u=t(ba)g(u)=γu+log(1γ+γeu)γ=a/(ba)g(0)=g(0)=0g(u)1/4u>0

Według twierdzenia Taylora istnieje ε(0,u) taki, że g(u)=g(0)+ug(0)+u22g(ε)=u22g(ε)u28=t2(ba)28

Stąd E(etX)eg(u)et2(ba)28 .


Mogę śledzić dowód do

E(etX)abaetb+bbaeta=eg(u) ale nie jestem w stanie dowiedzieć się, jak uzyskać .u,g(u),γ

Anand
źródło
3
Interesujące jest to, że maksymalna wartość wynosi a zatem efektem jest efektywnie które wydaje się zbyt znajome, aby wynikać z czystego przypadku. Podejrzewam, że może istnieć inny, być może łatwiejszy, sposób na uzyskanie wyniku za pomocą argumentu probabilistycznego. var(X)σmax2=(ba)2/4
E[etX]eσmax2t2/2
Dilip Sarwate
@DilipSarwate Rozumiem, że maksymalna wariancja występuje dla jednolitej zmiennej losowej . Wariacją jest . Czy możesz wyjaśnić, skąd masz ? XU(a,b)XVar(X)=(ba)212(ba)24
Anand
Koncentrując masę na punktach końcowych ...
Elvis
@DilipSarwate W dowodzie dodałem kilka komentarzy, które mogą wyjaśnić trochę, dlaczego najgorszym przypadkiem jest maksymalna wariancja.
Elvis
1
@DilipSarwate - Zobacz lemat 1 i ćwiczenie 1 tutaj: terrytao.wordpress.com/2010/01/03/… . Wydaje się, że istnieje prostsze wyprowadzenie oparte na nierówności Jensena i ekspansji Taylora. Jednak szczegóły tego są dla mnie niejasne. Być może ktoś może to zrozumieć. (wyprowadzenie (9) na (10) i ćwiczenie 1)
Leo

Odpowiedzi:

17

Nie jestem pewien, czy poprawnie zrozumiałem twoje pytanie. Spróbuję odpowiedzieć: spróbuj napisać w funkcji : this jest naturalne, ponieważ chcesz powiązać w .

abaetb+bbaeta
u=t(ba)eu28

Dzięki doświadczeniu dowiesz się , że lepiej jest napisać go w formie . Następnie prowadzi do with .eg(u)

eg(u)=abaetb+bbaeta
g(u)=log(abaetb+bbaeta)=log(eta(abaet(ba)+bba))=ta+log(γeu+(1γ))=γu+log(γeu+(1γ)),
γ=aba

Czy o to prosiłeś?

Edycja: kilka komentarzy do dowodu

  1. Na pierwszą sztuczkę zasługuje się uważnie: jeśli jest funkcją wypukłą, a jest wyśrodkowaną zmienną losową, to gdzie jest zmienną dyskretną zdefiniowaną przez W rezultacie otrzymujesz, że jest środkowa zmienna z obsługą w która ma największą wariancję: Pamiętaj, że jeśli naprawimy szerokość podporyϕaXb
    E(ϕ(X))abaϕ(b)+bbaϕ(a)=E(ϕ(X0)),
    X0
    P(X0=a)=bbaP(X0=b)=aba.
    X0[a,b]
    Var(X)=E(X2)E(X02)=ba2ab2ba=ab.
    (ba), jest to mniej niż jak mówi Dilip w komentarzach, dzieje się tak, ponieważ ; granica jest osiągana dla .(ba)24(ba)2+4ab0a=b
  2. Teraz przejdź do naszego problemu. Dlaczego możliwe jest uzyskanie granicy zależnej tylko od ? Intuicyjnie jest to tylko kwestia przeskalowania : jeśli masz ograniczony dla przypadku , to ogólne ograniczenie można uzyskać biorąc . Zastanówmy się teraz nad zestawem zmiennych wyśrodkowanych ze wsparciem szerokości 1: nie ma tak dużo swobody, więc powinna istnieć powiązana wartość . Innym podejściem jest powiedzenie po prostu, że z powyższego lematu na , a bardziej ogólnie , który zależy tylko od iu=t(ba)XE(etX)s(t)ba=1s(t(ba))s(t)

    E(ϕ(X))E(ϕ(tX))E(ϕ(tX0))uγ : jeśli naprawisz i i pozwól że różnią, jest tylko jeden stopień swobody, i , , . Otrzymujemy Po prostu trzeba znaleźć związany z udziałem tylko .u=u0=t0(b0a0)γ=γ0=a0b0a0t,a,bt=t0αa=αa0b=αa0

    abaϕ(tb)+bbaϕ(ta)=a0b0a0ϕ(tb0)+b0b0a0ϕ(a0).
    u
  3. Teraz jesteśmy przekonani, że da się to zrobić, musi być znacznie łatwiej! Nie koniecznie pomyśleć na początku. Chodzi o to, że musisz napisać wszystko jako funkcję i . Najpierw zauważ, że , , and . Następnie Teraz jesteśmy w szczególnym przypadku ... I myślę, że możesz skończyć.guγ

    γ=aba1γ=bbaat=γubt=(1γ)u

    E(ϕ(tX))abaϕ(tb)+bbaϕ(ta)=γϕ((1γ)u)+(1γ)ϕ(γu)


    ϕ=exp

Mam nadzieję, że trochę to wyjaśniłem.

Elvis
źródło
właśnie tego szukałem. Wielkie dzięki.
Anand
1
@I wiem, że trudno jest postępować zgodnie z radami, ale myślę, że nie powinieneś zaczynać od skupienia się na szczegółach technicznych, ale raczej spróbuj dowiedzieć się, dlaczego taka granica może istnieć ... wtedy dowód powinien być łatwiejszy. Próbowałem pokazać, dlaczego w drugiej części, dodałem dziś rano (musisz spać na takie pytanie - przynajmniej muszę). Myślę, że to okropne, że tego rodzaju intuicje nie pojawiają się w większości podręczników ... nawet jeśli dostaniesz część techniczną, dopóki nie masz pomysłów, wszystko wygląda magicznie. Dziękuję i CrossV za umożliwienie mi przemyślenia tego szczegółowo!
Elvis
1
Łał! +1 za edycję. Dzięki. Ale czy nie byłoby miło, gdyby można było uzyskać coś takiego jak
E[etX]eE[t2X2/2]=e(t2/2)E[X2]=e(t2/2)var(X)et2σmax2/2?
Dilip Sarwate
@Elvis Dziękujemy za radę i czas poświęcony na zapisanie części intuicyjnej. Muszę poświęcić trochę czasu, aby to zrozumieć!
Anand
1
@ Elvis Biorąc pod uwagę intuicję, chcę wyjaśnić swoje rozumienie. Aby uzyskać ostrzejsze granice, potrzeba dłuższych chwil. Markow używa pierwszej chwili, Czebiszew drugiej, a Hoeffding używa mgf. Czy to jest poprawne? Gdyby ktoś mógł rozwinąć i wyjaśnić tę część, byłoby świetnie.
Anand