Intuicyjny powód, dla którego informacja dwumianowa Fishera jest odwrotnie proporcjonalna do

12

Myli / wieje, że dwumian ma wariancję proporcjonalną do . Odpowiednio informacja Fishera jest proporcjonalna do . Jaki jest tego powód? Dlaczego informacja Fisher jest zminimalizowana przy ? To znaczy, dlaczego wnioskowanie jest najtrudniejsze przy ?1p(1-p) p=0,5p=0,51p(1-p)p=0,5p=0,5

Kontekst:

Pracuję nad kalkulatorem wielkości próby, a wzór na , potrzebny rozmiar próbki, jest rosnącym współczynnikiem , będącym wynikiem oszacowania wariancji w pochodnej.p ( 1 - p )N.p(1-p)

Cam.Davidson.Pilon
źródło
3
Wariancja zmiennej losowej Bernoulliego z parametrem wynosi a dwumianowa zmienna losowa, będąca sumą niezależnych zmiennych losowych Bernoulliego, ma wariancję , która jest sumą wariancji . W odniesieniu do tego, dlaczego , rozważ wariancję jako moment bezwładności wokół środka masy mas i przy i . p ( 1 - p ) N N p ( 1 - p ) Npp(1p)NNp(1p)N. p 1 - p 1 0p(1p)p1-p10
Dilip Sarwate,
Tak, że proporcjonalnie do , ignorować . Czy możesz rozwinąć swoją drugą część, wydaje się to interesującą perspektywą. Np(1-p)N.
Cam.Davidson.Pilon

Odpowiedzi:

13

Aby zobaczyć, w intuicyjny sposób, że wariancja jest zmaksymalizowana przy , weź równe (odpowiednio ). Wówczas próbka z prawdopodobnie będzie zawierać wiele (odpowiednio ) i tylko kilka (odpowiednio ). Nie ma tam dużej różnorodności.p 0,99 p = 0,01 X Bernoulli ( p ) 1 0 0 1p=0,5p0,99p=0,01XBernoulli(p)1001

ocram
źródło
To prawda. Być może powinienem zapytać, dlaczego informacja Fisher jest zminimalizowana przy ? p=0.5, tj. dlaczego wnioskowanie jest najtrudniejsze przy ? Zaktualizuję moje pytanie, aby to odzwierciedlić. p=0,5
Cam.Davidson.Pilon
3
Ponownie w bardzo intuicyjny sposób: im większa różnorodność, tym więcej informacji potrzebujesz.
ocram
9

Wnioskowanie jest „trudne” dla ”w środku, ponieważ próbka z pobliżu środka jest zgodna z szerszym zakresem . Blisko końców nie może być tak daleko - ponieważ końce są „barierami”, powyżej których nie może wyjść.pp^pp

Myślę jednak, że intuicyjność jest łatwiejsza, gdy patrzy się na nią w kategoriach wariancji.

Intuicja na temat wariancji dużego dwumianu na środku i małego na końcach jest raczej prosta: w pobliżu punktów końcowych nie ma miejsca na „rozłożenie” danych. Rozważmy małe - ponieważ średnia jest bliska 0, zmiana nie może być duża - dla danych do średniej może dojść tak daleko od średniej.pp

Rozważmy wariancję proporcji próbki w serii prób Bernoulliego. Tutaj . Tak więc, trzymając stałe i zmieniające się , zmiana jest znacznie mniejsza dla pobliżu 0:Var(p^)=p(1-p)/nnpp

Proporcja próbki w próbkach dwumianowych - tutaj jest po prostu losowym jednorodnym; niebieska obudowa ma średnią 0,03, czarna średnia 0,5 (dodano trochę fluktuacji, aby punkty nie gromadziły się zbytnio i nie traciły szczegółów) ywprowadź opis zdjęcia tutaj

Odpowiednie funkcje prawdopodobieństwa: wprowadź opis zdjęcia tutaj

W każdym przypadku zwróć uwagę na linie oznaczające średnią. Ponieważ linia średnia staje się bardziej „zakleszczona” w stosunku do bariery, punkty poniżej średniej mogą dostać się tylko nieznacznie poniżej.

W rezultacie punkty powyżej średniej zwykle nie mogą przekroczyć średniej (ponieważ w przeciwnym razie średnia zmieniłaby się!). W pobliżu punkty końcowe tak naprawdę nie „wypychają go” w taki sam sposób, jak robi się to, gdy jest tam bariera.p=12)

wprowadź opis zdjęcia tutaj

Jednocześnie widzimy, dlaczego rozkład musi być wypaczony na końcach; aby zmienna losowa była nawet przez jakiś czas większa niż powyżej średniej, musi być odpowiednio większe prawdopodobieństwo zredukowane tak daleko poniżej średniej, jak to możliwe. Ta zbliżająca się bariera przy 0 daje zarówno ograniczenie zmienności, jak i prowadzi do skosu.p^p

[Ta forma intuicji nie mówi nam, dlaczego przyjmuje dokładnie tę funkcjonalną formę, ale wyjaśnia, dlaczego wariancja musi być mała przy końcach i zmniejszać się, im bliżej końca.]

Glen_b - Przywróć Monikę
źródło
W rezultacie punkty powyżej średniej zwykle nie mogą przekroczyć średniej (ponieważ w przeciwnym razie średnia zmieniłaby się!). W pobliżu p = 12 punkty końcowe tak naprawdę nie „zwiększają” w ten sam sposób. Za idealne. To świetne wytłumaczenie.
Cam.Davidson.Pilon
7

Informacja Fishera jest wariancją funkcji score. Jest to związane z entropią. W przypadku procesu Bernoulli dostajemy jeden bit za każdy proces. Informacje Fisher mają więc podobne właściwości, jak Shannon Entropy, jak można się spodziewać. W szczególności entropia ma maksimum na 1/2, a informacja ma minimum na 1/2.

James
źródło
Ach, kolejna świetna perspektywa. Nie myślałem o tym z entropicznego punktu widzenia!
Cam.Davidson.Pilon