Myli / wieje, że dwumian ma wariancję proporcjonalną do . Odpowiednio informacja Fishera jest proporcjonalna do . Jaki jest tego powód? Dlaczego informacja Fisher jest zminimalizowana przy ? To znaczy, dlaczego wnioskowanie jest najtrudniejsze przy ?1 p=0,5p=0,5
Kontekst:
Pracuję nad kalkulatorem wielkości próby, a wzór na , potrzebny rozmiar próbki, jest rosnącym współczynnikiem , będącym wynikiem oszacowania wariancji w pochodnej.p ( 1 - p )
variance
binomial
interpretation
Cam.Davidson.Pilon
źródło
źródło
Odpowiedzi:
Aby zobaczyć, w intuicyjny sposób, że wariancja jest zmaksymalizowana przy , weź równe (odpowiednio ). Wówczas próbka z prawdopodobnie będzie zawierać wiele (odpowiednio ) i tylko kilka (odpowiednio ). Nie ma tam dużej różnorodności.p 0,99 p = 0,01 X ∼ Bernoulli ( p ) 1 0 0 1p = 0,5 p 0,99 p = 0,01 X∼Bernoulli(p) 1 0 0 1
źródło
Wnioskowanie jest „trudne” dla ”w środku, ponieważ próbka z pobliżu środka jest zgodna z szerszym zakresem . Blisko końców nie może być tak daleko - ponieważ końce są „barierami”, powyżej których nie może wyjść.p p^ p p
Myślę jednak, że intuicyjność jest łatwiejsza, gdy patrzy się na nią w kategoriach wariancji.
Intuicja na temat wariancji dużego dwumianu na środku i małego na końcach jest raczej prosta: w pobliżu punktów końcowych nie ma miejsca na „rozłożenie” danych. Rozważmy małe - ponieważ średnia jest bliska 0, zmiana nie może być duża - dla danych do średniej może dojść tak daleko od średniej.p p
Rozważmy wariancję proporcji próbki w serii prób Bernoulliego. Tutaj . Tak więc, trzymając stałe i zmieniające się , zmiana jest znacznie mniejsza dla pobliżu 0:Var ( str^) = p ( 1 - p ) / n n p p
Proporcja próbki w próbkach dwumianowych - tutaj jest po prostu losowym jednorodnym; niebieska obudowa ma średnią 0,03, czarna średnia 0,5 (dodano trochę fluktuacji, aby punkty nie gromadziły się zbytnio i nie traciły szczegółów)y
Odpowiednie funkcje prawdopodobieństwa:
W każdym przypadku zwróć uwagę na linie oznaczające średnią. Ponieważ linia średnia staje się bardziej „zakleszczona” w stosunku do bariery, punkty poniżej średniej mogą dostać się tylko nieznacznie poniżej.
W rezultacie punkty powyżej średniej zwykle nie mogą przekroczyć średniej (ponieważ w przeciwnym razie średnia zmieniłaby się!). W pobliżu punkty końcowe tak naprawdę nie „wypychają go” w taki sam sposób, jak robi się to, gdy jest tam bariera.p = 12)
Jednocześnie widzimy, dlaczego rozkład musi być wypaczony na końcach; aby zmienna losowa była nawet przez jakiś czas większa niż powyżej średniej, musi być odpowiednio większe prawdopodobieństwo zredukowane tak daleko poniżej średniej, jak to możliwe. Ta zbliżająca się bariera przy 0 daje zarówno ograniczenie zmienności, jak i prowadzi do skosu.p^ p
[Ta forma intuicji nie mówi nam, dlaczego przyjmuje dokładnie tę funkcjonalną formę, ale wyjaśnia, dlaczego wariancja musi być mała przy końcach i zmniejszać się, im bliżej końca.]
źródło
Informacja Fishera jest wariancją funkcji score. Jest to związane z entropią. W przypadku procesu Bernoulli dostajemy jeden bit za każdy proces. Informacje Fisher mają więc podobne właściwości, jak Shannon Entropy, jak można się spodziewać. W szczególności entropia ma maksimum na 1/2, a informacja ma minimum na 1/2.
źródło