Wiem, że to może być trochę ryzykowne statystycznie, ale to mój problem.
Mam wiele danych zakresu, to znaczy minimalną, maksymalną i wielkość próbki zmiennej. Dla niektórych z tych danych mam również średnią, ale nie wiele. Chcę porównać te zakresy ze sobą, aby obliczyć zmienność każdego zakresu, a także porównać średnie. Mam dobry powód przypuszczać, że rozkład jest symetryczny wokół średniej i że dane będą miały rozkład Gaussa. Z tego powodu myślę, że mogę uzasadnić użycie środkowej części rozkładu jako przybliżenia średniej, gdy jest ona nieobecna.
Chcę zrekonstruować rozkład dla każdego zakresu, a następnie użyć go, aby podać odchylenie standardowe lub błąd standardowy dla tego rozkładu. Jedyne informacje, jakie mam, to maksima i min obserwowane z próbki oraz punkt środkowy jako przybliżenie średniej.
W ten sposób mam nadzieję, że będę w stanie obliczyć średnie ważone dla każdej grupy, a także opracować współczynnik zmienności dla każdej grupy, w oparciu o dane zakresu i moje założenia (rozkład symetryczny i normalny).
Planuję użyć do tego R, więc każda pomoc kodu byłaby mile widziana.
źródło
Odpowiedzi:
Łączna funkcja skumulowanego rozkładu dla minimum i maksimum x ( n ) dla próbki n z rozkładu Gaussa ze średnią μ i odchyleniem standardowym σ wynosix(1) x(n) n μ σ
gdzie to standardowy gaussowski CDF. Zróżnicowanie względem x ( 1 ) i x ( n ) daje funkcję gęstości prawdopodobieństwa połączeniaΦ ( ⋅ ) x(1) x(n)
gdzie to standardowy gaussowski plik PDF. Biorąc dziennik i upuszczając warunki, które nie zawierają parametrów, daje funkcję prawdopodobieństwa dziennikaϕ(⋅)
To nie wygląda bardzo łagodny, ale to łatwo zauważyć, że bez względu na to maksymalizować wartość przez ustawienie ľ = ľ = x ( n ) + x ( 1 )σ , tj. Punkt środkowy - pierwszy termin jest maksymalizowany, gdy argument jednego CDF jest ujemny od argumentu drugiego; drugi i trzeci termin reprezentują wspólne prawdopodobieństwo dwóch niezależnych zmiennych normalnych.μ=μ^=x(n)+x(1)2
Podstawiając ľ w Log-Likelihood i pisania R = x ( n ) - x ( 1 ) daje £ -l ( σ ; x ( 1 ) , x ( n ) , μ ) = ( n - 2 ) log [ 1 - 2 Φ ( - rμ^ r=x(n)−x(1)
Wyrażenie to ma zostać zmaksymalizowane liczbowo (npσ^ , gdzie k jest stałą zależności tylko od n -perhaps ktoś bardziej matematycznie zręczny niż mogłem pokazać, dlaczego).σ^=k(n)⋅r k n
optimize
z R wstat
zestawie) w celu znalezienia σ . (Okazuje się, że ĎSzacunki nie mają zastosowania bez towarzyszącej mi precyzji. Obserwowane informacje Fishera można ocenić numerycznie (np. Z pakietu
hessian
RnumDeriv
) i wykorzystać do obliczenia przybliżonych błędów standardowych:I(σ)=-∂2ℓ(σ; μ )
Interesujące byłoby porównanie prawdopodobieństwa i oszacowania metody momentów dla pod względem błędu (czy MLE jest spójny?), Wariancji i błędu średniej kwadratowej. Istnieje również kwestia szacowania dla tych grup, w których średnia próbki jest znana oprócz minimum i maksimum.σ
źródło
You need to relate the range to the standard deviation/variance.Letμ be the mean, σ the standard deviation and R=x(n)−x(1) be the range. Then for the normal distribution we have that 99.7 % of probability mass lies within 3 standard deviations from the mean. This, as a practical rule means that with very high probability,
Subtracting the second from the first we obtain
Having a value for the mean and for the standard deviation completely characterizes the normal distribution.
źródło
It is straightforward to get the distribution function of the maximum of the normal distribution (see "P.max.norm" in code). From it (with some calculus) you can get the quantile function (see "Q.max.norm").
Using "Q.max.norm" and "Q.min.norm" you can get the median of the range that is related with N. Using the idea presented by Alecos Papadopoulos (in previous answer) you can calculate sd.
Try this:
źródło