Właśnie pomyślałem o zgrabnym (niekoniecznie dobrym) sposobie tworzenia szacunków gęstości jednowymiarowej i moje pytanie brzmi:
Czy ta metoda szacowania gęstości ma nazwę? Jeśli nie, to czy jest to szczególny przypadek innej metody w literaturze?
Oto metoda: mamy wektor który, jak zakładamy, pochodzi z nieznanego rozkładu, który chcielibyśmy oszacować. Sposobem na zrobienie tego jest pobranie wszystkich możliwych par wartości w i dla każdej pary dopasować rozkład normalny z maksymalnym prawdopodobieństwem. Wynikowa ocena gęstości jest wówczas rozkładem mieszaniny, który składa się ze wszystkich uzyskanych normalnych, gdzie każda normalna ma taką samą wagę.X [ x i , x j ] i ≠ j
Poniższy rysunek ilustruje użycie tej metody na wektorze . Tutaj koła są punktami danych, kolorowe Normalne są maksymalnymi rozkładami prawdopodobieństwa oszacowanymi przy użyciu każdej możliwej pary, a gruba czarna linia pokazuje wynikowe oszacowanie gęstości (to znaczy rozkład mieszaniny).
Nawiasem mówiąc, bardzo łatwo jest wdrożyć metodę w R, która pobiera próbkę z wynikowego rozkładu mieszaniny:
# Generating some "data"
x <- rnorm(30)
# Drawing from the density estimate using the method described above.
density_estimate_sample <- replicate(9999, {
pair <- sample(x, size = 2)
rnorm(1, mean(pair), sd(pair))
})
# Plotting the density estimate compared with
# the "data" and the "true" density.
hist(x ,xlim=c(-5, 5), main='The "data"')
hist(density_estimate_sample, xlim=c(-5, 5), main='Estimated density')
hist(rnorm(9999), xlim=c(-5, 5), main='The "true" density')
źródło
x <- c(rnorm(30), rnorm(30, 10))
Odpowiedzi:
Jest to intrygujący pomysł, ponieważ estymator odchylenia standardowego wydaje się być mniej wrażliwy na wartości odstające niż zwykłe podejścia średniej kwadratowej. Wątpię jednak, aby ten estymator został opublikowany. Są trzy powody, dla których: jest nieefektywny obliczeniowo, jest tendencyjny, a nawet po poprawieniu błędu systematycznego jest nieefektywny statystycznie (ale tylko trochę). Można to zobaczyć z małą wstępną analizą, więc zróbmy to najpierw, a następnie wyciągnij wnioski.
Analiza
Estymatory ML średniej i odchylenia standardowego na podstawie danych wynosząσ ( x i , x j )μ σ ( xja, xjot)
i
Dlatego metoda opisana w pytaniu to
który jest zwykle estymatorem średniej, oraz
Oczekiwaną wartość tego estymatora można łatwo znaleźć, wykorzystując wymienność danych, co oznacza, że jest niezależne od i . Skądmi= E ( | xja- xjot| ) ja jot
Ale ponieważ i są niezależnymi zmiennymi Normalne, ich różnica jest równa zeru Normalna z wariancją . Jego wartość bezwzględna wynosi zatem razy , którego średnia to . w konsekwencjixja xjot 2 σ2) 2)-√σ χ ( 1 ) 2 / π---√
Współczynnik jest odchyleniem w tym estymatorze.2 / π--√≈ 1,128
W ten sam sposób, ale przy znacznie większej ilości pracy, można było obliczyć wariancję , ale - jak zobaczymy - mało prawdopodobne jest zainteresowanie tym tematem, dlatego oszacuję to za pomocą szybkiej symulacji .σ^
Wnioski
Estymator jest stronniczy. ma znaczną stałą stronniczość około + 13%. Można to poprawić. W tym przykładzie z wielkością próby zarówno histogramy z tendencyjnością, jak i z korekcją błędu systematycznego. Widoczny jest błąd 13%.σ^ n = 20 , 000
Jest to nieefektywne obliczeniowo. Ponieważ suma wartości bezwzględnych,, nie ma algebraicznego uproszczenia, jego obliczenie wymaga wysiłku zamiast wysiłku dla prawie każdego innego estymatora. To źle się skaluje, co powoduje, że jest zbyt drogie, gdy przekroczy około . Na przykład obliczenie poprzedniej liczby wymagało 45 sekund czasu procesora i 8 GB pamięci RAM . (Na innych platformach wymagania pamięci RAM byłyby znacznie mniejsze, być może przy niewielkim koszcie czasu obliczeniowego).∑ja , j| xja- xjot| O ( n2)) O ( n ) n 10 , 000
R
Jest to statystycznie nieefektywne. Aby uzyskać najlepszy wynik, rozważmy wersję bezstronną i porównajmy ją z bezstronną wersją estymatora najmniejszych kwadratów lub maksymalnego prawdopodobieństwa
Poniższyn = 3 n = 300 σ^O L S σ
R
kod pokazuje, że bezstronna wersja estymatora w pytaniu jest zaskakująco wydajna: w zakresie wielkości próbek od do jej wariancja jest zwykle około 1% do 2% większa niż wariancja . Oznacza to, że powinieneś zaplanować zapłacenie dodatkowych 1% do 2% więcej za próbki, aby osiągnąć dowolny poziom precyzji w szacowaniu .n = 300 σ O L S σPotem
Forma przypomina solidny i odporny estymator Theil-Sen - ale zamiast używać median różnic bezwzględnych, używa ich środków. Jeśli celem jest posiadanie estymatora odpornego na wartości odstające lub odpornego na odstępstwa od założenia Normalności, wówczas użycie mediany byłoby bardziej wskazane.σ^
Kod
źródło