Istnieje wiele niezawodnych estymatorów skali . Godnym uwagi przykładem jest mediana bezwzględnego odchylenia, które odnosi się do odchylenia standardowego jako . W ramach bayesowskich istnieje wiele sposobów dokładnego oszacowania lokalizacji mniej więcej normalnej dystrybucji (powiedzmy normalnej zanieczyszczonej wartościami odstającymi), na przykład można założyć, że dane są dystrybuowane tak jak w dystrybucji lub dystrybucji Laplace'a. Teraz moje pytanie:
Czym byłby model bayesowski do pomiaru skali mniej więcej normalnego rozkładu w solidny sposób, solidny w tym samym sensie, co MAD lub podobne niezawodne estymatory?
Podobnie jak w przypadku MAD, byłoby fajnie, gdyby model bayesowski mógł zbliżyć się do SD rozkładu normalnego w przypadku, gdy rozkład danych jest faktycznie rozkładem normalnym.
edycja 1:
Typowym przykładem modelu, który jest odporny na zanieczyszczenia / skrajnych przy założeniu danych jest w przybliżeniu normalnie stosuje się rozkład, takich jak:
Gdzie jest średnią, jest skalą, a jest stopniem swobody. Z odpowiednich priors na i , będą szacunkową średnią który będzie odporny na błędne. Jednak nie będzie spójne oszacowanie SD jak zależy . Na przykład, jeśli będzie ustalona na 4,0 i wzór powyżej, być przymocowane do ogromnej ilości próbek z rozkład to s będzie wynosić około 0,82. To, czego szukam, to model, który jest solidny, podobnie jak model t, ale dla SD zamiast (lub dodatkowo) średniej.
edycja 2:
Poniżej znajduje się zakodowany przykład w R i JAGS, w którym wspomniany powyżej model t jest bardziej niezawodny w odniesieniu do średniej.
# generating some contaminated data
y <- c( rnorm(100, mean=10, sd=10),
rnorm(10, mean=100, sd= 100))
#### A "standard" normal model ####
model_string <- "model{
for(i in 1:length(y)) {
y[i] ~ dnorm(mu, inv_sigma2)
}
mu ~ dnorm(0, 0.00001)
inv_sigma2 ~ dgamma(0.0001, 0.0001)
sigma <- 1 / sqrt(inv_sigma2)
}"
model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=10000)
summary(mcmc_samples)
### The quantiles of the posterior of mu
## 2.5% 25% 50% 75% 97.5%
## 9.8 14.3 16.8 19.2 24.1
#### A (more) robust t-model ####
library(rjags)
model_string <- "model{
for(i in 1:length(y)) {
y[i] ~ dt(mu, inv_s2, nu)
}
mu ~ dnorm(0, 0.00001)
inv_s2 ~ dgamma(0.0001,0.0001)
s <- 1 / sqrt(inv_s2)
nu ~ dexp(1/30)
}"
model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=1000)
summary(mcmc_samples)
### The quantiles of the posterior of mu
## 2.5% 25% 50% 75% 97.5%
##8.03 9.35 9.99 10.71 12.14
źródło
Odpowiedzi:
Wnioskowanie bayesowskie w modelu hałasu T z odpowiednim wyprzedzeniem da wiarygodne oszacowanie lokalizacji i skali. Dokładne warunki, które prawdopodobieństwo i wcześniejsze potrzeby muszą spełnić, podane są w pracy Bayesowskiego modelowania odporności parametrów lokalizacji i skali przez Andrade'a i O'Hagana (2011). Szacunki są wiarygodne w tym sensie, że pojedyncza obserwacja nie może uczynić oszacowań arbitralnie dużymi, jak pokazano na ryc. 2 artykułu.
Kiedy dane są normalnie dystrybuowane, SD dopasowanego rozkładu T (dla stałego ) nie pasuje do SD rozkładu generującego. Ale łatwo to naprawić. Niech σ być odchylenie standardowe rozkładu prądotwórczego i niech s jest odchyleniem standardowym rozkładu dopasowanego T. Jeżeli dane są skalowane o 2, to z postaci prawdopodobieństwa wiemy, że s musi być skalowane o 2. Oznacza to, że s = σ f ( ν ) dla niektórych stałych funkcji f . Ta funkcja może być obliczona numerycznie przez symulację standardowej normy. Oto kod, aby to zrobić:ν σ s s s=σf(ν) f
Na przykład przy otrzymuję f ( ν ) = 1,18 . Żądany estymator następnie σ = s / f ( ν ) .ν=4 f(ν)=1.18 σ^=s/f(ν)
źródło
Kiedy zadajesz pytanie na temat bardzo precyzyjnego problemu (rzetelne oszacowanie), dam ci równie precyzyjną odpowiedź. Najpierw jednak zacznę próbować rozwiać nieuzasadnione założenie. Nie jest prawdą, że istnieje solidna bayesowska ocena lokalizacji (istnieją bayesowskie estymatory lokalizacji, ale jak ilustruję poniżej, nie są one solidne i, wydaje , nawet najprostszy solidny estymator lokalizacji nie jest bayesowski). Moim zdaniem powody braku nakładania się paradygmatu „bayesowskiego” i „solidnego” w przypadku lokalizacji znacznie przyczyniają się do wyjaśnienia, dlaczego nie ma również estymatorów rozproszenia, które byłyby zarówno solidne, jak i bayesowskie.
Właściwie nie. Wynikowe oszacowania będą solidne tylko w bardzo słabym znaczeniu tego słowa. Jednak gdy mówimy, że mediana jest solidna na wartości odstające, mamy na myśli słowo solidne w znacznie silniejszym znaczeniu. To znaczy, w solidnych statystykach, odporność mediany odnosi się do właściwości, która jeśli obliczymy medianę na zbiorze danych obserwacji pochodzących z jednomodalnego modelu ciągłego, a następnie zastąpimy mniej niż połowę tych obserwacji arbitralnymi wartościami , wartość mediany obliczonej na zanieczyszczonych danych jest zbliżona do wartości, którą miałbyś, gdybyś obliczył ją na oryginalnym (niezanieczyszczonym) zbiorze danych. Łatwo zatem wykazać, że strategia szacowania zaproponowana w cytowanym powyżej akapicie zdecydowanie nie jest solidny w tym sensie, w jaki to słowo jest zazwyczaj rozumiane jako mediana.
Zupełnie nie znam analizy bayesowskiej. Zastanawiałem się jednak, co jest nie tak z następującą strategią, ponieważ wydaje się ona prosta, skuteczna, a jednak nie została uwzględniona w innych odpowiedziach. Pierwszym z nich jest to, że duża część danych pochodzi z symetrycznego rozkładu i że stopień zanieczyszczenia jest mniejszy niż połowa. Następnie prostą strategią byłoby:F
EDYTOWAĆ:
Dzięki OP za udostępnienie samodzielnego kodu R do przeprowadzenia bayesowskiej analizy problemu bonna fide.
poniższy kod porównuje podejście bayesowskie sugerowane przez PO z jego alternatywą dla solidnej literatury statystycznej (np. metoda dopasowania zaproponowana przez Gaussa w przypadku, gdy dane mogą zawierać nawetn/2−2
skrajnych i dystrybucji duża część danych to Gaussa).
centralna część danych to :N(1000,1)
Dodaj pewną ilość zanieczyszczeń:
indeks w przyjmuje wartość 1 dla wartości odstających. Zaczynam od podejścia zaproponowanego przez PO:
Dostaję:
i:
(cicho daleko od wartości docelowych)
W przypadku niezawodnej metody
dostaje się:
(bardzo blisko wartości docelowych)
Drugi wynik jest znacznie bliższy rzeczywistym wartościom. Ale robi się coraz gorzej. Jeśli będziemy klasyfikować jako odstających te obserwacje, których szacunkowa -score jest większy niż (należy pamiętać, że przed to, że F jest Gaussa) wtedy Bayesa znaleziska podejście, żez F wszystkie obserwacje są odstające (solidna procedura, w przeciwieństwie do tego, flagi i wszystko tylko wartości odstające jako takie). Oznacza to również, że jeśli miałbyś przeprowadzić zwykłą (niesolidną) analizę bayesowską na danych niesklasyfikowanych jako odstające według solidnej procedury, powinieneś zrobić dobrze (np. Osiągnąć cele określone w pytaniu).t
th
To tylko przykład, ale to rzeczywiście dość proste, aby pokazać, że (a może to zrobić formalnie, patrz na przykład, w rozdziale 2 [1]) parametry studenta dystrybucji dopasowane do danych skażonych nie można zależało, aby odsłonić wartości odstające.
źródło
W analizie bayesowskiej powszechnym wyborem jest odwrotny rozkład gamma jako pierwszeństwo dla precyzji (odwrotność wariancji). Lub odwrotny rozkład Wishart dla modeli wielowymiarowych. Dodanie wcześniejszego wariantu poprawia odporność na wartości odstające.
Jest ładny artykuł Andrew Gelmana: „Wcześniejsze rozkłady parametrów wariancji w modelach hierarchicznych”, w których omawia, jakie mogą być dobre wybory dla priorów w wariancjach.
źródło
źródło
I have followed the discussion from the original question. Rasmus when you say robustness I am sure you mean in the data (outliers, not miss-specification of distributions). I will take the distribution of the data to be Laplace distribution instead of a t-distribution, then as in normal regression where we model the mean, here we will model the median (very robust) aka median regression (we all know). Let the model be:
Of course our goal is to estimate model parameters. We expect our priors to be vague to have an objective model. The model at hand has a posterior of the formf(β,σ,Y,X) . Giving β a normal prior with large variance makes such a prior vague and a chis-squared prior with small degrees of freedom to mimic a jeffrey's prior(vague prior) is given to to σ2 . With a Gibbs sampler what happens? normal prior+laplace likehood=???? we do know. Also chi-square prior +laplace likelihood=??? we do not know the distribution. Fortunately for us there is a theorem in (Aslan,2010) that transforms a laplace likelihood to a scale mixture of normal distributions which then enable us to enjoy the conjugate properties of our priors. I think the whole process described is fully robust in terms of outliers. In a multivariate setting chi-square becomes a a wishart distribution, and we use multivariate laplace and normal distributions.
źródło
Suppose that you haveK groups and you want to model the distribution of their sample variances, perhaps in relation to some covariates x . That is, suppose that your data point for group k∈1…K is Var(yk)∈[0,∞) . The question here is, "What is a robust model for the likelihood of the sample variance?" One way to approach this is to model the transformed data ln[Var(yk)] as coming from a t distribution, which as you have already mentioned is a robust version of the normal distribution. If you don't feel like assuming that the transformed variance is approximately normal as n→∞ , then you could choose a probability distribution with positive real support that is known to have heavy tails compared to another distribution with the same location. For example, there is a recent answer to a question on Cross Validated about whether the lognormal or gamma distribution has heavier tails, and it turns out that the lognormal distribution does (thanks to @Glen_b for that contribution). In addition, you could explore the half-Cauchy family.
Similar reasoning applies if instead you are assigning a prior distribution over a scale parameter for a normal distribution. Tangentially, the lognormal and inverse-gamma distributions are not advisable if you want to form a boundary avoiding prior for the purposes of posterior mode approximation because they peak sharply if you parameterize them so that the mode is near zero. See BDA3 chapter 13 for discussion. So in addition to identifying a robust model in terms of tail thickness, keep in mind that kurtosis may matter to your inference, too.
I hope this helps you as much as your answer to one of my recent questions helped me.
źródło