Dlaczego potrzebujemy estymatora, aby był spójny?

15

Myślę, że zrozumiałem już matematyczną definicję spójnego estymatora. Popraw mnie, jeśli się mylę:

Wn jest spójnym estymatorem dlaθ jeśliϵ>0

limnP(|Wnθ|>ϵ)=0,θΘ

Gdzie jest przestrzenią parametryczną. Ale chcę zrozumieć, że estymator musi być spójny. Dlaczego niespójny estymator jest zły? Czy możesz podać mi kilka przykładów?Θ

Akceptuję symulacje w języku R lub python.

Fam
źródło
3
Estymator, który nie jest spójny, nie zawsze jest zły. Weźmy na przykład niespójnego, ale bezstronnego estymatora. Zobacz artykuł Wikipedii na temat spójnego estymatora en.wikipedia.org/wiki/Consistent_estimator , w szczególności rozdział na temat uprzedzeń a spójności
compbiostats
Spójność jest z grubsza optymalnym asymptotycznym zachowaniem estymatora. Wybieramy estymator, który na dłuższą metę zbliża się do prawdziwej wartości . Ponieważ jest to tylko zbieżność według prawdopodobieństwa, ten wątek może być pomocne: stats.stackexchange.com/questions/134701/... . θ
StubbornAtom
@StubbornAtom, nazwałbym taki spójny estymator „optymalnym”, ponieważ termin ten jest zwykle zarezerwowany dla estymatorów, które również są w pewnym sensie wydajne.
Christoph Hanck

Odpowiedzi:

22

Jeśli estymator nie jest spójny, nie zbiegnie się z prawdziwą wartością prawdopodobieństwa . Innymi słowy, zawsze istnieje prawdopodobieństwo, że twój estymator i rzeczywista wartość będą miały różnicę, bez względu na to, ile masz punktów danych. To jest naprawdę złe, ponieważ nawet jeśli zbierzesz ogromną ilość danych, twoje oszacowanie zawsze będzie miało dodatnie prawdopodobieństwo, że będzie się różnić o od prawdziwej wartości. Praktycznie możesz uznać tę sytuację, jakbyś używał oszacowania ilości takiego, że nawet badanie całej populacji, zamiast małej próbki, nie pomoże.ϵ>0

pistolety
źródło
21

Rozważmy obserwacji ze standardowego rozkładu Cauchy'ego, który jest taki sam jak rozkład t Studenta z 1 stopniem swobody. Ogony tego rozkładu są na tyle ciężkie, że nie ma to żadnego znaczenia; rozkład jest wyśrodkowany na jego medianien=10000η=0.

Sekwencja próbki oznacza, że nie jest spójny dla środka rozkładu Cauchy'ego. Z grubsza mówiąc, trudność polega na tym, że występują bardzo ekstremalne obserwacje (dodatnie lub ujemne) z wystarczającą regularnością, że nie ma szans, że zbiegnie się do ( są nie tylko powolne, ale nie zawsze zbieżność. Rozkład jest znowu standardem Cauchy'ego [ dowód ].)Aj=1ji=1jXiXiAjη=0.AjAj

Dla kontrastu, na każdym etapie ciągłego procesu próbkowania, około połowa obserwacji będzie leżeć po obu stronach tak że sekwencja median próbki nie zbiegnie się zXiη,Hjη.

Ten brak zbieżności i zbieżności ilustruje następująca symulacja.AjHj

set.seed(2019)  # for reproducibility
n = 10000;  x = rt(n, 1);  j = 1:n
a = cumsum(x)/j
h = numeric(n)
for (i in 1:n) {
  h[i] = median(x[1:i])  } 
par(mfrow=c(1,2))
 plot(j,a, type="l", ylim=c(-5,5), lwd=2,
    main="Trace of Sample Mean")
  abline(h=0, col="green2")
  k = j[abs(x)>1000] 
  abline(v=k, col="red", lty="dotted")
 plot(j,h, type="l", ylim=c(-5,5), lwd=2,
     main="Trace of Sample Median")
  abline(h=0, col="green2") 
par(mfrow=c(1,1))

wprowadź opis zdjęcia tutaj

Oto lista kroków, na których Możesz zobaczyć wpływ niektórych z tych ekstremalnych obserwacji na średnie bieżące na wykresie po lewej stronie (na pionowych czerwonych kropkowanych liniach).|Xi|>1000.

k = j[abs(x)>1000]
rbind(k, round(x[k]))
   [,1] [,2] [,3]  [,4] [,5]  [,6]   [,7]  [,8]
k   291  898 1293  1602 2547  5472   6079  9158
  -5440 2502 5421 -2231 1635 -2644 -10194 -3137

Ważna jest spójność w estymacji: Przy pobieraniu próbek z populacji Cauchy'ego średnia próbki z próby obserwacji nie jest lepsza do oszacowania centrum niż tylko jedna obserwacja. Natomiast spójna mediana próbki jest zbieżna z więc większe próbki dają lepsze oszacowania.n=10000ηη,

BruceET
źródło
1
Trochę podchwytywanie, ale twoja symulacja pokazuje, że niepowodzenie próbki oznacza prawie pewne, nie prawdopodobne, zejście się do centrum Cauchy'ego (spójność silna kontra słaba).
aleshing
9

Naprawdę prostym przykładem tego, dlaczego tak ważne jest, aby myśleć o spójności, na którą nie uważam, że zwraca wystarczającą uwagę, jest nadmiernie uproszczony model.

Jako przykład teoretyczny załóżmy, że chciałbyś dopasować model regresji liniowej do niektórych danych, w których prawdziwe efekty były faktycznie nieliniowe. Zatem twoje przewidywania nie mogą być spójne dla prawdziwej średniej dla wszystkich kombinacji zmiennych towarzyszących, podczas gdy bardziej elastyczne mogą być w stanie. Innymi słowy, uproszczony model będzie miał niedociągnięcia, których nie można przezwyciężyć za pomocą większej ilości danych.

Cliff AB
źródło
Niekoniecznie jest to prawdą, ponieważ liniowe modele regresji „zawsze dopasować”, w tym sensie, że . można argumentować, że model jest w porządku, ale „błąd” zakłada, że ​​reszty mają identyczny rozkład normalny. yi=y^i+e^i
probabilityislogic
8

@BruceET udzielił już doskonałej odpowiedzi technicznej, ale chciałbym dodać punkt o interpretacji tego wszystkiego.

Jednym z podstawowych pojęć w statystykach jest to, że wraz ze wzrostem wielkości próby możemy dojść do bardziej precyzyjnych wniosków na temat naszego podstawowego rozkładu. Można by pomyśleć o tym, że pobieranie wielu próbek eliminuje przypadkowe fluktuacje danych, dzięki czemu uzyskujemy lepsze pojęcie o podstawowej strukturze.

Przykłady twierdzeń z tej żyły jest obfite, ale najbardziej znanym jest Prawo Dużych Liczb, stwierdzające, że jeśli mamy rodzinę zmiennych losowych iid (Xi)iN  i E[X1]< , to

1nk=1nXkE[X]   a.s.

Teraz, aby wymagać, aby estymator był spójny, wymagaj, aby przestrzegał także tej reguły: Ponieważ jego zadaniem jest oszacowanie nieznanego parametru, chcielibyśmy, aby był on zbieżny z tym parametrem (czytaj: estymuj ten parametr arbitralnie dobrze) jako naszą próbką rozmiar dąży do nieskończoności.

Równanie

limnP(|Wnθ|>ϵ)=0,ϵ>0 θ Θ

Wnθ

[θε,θ+ε]θ

Marc Vaisband
źródło