Myślę, że zrozumiałem już matematyczną definicję spójnego estymatora. Popraw mnie, jeśli się mylę:
jest spójnym estymatorem dla jeśli
Gdzie jest przestrzenią parametryczną. Ale chcę zrozumieć, że estymator musi być spójny. Dlaczego niespójny estymator jest zły? Czy możesz podać mi kilka przykładów?
Akceptuję symulacje w języku R lub python.
Odpowiedzi:
Jeśli estymator nie jest spójny, nie zbiegnie się z prawdziwą wartością prawdopodobieństwa . Innymi słowy, zawsze istnieje prawdopodobieństwo, że twój estymator i rzeczywista wartość będą miały różnicę, bez względu na to, ile masz punktów danych. To jest naprawdę złe, ponieważ nawet jeśli zbierzesz ogromną ilość danych, twoje oszacowanie zawsze będzie miało dodatnie prawdopodobieństwo, że będzie się różnić o od prawdziwej wartości. Praktycznie możesz uznać tę sytuację, jakbyś używał oszacowania ilości takiego, że nawet badanie całej populacji, zamiast małej próbki, nie pomoże.ϵ>0
źródło
Rozważmy obserwacji ze standardowego rozkładu Cauchy'ego, który jest taki sam jak rozkład t Studenta z 1 stopniem swobody. Ogony tego rozkładu są na tyle ciężkie, że nie ma to żadnego znaczenia; rozkład jest wyśrodkowany na jego medianien=10000 η=0.
Sekwencja próbki oznacza, że nie jest spójny dla środka rozkładu Cauchy'ego. Z grubsza mówiąc, trudność polega na tym, że występują bardzo ekstremalne obserwacje (dodatnie lub ujemne) z wystarczającą regularnością, że nie ma szans, że zbiegnie się do ( są nie tylko powolne, ale nie zawsze zbieżność. Rozkład jest znowu standardem Cauchy'ego [ dowód ].)Aj=1j∑ji=1Xi Xi Aj η=0. Aj Aj
Dla kontrastu, na każdym etapie ciągłego procesu próbkowania, około połowa obserwacji będzie leżeć po obu stronach tak że sekwencja median próbki nie zbiegnie się zXi η, Hj η.
Ten brak zbieżności i zbieżności ilustruje następująca symulacja.Aj Hj
Oto lista kroków, na których Możesz zobaczyć wpływ niektórych z tych ekstremalnych obserwacji na średnie bieżące na wykresie po lewej stronie (na pionowych czerwonych kropkowanych liniach).|Xi|>1000.
Ważna jest spójność w estymacji: Przy pobieraniu próbek z populacji Cauchy'ego średnia próbki z próby obserwacji nie jest lepsza do oszacowania centrum niż tylko jedna obserwacja. Natomiast spójna mediana próbki jest zbieżna z więc większe próbki dają lepsze oszacowania.n=10000 η η,
źródło
Naprawdę prostym przykładem tego, dlaczego tak ważne jest, aby myśleć o spójności, na którą nie uważam, że zwraca wystarczającą uwagę, jest nadmiernie uproszczony model.
Jako przykład teoretyczny załóżmy, że chciałbyś dopasować model regresji liniowej do niektórych danych, w których prawdziwe efekty były faktycznie nieliniowe. Zatem twoje przewidywania nie mogą być spójne dla prawdziwej średniej dla wszystkich kombinacji zmiennych towarzyszących, podczas gdy bardziej elastyczne mogą być w stanie. Innymi słowy, uproszczony model będzie miał niedociągnięcia, których nie można przezwyciężyć za pomocą większej ilości danych.
źródło
@BruceET udzielił już doskonałej odpowiedzi technicznej, ale chciałbym dodać punkt o interpretacji tego wszystkiego.
Jednym z podstawowych pojęć w statystykach jest to, że wraz ze wzrostem wielkości próby możemy dojść do bardziej precyzyjnych wniosków na temat naszego podstawowego rozkładu. Można by pomyśleć o tym, że pobieranie wielu próbek eliminuje przypadkowe fluktuacje danych, dzięki czemu uzyskujemy lepsze pojęcie o podstawowej strukturze.
Przykłady twierdzeń z tej żyły jest obfite, ale najbardziej znanym jest Prawo Dużych Liczb, stwierdzające, że jeśli mamy rodzinę zmiennych losowych iid(Xi)i∈N i E[X1]<∞ , to 1n∑k=1nXk→E[X] a.s.
Teraz, aby wymagać, aby estymator był spójny, wymagaj, aby przestrzegał także tej reguły: Ponieważ jego zadaniem jest oszacowanie nieznanego parametru, chcielibyśmy, aby był on zbieżny z tym parametrem (czytaj: estymuj ten parametr arbitralnie dobrze) jako naszą próbką rozmiar dąży do nieskończoności.
Równanie
źródło