Jaka jest różnica między estymatorem a statystyką?

30

Dowiedziałem się, że statystyka jest atrybutem, który można uzyskać z próbek. Pobierając wiele próbek tego samego rozmiaru, obliczając ten atrybut dla wszystkich z nich i wykreślając pdf, otrzymujemy rozkład odpowiedniego atrybutu lub rozkład odpowiednich statystyk.

Słyszałem również, że statystyki mają służyć jako estymatory, czym różnią się te dwa pojęcia?

gutto
źródło
2
Dzięki za wszystkie odpowiedzi ... Ta koncepcja jest dla mnie teraz o wiele bardziej wyraźna ..
gutto

Odpowiedzi:

17

Definicja

Z Wikipedii:

Statystyka [...] oznacza jeden środek niektórych atrybutów w próbce (na przykład, jego wartości średniej).

I

Estymator [A] n jest regułą obliczania oszacowania danej ilości [rozkładu podstawowego] na podstawie zaobserwowanych danych.

Ważna różnica polega na:

  • Statystyczny jest funkcją próbki.
  • Estymator jest funkcją próbki związane z niektórymi ilości rozkładu .

(Aby dowiedzieć się, co oznacza „Ilość”, zobacz sekcję poniżej).

Statystyka nie jest estymatorem

Estymator jest statystyka z czymś dodanej. Aby zamienić statystyki w estymator, wystarczy przeliterować docelową ilość, którą chcesz oszacować. Jest to mylące, ponieważ nie dodajesz niczego „prawdziwego” do statystyki, a jedynie niektóre zamierzenia.

Aby zobaczyć, że różnica jest ważna, musisz zdać sobie sprawę, że nie możesz obliczyć właściwości estymatora (np. Odchylenie , wariancja itp.) Dla samej statystyki. Aby obliczyć błąd systematyczny , musisz znaleźć różnicę między wartością, którą daje ci statystyki, a wartością prawdziwą. Tylko estymator ma „prawdziwą wartość”, która pozwala obliczyć odchylenie. Statystyka jest jedynie funkcją danych i nie jest ani dobra, ani zła.

Różne estymatory oparte na tej samej statystyce

Możesz przeliterować różne wielkości docelowe dla tej samej statystyki, co daje różne estymatory. Każdy taki estymator ma swoją stronniczość, chociaż wszystkie mają (w oparciu o) tę samą wartość, tę samą statystykę.

  • Można użyć średniej próbki jako estymatora średniej rozkładu . Ten estymator ma zero stronniczości .
  • Można również użyć średniej próby jako estymatora wariancji rozkładu . Ten estymator jest tendencyjny dla większości dystrybucji.

Zatem powiedzenie „średnia próbka jest bezstronna” nie ma sensu. Średnia próbki jest bezstronna, gdy używasz jej do oszacowania średniej rozkładu. Ale jednocześnie jest on tendencyjny przy użyciu go do oszacowania wariancji rozkładu.

Ilości rozkładów i ilości próbek

Tutaj ilość odnosi się do pewnej właściwości rozkładu, która zwykle jest nieznana i dlatego musi zostać oszacowana. Jest to w przeciwieństwie do statystyki , która jest właściwością próbki, np. Średnia rozkładu jest wielkością twojego rozkładu, podczas gdy średnia próbki jest statystyką (ilością twojej próbki).

ziggystar
źródło
1
W tych cytatach nie ma nic wyraźnie złego, ale zastanawiają mnie, co dokładnie oznacza „ilość”. Na przykład cytaty nie wydają się wykluczać możliwości, że „ilość” jest inną statystyką opartą na tych samych danych lub być może inną statystyką opartą na oddzielnym zestawie podobnych danych. (W drugim przypadku pierwsza statystyka może zostać użyta jako predyktor. W pierwszym przypadku nie sądzę, aby istniała dla niej nazwa, ale zdecydowanie nie jest to „estymator”).
whuber
@whuber Zobacz edycję. Początkowo chciałem udzielić krótkiej odpowiedzi ... :(
ziggystar 15.01.2013
Przypuszczalnie średnia próbki i mediana próbki oszacują tę samą wartość bazową tylko wtedy, gdy rozkład jest taki, gdzie mediana = średnia ...
Stumpy Joe Pete
Moja krytyka ma mniej sensu w świetle twojej edycji. Mówiłem tylko, że w wielu rozkładach mediana! = Średnia, więc mediana próbki i średnia próbki nie będą zbieżne w tej samej wartości w takich przypadkach (tj. Nie szacuj tego samego).
Stumpy Joe Pete,
1
@ Stumpy Myślę, że masz tutaj małe nieporozumienie. Nie ma znaczenia, czy mediana i znaczy „zbiegają się” w to samo (lub w ogóle). Aby to wyjaśnić, pozwól mi być trochę niedorzecznym: mogę, jeśli chcę, użyć wariancji próbki do oszacowania średniej. Nie ma absolutnie żadnego teoretycznego ograniczenia - ani nie może być - które mówi, że nie mogę tego zrobić. Moja procedura spełnia wszystkie części definicji: wariancja próbki jest naprawdę statystyką, a średnia jest naprawdę własnością rozkładu podstawowego. W przypadku definicji nie ma znaczenia, że ​​jest to (często) straszna procedura.
whuber
15

Ten wątek jest trochę stary, ale wydaje się, że Wikipedia mogła zmienić swoją definicję, a jeśli jest dokładna, wyjaśnia mi to jaśniej:

„Estymator” lub „oszacowanie punktowe” to statystyka (to znaczy funkcja danych), która służy do wnioskowania o wartości nieznanego parametru w modelu statystycznym.

Tak więc statystyki odnoszą się do samych danych i obliczeń z tymi danymi. Podczas gdy estymator odnosi się do parametru w modelu.

Jeśli dobrze to rozumiem, to średnia jest statystyką i może być również estymatorem. Średnia próbki to statystyka (suma próbki podzielona przez wielkość próby). Średnia próbki jest także estymatorem średniej populacji, przy założeniu, że jest ona normalnie rozłożona.

Zapytałbym @whuber i innych, którzy naprawdę znają te rzeczy, czy cytat z Wikipedii (nowy?) Jest dokładny.

Wayne
źródło
6
+1 Myślę, że masz rację. Być może zainteresuje Cię informacja, że ​​cel estymatora niekoniecznie musi być konkretnym „parametrem” modelu: może to być dowolna właściwość modelu, na przykład funkcja jego parametrów. Na przykład nie jest parametrem dla modelu normalnego ( μ , σ 2 ) , ale można go oszacować.μ2(μ,σ2)
whuber
5

Ponieważ inne odpowiedzi stwierdzające, że są takie same, nie zawierają żadnych autorytatywnych odniesień, pozwólcie, że przedstawię dwa cytaty z podręcznika wnioskowania statystycznego Caselli i Bergera:

Definicja 5.2.1 Niech będzie losową próbką wielkości n z populacji i niech T ( x 1 , , x n ) będzie funkcją o wartości rzeczywistej lub wektorowej, której dziedzina obejmuje przestrzeń próbki z ( X 1 , , X n ) . Następnie zmienna losowa lub losowy wektor Y = T ( statystyka X 1. Rozkład prawdopodobieństwa statystyki YX1,,XnnT(x1,,xn)(X1,,Xn)wywoływana jest , , X n )Y=T(X1,,Xn)Y nazywamy rozkład próbkowania Y .

i

Definicja 7.1.1 punkt estymator jest dowolną funkcją, w próbce; to znaczy, każda statystyka jest estymatorem punktowym.W(X1,,Xn)

Ja nie mówiąc tu, że jest to jednoznacznej odpowiedzi na to pytanie, ponieważ wydaje mi się zgodzić z dwóch najbardziej upvoted odpowiedzi, które sugerują, że istnieje różnica, tylko dawać odesłanie który mówi przeciwnie podkreślić, że nie jest to klarowna obudowa.

Tim
źródło
4

„6” jest przykładem estymatora. Powiedzmy, że twoje pytanie brzmiało: „Jakie jest nachylenie najlepszej funkcji liniowej odwzorowującej x na y?” Twoja odpowiedź może brzmieć „6”. Albo może to być . Oba są estymatorami. To, który z nich jest lepszy, należy do ciebie. (XX)1XY

Naprawdę dobry TA kiedyś wyjaśnił mi w ten sposób koncepcję estymatora.

Zasadniczo estymator to rzecz, którą stosuje się do danych, aby uzyskać ilość, której wartości nie znasz. Znasz wartość statystyki - jest to funkcja danych, w której nie ma „najlepszej” ani „optymalnej” statystyki. Nie ma „najlepszego” środka. Jest tylko środek.

Załóżmy, że masz zestaw danych na temat liczby kóz posiadanych na osobę i szczęścia każdej osoby. Jesteś zainteresowany tym, jak szczęście ludzi zmienia się wraz z liczbą posiadanych kóz. Estymator może pomóc oszacować ten związek na podstawie danych. Statystyki to tylko funkcje posiadanych danych. Na przykład wariancja posiadania kóz może wynosić 7. Te forula do obliczania wariancji byłaby identyczna między kozami i opiekaczami, lub czy interesuje Cię szczęście czy skłonność do zachorowania na raka. W tym sensie wszystkie sensowne estymatory to statystyki.

użytkownik_ogólny
źródło
3

Interesujące pytanie. Estymatory i statystyki nie muszą jednak być różnymi rzeczami. Są to różne koncepcje.

Statystyka to funkcja (w szerokim ujęciu), w której dane wejściowe to (statystyczne) dane. W efekcie uzyskuje się wynik, zwykle liczbę, z tej statystyki. W bardziej abstrakcyjnym ujęciu statystyki mogą dawać więcej niż jedną liczbę. Statystyka zależy od danych, ale procedura jest deterministyczna. Tak więc statystyka może być następująca: „Zsumuj wszystkie liczby i podziel przez liczbę” lub, w szerszym znaczeniu, „weź dane gdp i przygotuj raport na ich temat”.
W sensie statystycznym mówimy oczywiście o funkcji matematycznej jako statystyce.

Znaczenie tego jest takie, że jeśli znasz właściwości wprowadzanych danych (na przykład jest to zmienna losowa), możesz obliczyć właściwości swojej statystyki, bez faktycznego wprowadzania danych empirycznych.

Estymatory to estymatory z powodu twojego zamiaru: oszacowania nieruchomości. Jak się okazuje, niektóre statystyki są dobrymi estymatorami.
Na przykład, jeśli wyciągniesz punkty danych z puli zmiennych iid, wówczas średnia arytmetyczna - statystyka oparta na pobieranych danych, będzie prawdopodobnie dobrym estymatorem oczekiwanej wartości tego rozkładu. Ale znowu wszystko, co daje oszacowanie, jest estymatorem.

W praktyce używane estymatory będą statystykami, ale istnieją statystyki, które nie są estymatorami. Na przykład statystyki testowe - chociaż można spierać się o semantykę tego stwierdzenia i, co gorsza, statystyka testowa może nie tylko obejmować, ale także zawierać estymatory. Chociaż koncepcyjnie nie musi tak być.

I oczywiście możesz mieć estymatory, które nie są statystykami, chociaż prawdopodobnie nie są zbyt dobre w szacowaniu.

IMA
źródło
1
Czy mógłbyś trochę rozwinąć to ostatnie zdanie? Rozważmy na przykład próbkę o wielkości . Oszacuję medianę populacji za pomocą rzutu monetą, aby wybrać spośród n- tej i n + 1- szej największej wartości w próbie. Według twojej definicji nie jest to statystyka, ponieważ nie jest to procedura „deterministyczna” (chociaż jest to statystyka według wspólnej, bardziej ogólnej definicji). Jest to również dość dobry estymator. Zastanawiam się więc, jaki przedmiot masz na myśli, gdy mówisz o „estymatorze”, który nie jest „statystyką”. 2nnn+1
whuber
Tak, argumentowałbym, że „wybór wartości” jest statystyką deterministyczną i wszystko wcześniej wiąże się z modyfikacją wybranej próbki. Z drugiej strony, skoro „procedura”, jeśli wolisz - jest deterministyczna, mogę po prostu dopuścić takie elementy stochastyczne w mojej definicji statystyki ... Zwróć uwagę, że estymatory, które nie są statystykami, mogą być przynajmniej tymi, które są niezależne od jakichkolwiek danych. Na przykład liczba „6” w odpowiedzi poniżej. Pamiętaj, że nie powiedziałem, że estymatory niestatystyczne są koniecznie złe.
IMA
1
Myślę, że może robisz zbyt wiele drobnych rozróżnień, które są niepotrzebne, a ostatecznie komplikują twoją ekspozycję. Na przykład „1/2” jest doskonałym estymatorem parametru zmiennej Bernoulliego (jest to minimax dla straty kwadratowej), więc wstyd byłoby wykluczyć ją tylko dlatego, że jest ona niezależna od danych. (Byłoby to analogiczne do wykluczania kwadratów jako przykładów prostokątów w geometrii euklidesowej: można to zrobić, ale podwoiłoby to długość większości stwierdzeń dotyczących właściwości prostokątów.) Podobnie pomaga to nie wykluczać losowych statystyk.
whuber
Nie sądzę, że tak naprawdę mówimy o tym samym. Gdzie mogę coś wykluczyć? Jeśli połowa to świetny estymator, to jest to przypadek, w którym się znajduje. Po prostu nie sądzę, że większość możliwych estymatorów nie będących statystykami jest całkiem świetna. Dla zmiennej Bernoulliego „1/2” jest dobre. Ale - całkiem sporo - kilka innych estymatorów z klasy „Liczba rzeczywista” nie jest zbyt dobrych, nie zgadzasz się? W kwestii randomizowanych statystyk wciąż opartych na danych - nie wykluczyłem tego, ponieważ nadal powiedziałbym, że będziecie wymagać procedury deterministycznej. Ale przyznaję, że powinienem dodać to powyżej.
IMA
2

Myślę, że lepsze zrozumienie tego, co jest próbką, pomaga.

[Zaktualizowano: Próbka jest bardzo szeroką koncepcją, mówiłem o „losowej próbce”. Nie wiem, czy estymator ma sens, czy nie, gdy próbka nie jest losowa .]

z wikipedii :

Losowa próbka jest zdefiniowana jako próbka, w której każdy indywidualny członek populacji ma znaną niezerową szansę na bycie wybranym jako część próbki.

nnnnn

Próbkę zastępujemy w estymatorze wartością próbki. Otrzymujemy wartość estymatora, jest to konkretna miara. I ta konkretna miara jest statystyką.

(Sprawdź ten link, aby znaleźć definicję estymatora, ostatnie zdanie pokazuje, dlaczego zawsze jesteśmy zdezorientowani).

alexyangfox
źródło
1

Cel tego artykułu:

Chcę tutaj przedstawić podobieństwa i różnice między dwoma ściśle powiązanymi pojęciami zwanymi „statystyką” i „estymatorem”. Nie chcę jednak omawiać różnic między parametrem a statystyką, które, jak zakładam, są wystarczająco jasne dla każdego, kto zmaga się z różnicami między statystyką a estymatorem. Jeśli tak nie jest, musisz najpierw przestudiować wcześniejsze posty, a następnie zacząć studiować ten post.

Związek:

Zasadniczo dowolna funkcja obserwowalnych zmiennych losowych o wartości rzeczywistej nazywa się statystyką. Istnieją pewne statystyki, które jeśli są dobrze zaprojektowane i mają pewne dobre właściwości (np. Spójność, ...), można je wykorzystać do oszacowania parametrów rozkładu podstawowego populacji. Dlatego statystyki są dużym zbiorem, a estymatory są podzestawem w zestawie statystyk. Dlatego każdy estymator jest statystyką, ale nie każda statystyka jest estymatorem.

Podobieństwa:

Mówiąc o podobieństwach, jak wspomniano wcześniej, oba są funkcjami zmiennych losowych. Ponadto oba mają rozkłady zwane „rozkładami próbkowania”.

Różnice:

Mówiąc o różnicach, różnią się one pod względem celów i zadań. Cele i zadania statystyki mogą polegać na podsumowaniu informacji w próbie (przy użyciu wystarczających statystyk), a czasem na przeprowadzeniu testu hipotez itp. Natomiast głównym celem i zadaniem estymatora, jak sama nazwa wskazuje, jest oszacowanie parametry badanej populacji. Należy wspomnieć, że istnieje wiele różnych estymatorów, z których każda ma swoją własną logikę obliczeniową, takich jak MOME, MLE, estymatory OLS i tak dalej. Kolejna różnica między tymi dwoma koncepcjami dotyczy ich pożądanych właściwości. Podczas gdy jedną z najbardziej pożądanych właściwości statystyki jest „wystarczalność”, pożądanymi właściwościami estymatora są takie rzeczy jak „spójność”, „bezstronność”, „precyzja” itp.

Uwaga:

Dlatego należy zachować ostrożność przy prawidłowym stosowaniu terminologii w przypadku statystyk i estymatorów. Na przykład nie ma sensu mówić o tendencyjności samej statystyki, która w żadnym wypadku nie jest estymatorem, ponieważ w takim kontekście nie ma parametru, abyśmy mogli obliczyć błąd systematyczny oraz Rozmawiać o tym. Dlatego musisz uważać na terminologię!

Dolna linia:

Podsumowując, każda funkcja obserwowalnych zmiennych losowych w próbce jest statystyką. Jeśli statystyka ma zdolność do oszacowania parametru populacji, wówczas nazywamy go estymatorem (parametru będącego przedmiotem zainteresowania). Jednak istnieją pewne statystyki, które nie są przeznaczone do szacowania parametrów, więc te statystyki nie są estymatorami i tutaj nazywamy je „zwykłymi statystykami”.

To, co przedstawiłem powyżej, to sposób, w jaki patrzę i myślę o tych dwóch pojęciach, i starałem się wyrazić to w prostych słowach. Mam nadzieję, że to pomoże!

Ali Zeytoon Nejad
źródło
0

Nowa odpowiedź na stare pytanie:

Definicja 1. statystyka jest funkcją, która odwzorowuje każdą próbkę do liczby rzeczywistej.

Każdy estymator jest statystyką.

Ale zwykle nazywamy tylko te statystyki, które są używane do generowania oszacowań („domysłów”), niektóre parametry estymatora.

Na przykład statystyka t i średnia próbki są OBU statystykami. Średnia próbki jest również estymatorem (ponieważ często używamy jej do oszacowania prawdziwej średniej populacji).

W przeciwieństwie do tego rzadko / nigdy nie nazywamy statystyki t estymatorem, ponieważ rzadko / nigdy nie używamy jej do oszacowania dowolnego parametru.

PQ

Example_

θ

θ to pewna stała liczba rzeczywista, być może znana tylko Bogu. Niemniej jednak możemy spróbować to oszacować.

Oto jedna z możliwych metod. Rzucamy kostką 3 razy.

Próbka jest dowolna s=(x1,x2),x3)), gdzie x1 jest wynikiem pierwszego rzutu, x2) z drugiej, i x3) ten trzeciego.

Oto trzy przykłady próbek: s1=(5,4,1), s2=(4,1,6), and s3=(6,3,2).

Here are two examples of statistics P and Q (remember that a statistic is simply a function). Define P and Q by: For any s=(x1,x2,x3),

P(s)=x1ln(x2+x3),
Q(s)=x1+x2+x33.

The statistic P is a rather-bizarre statistic and is probably not very useful for anything. Nonetheless, it is a statistic all the same, simply because it satisfies the definition of a statistic (it is a function that maps each sample to a real number).

Q is also a statistic. But in addition, it is also an estimator for the parameter θ.

(We could, of course, claim that P is also an estimator for θ. But it would be a very poor estimator that no one would want to use.)

Kenny LJ
źródło
1
This answer is headed in a good direction. "Definition 2," though, does not appear to be a valid definition, because of its circularity (it defines "estimator" in terms of "estimate" without explaining the latter). For it to be effective you need to explain what an "estimate of a parameter" is in sufficient detail and clarity that people can formulate quantitative measurements of how well an estimator works.
whuber
@whuber: I'm trying to keep it simple. A parameter is any real number (e.g. the average outcome θ of a die roll). Informally, an estimate for a parameter is simply a "guess" of what a parameter is. An estimate is thus simply also a real number. (E.g., an estimate of θ is 5.) // The question of "how to formulate quantitative measurements of how well an estimator works" is entirely distinct from the simpler and more basic question of the distinction between a statistic and an estimator. Which is the question here.
Kenny LJ
2
Unfortunately, as I was trying to suggest, something essential seems to have been lost in the simplification, because your second definition does not distinguish an estimator from any other statistic at all.
whuber
@whuber: Zgadza się. Formalnie estymator jest po prostu statystyką. Ale zwykle używamy słowa „estymator” w odniesieniu do statystyki, jeśli ta statystyka jest używana do oszacowania niektórych interesujących parametrów. Zredagowałem swoją odpowiedź, aby wyjaśnić tę kwestię.
Kenny LJ
-3

W testowaniu hipotez :

Statystyka testowa dotyczy testowania hipotez. Statystyka testowa to zmienna losowa podana / pod hipotezą zerową. Teraz niektórzy mogą nazwać statystykę wartością / miarą statystyki testowej dla danej próbki.

Dzięki tym dwóm możesz uzyskać wartość p, która jest miarą, która pomaga odrzucić lub nie odrzucić hipotezy zerowej. Podsumowując, statystyka jest oszacowaniem, jak daleko / blisko twojej hipotezy.

Ten link może być przydatny.

dfhgfh
źródło
2
Wydaje się, że zajmujesz się innym pytaniem, czymś związanym z testami hipotez, a nie szacunkami. Twoja definicja „statystyki” jest znacznie bardziej ograniczona w zakresie niż standardowe definicje: statystyki dotyczą wszystkich form podejmowania decyzji, a nie tylko bardzo ograniczonych przypadków testowania hipotez i hipotez zerowych. Co więcej, testy hipotez nie są takie same jak estymatory, a większość statystyk nie jest wykorzystywana jako estymatory bliskości niektórych hipotez.
whuber
Nie powiedziałbym, że to inne pytanie. Daje obraz co najmniej w kontekście testowania hipotez!
dfhgfh
2
Ponieważ odpowiedź ta koncentruje się na ograniczonej i specjalistycznej wersji pytania i używa kluczowych terminów „estymator” i „statystyka” w niekonwencjonalny sposób, nie ostrzegając czytelnika o tym fakcie, obawiam się, że może wprowadzać w błąd lub dezorientować ludzi.
whuber
Myślałem, że testowanie hipotez było daleko ograniczone i specjalizowało się w statystyce.
dfhgfh