Dowiedziałem się, że statystyka jest atrybutem, który można uzyskać z próbek. Pobierając wiele próbek tego samego rozmiaru, obliczając ten atrybut dla wszystkich z nich i wykreślając pdf, otrzymujemy rozkład odpowiedniego atrybutu lub rozkład odpowiednich statystyk.
Słyszałem również, że statystyki mają służyć jako estymatory, czym różnią się te dwa pojęcia?
Odpowiedzi:
Definicja
Z Wikipedii:
I
Ważna różnica polega na:
(Aby dowiedzieć się, co oznacza „Ilość”, zobacz sekcję poniżej).
Statystyka nie jest estymatorem
Estymator jest statystyka z czymś dodanej. Aby zamienić statystyki w estymator, wystarczy przeliterować docelową ilość, którą chcesz oszacować. Jest to mylące, ponieważ nie dodajesz niczego „prawdziwego” do statystyki, a jedynie niektóre zamierzenia.
Aby zobaczyć, że różnica jest ważna, musisz zdać sobie sprawę, że nie możesz obliczyć właściwości estymatora (np. Odchylenie , wariancja itp.) Dla samej statystyki. Aby obliczyć błąd systematyczny , musisz znaleźć różnicę między wartością, którą daje ci statystyki, a wartością prawdziwą. Tylko estymator ma „prawdziwą wartość”, która pozwala obliczyć odchylenie. Statystyka jest jedynie funkcją danych i nie jest ani dobra, ani zła.
Różne estymatory oparte na tej samej statystyce
Możesz przeliterować różne wielkości docelowe dla tej samej statystyki, co daje różne estymatory. Każdy taki estymator ma swoją stronniczość, chociaż wszystkie mają (w oparciu o) tę samą wartość, tę samą statystykę.
Zatem powiedzenie „średnia próbka jest bezstronna” nie ma sensu. Średnia próbki jest bezstronna, gdy używasz jej do oszacowania średniej rozkładu. Ale jednocześnie jest on tendencyjny przy użyciu go do oszacowania wariancji rozkładu.
Ilości rozkładów i ilości próbek
Tutaj ilość odnosi się do pewnej właściwości rozkładu, która zwykle jest nieznana i dlatego musi zostać oszacowana. Jest to w przeciwieństwie do statystyki , która jest właściwością próbki, np. Średnia rozkładu jest wielkością twojego rozkładu, podczas gdy średnia próbki jest statystyką (ilością twojej próbki).
źródło
Ten wątek jest trochę stary, ale wydaje się, że Wikipedia mogła zmienić swoją definicję, a jeśli jest dokładna, wyjaśnia mi to jaśniej:
Tak więc statystyki odnoszą się do samych danych i obliczeń z tymi danymi. Podczas gdy estymator odnosi się do parametru w modelu.
Jeśli dobrze to rozumiem, to średnia jest statystyką i może być również estymatorem. Średnia próbki to statystyka (suma próbki podzielona przez wielkość próby). Średnia próbki jest także estymatorem średniej populacji, przy założeniu, że jest ona normalnie rozłożona.
Zapytałbym @whuber i innych, którzy naprawdę znają te rzeczy, czy cytat z Wikipedii (nowy?) Jest dokładny.
źródło
Ponieważ inne odpowiedzi stwierdzające, że są takie same, nie zawierają żadnych autorytatywnych odniesień, pozwólcie, że przedstawię dwa cytaty z podręcznika wnioskowania statystycznego Caselli i Bergera:
i
Ja nie mówiąc tu, że jest to jednoznacznej odpowiedzi na to pytanie, ponieważ wydaje mi się zgodzić z dwóch najbardziej upvoted odpowiedzi, które sugerują, że istnieje różnica, tylko dawać odesłanie który mówi przeciwnie podkreślić, że nie jest to klarowna obudowa.
źródło
„6” jest przykładem estymatora. Powiedzmy, że twoje pytanie brzmiało: „Jakie jest nachylenie najlepszej funkcji liniowej odwzorowującej x na y?” Twoja odpowiedź może brzmieć „6”. Albo może to być . Oba są estymatorami. To, który z nich jest lepszy, należy do ciebie.(X′X)−1X′Y
Naprawdę dobry TA kiedyś wyjaśnił mi w ten sposób koncepcję estymatora.
Zasadniczo estymator to rzecz, którą stosuje się do danych, aby uzyskać ilość, której wartości nie znasz. Znasz wartość statystyki - jest to funkcja danych, w której nie ma „najlepszej” ani „optymalnej” statystyki. Nie ma „najlepszego” środka. Jest tylko środek.
Załóżmy, że masz zestaw danych na temat liczby kóz posiadanych na osobę i szczęścia każdej osoby. Jesteś zainteresowany tym, jak szczęście ludzi zmienia się wraz z liczbą posiadanych kóz. Estymator może pomóc oszacować ten związek na podstawie danych. Statystyki to tylko funkcje posiadanych danych. Na przykład wariancja posiadania kóz może wynosić 7. Te forula do obliczania wariancji byłaby identyczna między kozami i opiekaczami, lub czy interesuje Cię szczęście czy skłonność do zachorowania na raka. W tym sensie wszystkie sensowne estymatory to statystyki.
źródło
Interesujące pytanie. Estymatory i statystyki nie muszą jednak być różnymi rzeczami. Są to różne koncepcje.
Statystyka to funkcja (w szerokim ujęciu), w której dane wejściowe to (statystyczne) dane. W efekcie uzyskuje się wynik, zwykle liczbę, z tej statystyki. W bardziej abstrakcyjnym ujęciu statystyki mogą dawać więcej niż jedną liczbę. Statystyka zależy od danych, ale procedura jest deterministyczna. Tak więc statystyka może być następująca: „Zsumuj wszystkie liczby i podziel przez liczbę” lub, w szerszym znaczeniu, „weź dane gdp i przygotuj raport na ich temat”.
W sensie statystycznym mówimy oczywiście o funkcji matematycznej jako statystyce.
Znaczenie tego jest takie, że jeśli znasz właściwości wprowadzanych danych (na przykład jest to zmienna losowa), możesz obliczyć właściwości swojej statystyki, bez faktycznego wprowadzania danych empirycznych.
Estymatory to estymatory z powodu twojego zamiaru: oszacowania nieruchomości. Jak się okazuje, niektóre statystyki są dobrymi estymatorami.
Na przykład, jeśli wyciągniesz punkty danych z puli zmiennych iid, wówczas średnia arytmetyczna - statystyka oparta na pobieranych danych, będzie prawdopodobnie dobrym estymatorem oczekiwanej wartości tego rozkładu. Ale znowu wszystko, co daje oszacowanie, jest estymatorem.
W praktyce używane estymatory będą statystykami, ale istnieją statystyki, które nie są estymatorami. Na przykład statystyki testowe - chociaż można spierać się o semantykę tego stwierdzenia i, co gorsza, statystyka testowa może nie tylko obejmować, ale także zawierać estymatory. Chociaż koncepcyjnie nie musi tak być.
I oczywiście możesz mieć estymatory, które nie są statystykami, chociaż prawdopodobnie nie są zbyt dobre w szacowaniu.
źródło
Myślę, że lepsze zrozumienie tego, co jest próbką, pomaga.
[Zaktualizowano: Próbka jest bardzo szeroką koncepcją, mówiłem o „losowej próbce”. Nie wiem, czy estymator ma sens, czy nie, gdy próbka nie jest losowa .]
z wikipedii :
Próbkę zastępujemy w estymatorze wartością próbki. Otrzymujemy wartość estymatora, jest to konkretna miara. I ta konkretna miara jest statystyką.
(Sprawdź ten link, aby znaleźć definicję estymatora, ostatnie zdanie pokazuje, dlaczego zawsze jesteśmy zdezorientowani).
źródło
Cel tego artykułu:
Chcę tutaj przedstawić podobieństwa i różnice między dwoma ściśle powiązanymi pojęciami zwanymi „statystyką” i „estymatorem”. Nie chcę jednak omawiać różnic między parametrem a statystyką, które, jak zakładam, są wystarczająco jasne dla każdego, kto zmaga się z różnicami między statystyką a estymatorem. Jeśli tak nie jest, musisz najpierw przestudiować wcześniejsze posty, a następnie zacząć studiować ten post.
Związek:
Zasadniczo dowolna funkcja obserwowalnych zmiennych losowych o wartości rzeczywistej nazywa się statystyką. Istnieją pewne statystyki, które jeśli są dobrze zaprojektowane i mają pewne dobre właściwości (np. Spójność, ...), można je wykorzystać do oszacowania parametrów rozkładu podstawowego populacji. Dlatego statystyki są dużym zbiorem, a estymatory są podzestawem w zestawie statystyk. Dlatego każdy estymator jest statystyką, ale nie każda statystyka jest estymatorem.
Podobieństwa:
Mówiąc o podobieństwach, jak wspomniano wcześniej, oba są funkcjami zmiennych losowych. Ponadto oba mają rozkłady zwane „rozkładami próbkowania”.
Różnice:
Mówiąc o różnicach, różnią się one pod względem celów i zadań. Cele i zadania statystyki mogą polegać na podsumowaniu informacji w próbie (przy użyciu wystarczających statystyk), a czasem na przeprowadzeniu testu hipotez itp. Natomiast głównym celem i zadaniem estymatora, jak sama nazwa wskazuje, jest oszacowanie parametry badanej populacji. Należy wspomnieć, że istnieje wiele różnych estymatorów, z których każda ma swoją własną logikę obliczeniową, takich jak MOME, MLE, estymatory OLS i tak dalej. Kolejna różnica między tymi dwoma koncepcjami dotyczy ich pożądanych właściwości. Podczas gdy jedną z najbardziej pożądanych właściwości statystyki jest „wystarczalność”, pożądanymi właściwościami estymatora są takie rzeczy jak „spójność”, „bezstronność”, „precyzja” itp.
Uwaga:
Dlatego należy zachować ostrożność przy prawidłowym stosowaniu terminologii w przypadku statystyk i estymatorów. Na przykład nie ma sensu mówić o tendencyjności samej statystyki, która w żadnym wypadku nie jest estymatorem, ponieważ w takim kontekście nie ma parametru, abyśmy mogli obliczyć błąd systematyczny oraz Rozmawiać o tym. Dlatego musisz uważać na terminologię!
Dolna linia:
Podsumowując, każda funkcja obserwowalnych zmiennych losowych w próbce jest statystyką. Jeśli statystyka ma zdolność do oszacowania parametru populacji, wówczas nazywamy go estymatorem (parametru będącego przedmiotem zainteresowania). Jednak istnieją pewne statystyki, które nie są przeznaczone do szacowania parametrów, więc te statystyki nie są estymatorami i tutaj nazywamy je „zwykłymi statystykami”.
To, co przedstawiłem powyżej, to sposób, w jaki patrzę i myślę o tych dwóch pojęciach, i starałem się wyrazić to w prostych słowach. Mam nadzieję, że to pomoże!
źródło
Nowa odpowiedź na stare pytanie:
Definicja 1. statystyka jest funkcją, która odwzorowuje każdą próbkę do liczby rzeczywistej.
Każdy estymator jest statystyką.
Ale zwykle nazywamy tylko te statystyki, które są używane do generowania oszacowań („domysłów”), niektóre parametry estymatora.
Na przykład statystyka t i średnia próbki są OBU statystykami. Średnia próbki jest również estymatorem (ponieważ często używamy jej do oszacowania prawdziwej średniej populacji).
W przeciwieństwie do tego rzadko / nigdy nie nazywamy statystyki t estymatorem, ponieważ rzadko / nigdy nie używamy jej do oszacowania dowolnego parametru.
źródło
W testowaniu hipotez :
Statystyka testowa dotyczy testowania hipotez. Statystyka testowa to zmienna losowa podana / pod hipotezą zerową. Teraz niektórzy mogą nazwać statystykę wartością / miarą statystyki testowej dla danej próbki.
Dzięki tym dwóm możesz uzyskać wartość p, która jest miarą, która pomaga odrzucić lub nie odrzucić hipotezy zerowej. Podsumowując, statystyka jest oszacowaniem, jak daleko / blisko twojej hipotezy.
Ten link może być przydatny.
źródło