Przykłady statystyki, która nie jest niezależna od rozkładu próbki?

14

To jest definicja statystyki na wikipedii

Bardziej formalnie, teoria statystyczna definiuje statystykę jako funkcję próbki, w której sama funkcja jest niezależna od rozkładu próbki; to znaczy funkcję można określić przed realizacją danych. Pojęcie statystyki jest używane zarówno dla funkcji, jak i dla wartości funkcji dla danej próbki.

Myślę, że rozumiem większość tej definicji, jednak część - gdzie funkcja jest niezależna od rozkładu próbki, nie byłam w stanie rozwiązać.

Moje dotychczasowe rozumienie statystyki

próbka jest zestaw realizacji z pewnej liczby niezależnych identycznie rozmieszczone (IID) zmiennych losowych z rozkładem F (10 realizacje rolki 20, kostkami targowych, 100 realizacjach 5 rolek 6-kostkami równych, losowo losuje 100 osób z populacji).

Funkcja, której domeną jest ten zestaw i której zakres jest liczbami rzeczywistymi (a może może wytwarzać inne rzeczy, takie jak wektor lub inny obiekt matematyczny ...) byłby uważany za statystykę .

Kiedy myślę o przykładach, średnia, mediana i wariancja mają w tym kontekście sens. Są funkcją zestawu realizacji (pomiary ciśnienia krwi z losowej próbki). Widzę też, jak model regresji liniowej można uznać za statystykę yi=α+βxi - czy to nie jest tylko funkcja na zbiorze realizacji?

Gdzie jestem zdezorientowany

Zakładając, że moje rozumienie z góry jest prawidłowe, nie byłem w stanie zrozumieć, gdzie funkcja może nie być niezależna od rozkładu próbki. Próbowałem wymyślić przykład, który miałby sens, ale bez powodzenia. Wszelkie informacje będą mile widziane!

Jake Kirsch
źródło

Odpowiedzi:

45

Ta definicja jest dość niezręcznym sposobem jej sformułowania. „Statystyka” to dowolna funkcja obserwowalnych wartości. Ta definicja oznacza jedynie, że statystyka jest funkcją tylko obserwowalnych wartości, a nie funkcją rozkładu lub któregokolwiek z jej parametrów. Na przykład, jeśli X1,X2,...,XnN(μ,1) , a następnie statystyka będzie żadnych funkcji T(X1,...,Xn) a funkcja H(X1,....,Xn,μ) nie byłby statystyką, ponieważ zależy odμ . Oto kilka dalszych przykładów:

StatisticX¯n=1ni=1nXi,StatisticSn2=1ni=1n(XiX¯n)2,Not a statisticDn=X¯nμ,Not a statisticpi=N(xi|μ,1),Not a statisticQ=10μ.

Każda statystyka jest funkcją tylko obserwowalnych wartości, a nie ich rozkładu lub jego parametrów. Nie ma więc przykładów statystyki, która jest funkcją rozkładu lub jego parametrów (żadna taka funkcja nie byłaby statystyką). Należy jednak zauważyć, że rozkład statystyki (w przeciwieństwie do samej statystyki) będzie ogólnie zależeć od leżącego u podstaw rozkładu wartości. (Dotyczy to wszystkich statystyk innych niż statystyki pomocnicze ).


A co z funkcją, w której parametry są znane? W komentarzach poniżej Alecos zadaje doskonałe pytanie uzupełniające. Co z funkcją, która korzysta ze stałej hipotetycznej wartości parametru? Na przykład, co ze statystyką n(x¯μ)gdzieμ=μ0przyjmuje się równa znanej wartości hipotetycznyμ0R. Tutaj funkcja jest rzeczywiście statystyką, o ile jest zdefiniowana w odpowiednio ograniczonej dziedzinie. Tak więc funkcjaH0:RnRoH0(x1,...,xn)=n(x¯μ0)będzie statystykę, lecz funkcjaH:Rn+1RoH(x1,...,xn,μ)=n(x¯μ)toniebyć statystyczny.

Przywróć Monikę
źródło
1
Bardzo pomocna odpowiedź, biorąc pod uwagę podstawowy parametr statystyczny jako część niestatystyki, była szczególnie pomocna.
Jake Kirsch,
4
@CarlWitthoft Nie rozumiem o co ci chodzi. Jeśli jest to funkcja obserwowalnych wartości, to jest to statystyka. Może być funkcją mniejszego podzbioru wartości; to nadal może być przydatne do rozważenia. Jeśli chcesz oszacować średnią i masz obserwacji, nadal możesz spojrzeć na ( X 1 + X 2 + + X 1000 ) / 1000, jeśli koszt przetwarzania danych jest wysoki, a koszt błędu niski. Lub z jakiegoś powodu możesz rozważyć dwa niezależne oszacowania średniej i rozważyć ( X 1 + + X n1010(X1+X2++X1000)/1000i(X n / 2 + 1 ++Xn)/(n/2). To wciąż statystyki. (X1++Xn/2)/(n/2)(Xn/2+1++Xn)/(n/2)
James Martin
4
Te przykłady wydają mi się całkowicie aktualne. Czy mówisz, że pomysł dzielenia danych na zestaw szkoleniowy i zestaw sprawdzania poprawności jest nieprawidłowy?
James Martin
2
Też mnie to trochę zdezorientowane. Pozwól mi spróbować opisać punkt @CarlWitthoft. Wciąż byłaby to statystyka w kategoriach definicji matematycznej, ale mogłem zobaczyć przypadek, w którym konsultant przyjmuje „statystykę” obserwacji, ale arbitralnie decyduje się usunąć kilka wyników (konsultanci robią to cały czas, prawda?). Byłoby to „prawidłowe” w tym sensie, że nadal jest funkcją obserwacji, jednak sposób, w jaki statystyka może być prezentowana i interpretowana, prawdopodobnie nie byłaby poprawna.
Jake Kirsch,
2
@Cll Withhoft: W odniesieniu do tego, co robisz, ważne jest, aby odróżnić statystyki (które nie muszą obejmować wszystkich danych i mogą nie obejmować wszystkich informacji w próbce) od wystarczającej statystyki (która obejmie wszystkie informacje dotyczące niektórych parametrów). Teoria statystyczna ma już dobrze rozwinięte koncepcje, takie jak wystarczalność, która odzwierciedla ideę, że statystyki obejmują wszystkie istotne informacje w próbie. Próba wbudowania tego wymogu w definicję „statystyki” nie jest konieczna ani pożądana.
Przywróć Monikę
4

Interpretuję to jako powiedzenie, że powinieneś zdecydować, zanim zobaczysz dane, jaką statystykę zamierzasz obliczyć. Na przykład, jeśli zamierzasz usunąć wartości odstające, powinieneś zdecydować, zanim zobaczysz dane, co stanowi „wartość odstającą”. Jeśli zdecydujesz się po wyświetleniu danych, twoja funkcja zależy od danych.

Akumulacja
źródło
to też jest pomocne! Podjęcie decyzji o tym, które obserwacje należy uwzględnić w funkcji po tym, jak wiadomo, jakie obserwacje są dostępne, co mniej więcej opisałem w komentarzu do poprzedniej odpowiedzi.
Jake Kirsch,
2
(+1) Warto zauważyć, że jest to ważne, ponieważ jeśli zdefiniujesz regułę o tym, co stanowi punkt danych, który zostanie usunięty, (względnie) łatwo jest uzyskać rozkład dla statystyki (tj. Skróconej średniej itp.) .). Naprawdę trudno jest uzyskać rozkład dla miary polegającej na upuszczaniu punktów danych z powodów, które nie zostały wcześniej dokładnie określone.
Cliff AB