To jest definicja statystyki na wikipedii
Bardziej formalnie, teoria statystyczna definiuje statystykę jako funkcję próbki, w której sama funkcja jest niezależna od rozkładu próbki; to znaczy funkcję można określić przed realizacją danych. Pojęcie statystyki jest używane zarówno dla funkcji, jak i dla wartości funkcji dla danej próbki.
Myślę, że rozumiem większość tej definicji, jednak część - gdzie funkcja jest niezależna od rozkładu próbki, nie byłam w stanie rozwiązać.
Moje dotychczasowe rozumienie statystyki
próbka jest zestaw realizacji z pewnej liczby niezależnych identycznie rozmieszczone (IID) zmiennych losowych z rozkładem F (10 realizacje rolki 20, kostkami targowych, 100 realizacjach 5 rolek 6-kostkami równych, losowo losuje 100 osób z populacji).
Funkcja, której domeną jest ten zestaw i której zakres jest liczbami rzeczywistymi (a może może wytwarzać inne rzeczy, takie jak wektor lub inny obiekt matematyczny ...) byłby uważany za statystykę .
Kiedy myślę o przykładach, średnia, mediana i wariancja mają w tym kontekście sens. Są funkcją zestawu realizacji (pomiary ciśnienia krwi z losowej próbki). Widzę też, jak model regresji liniowej można uznać za statystykę - czy to nie jest tylko funkcja na zbiorze realizacji?
Gdzie jestem zdezorientowany
Zakładając, że moje rozumienie z góry jest prawidłowe, nie byłem w stanie zrozumieć, gdzie funkcja może nie być niezależna od rozkładu próbki. Próbowałem wymyślić przykład, który miałby sens, ale bez powodzenia. Wszelkie informacje będą mile widziane!
źródło
Interpretuję to jako powiedzenie, że powinieneś zdecydować, zanim zobaczysz dane, jaką statystykę zamierzasz obliczyć. Na przykład, jeśli zamierzasz usunąć wartości odstające, powinieneś zdecydować, zanim zobaczysz dane, co stanowi „wartość odstającą”. Jeśli zdecydujesz się po wyświetleniu danych, twoja funkcja zależy od danych.
źródło