Próbuję nauczyć się statystyki, ponieważ uważam, że jest tak powszechna, że zabrania mi uczenia się niektórych rzeczy, jeśli nie rozumiem jej poprawnie. Mam problem ze zrozumieniem tego pojęcia rozkładu próbkowania średnich próbek. Nie rozumiem, w jaki sposób niektóre książki i strony to wyjaśniły. Myślę, że rozumiem, ale nie jestem pewien, czy jest poprawny. Poniżej moja próba zrozumienia tego.
Kiedy mówimy o pewnym zjawisku przyjmującym rozkład normalny, dotyczy to zasadniczo (nie zawsze) populacji.
Chcemy użyć statystyk wnioskowania, aby przewidzieć pewne rzeczy na temat pewnej populacji, ale nie mamy wszystkich danych. Używamy losowego próbkowania i każda próbka o wielkości n jest równie prawdopodobna do wybrania.
Pobieramy więc wiele próbek, powiedzmy 100, a następnie rozkład średnich z tych próbek będzie w przybliżeniu normalny zgodnie z centralnym twierdzeniem granicznym. Średnia średnich z próby przybliży średnią populacji.
Teraz nie rozumiem wielu razy, kiedy widzisz „Próbkę 100 osób…” Czy nie potrzebowalibyśmy 10 lub 100 próbek 100 osób, aby przybliżyć średnią populacji? Czy może jest tak, że możemy pobrać pojedynczą próbkę, która jest wystarczająco duża, powiedzmy 1000, a następnie powiedzmy, że średnia przybliża średnią populacji? LUB czy pobieramy próbkę 1000 osób, a następnie pobieramy 100 losowych próbek 100 osób w każdej próbce z pierwotnego 1000 osób, które pobraliśmy, a następnie wykorzystujemy to jako przybliżenie?
Czy pobranie wystarczająco dużej próbki w celu przybliżenia średniej (prawie) zawsze działa? Czy populacja musi być normalna, aby to działało?
sample std deviation / square root(n)
- pierwiastek kwadratowy z części n mówi nam, że otrzymujemy malejące zwroty z dokładności oszacowania dla stałych przyrostów jako wielkości próby staje się większy (np. przejście od 10 do 20 osób w próbie poprawia dokładność oszacowania bardziej niż od 210 do 220 osób)źródło
Rozkład próbkowania średniej jest rozkładem WSZYSTKICH próbek o danym rozmiarze. Średnia dystansu próbkowania jest równa średniej populacji. Kiedy mówimy o odległości próbkowania średniej dla próbek o danym rozmiarze, nie mówimy o jednej próbce lub nawet tysiącu próbek, ale o wszystkich próbkach.
źródło
Średnia odległość próbkowania nie ma nic wspólnego z przedziałami ufności. To kolejna koncepcja. W przypadku dystansu próbkowania populacja może być normalna lub nienormalna a) Jeśli pop jest normalny, to średnia próbkowana średniej będzie normalna dla dowolnej wielkości próby. b) Jeśli pop nie jest normalny, to 1) dystans próbkowania średniej NIE MOŻE być uznany za normalny, chyba że wielkość próbki wynosi 30 lub więcej. Następnie Centralne Twierdzenie Graniczne mówi nam, że dystans próbkowania można uznać za normalny.
Mówisz o przewidywaniu. Przewidywanie też nie ma z tym nic wspólnego. Wstawiasz za dużo w samp dist. Samp dist to po prostu wszystkie próbki, a następnie pobierana jest średnia. Średnia ze wszystkich tych próbek, mu sub x bar, jest równa średniej populacji, mi i standardowej odległości próbkowania dev, sigma sub x bar = sigma podzielona przez pierwiastek kwadratowy z n. (Nie będziemy rozmawiać o skończonym współczynniku korekcji popu. Weź swoją statystykę za wartość nominalną. Nie wczytuj zbyt wiele w pojęcie. Pięść rozumiesz podstawową koncepcję.
PS Samp dist mean nie ma nic ro do abput pr
źródło
Myślałem o problemach z dużymi zbiorami danych i przeglądałem niektóre z tych postów dziś rano. Nie sądzę, że jest to w ogóle trywialny problem, różnica między analizą 1000 danych jako jednego zestawu w porównaniu do analizy 10 zestawów 100. Teoretycznie , jeśli hipoteza zerowa jest prawdziwa, że dane są ididalne, to nie robi różnica. Jednak grupowanie i wzorce w danych nie są w ogóle uwzględniane, jeśli po prostu bierze się średnią z 1000 danych i podaje się oszacowaną średnią i związany z nią błąd standardowy.
Doszedłem do wniosku, patrząc na niektóre strony na stackexchange i wikipedii, że duże zbiory danych pozwalają zobaczyć to, co oczywiste . Jeśli w populacji są jakieś interesujące cechy, duży zestaw danych pokazałby je jako wyraźne w dzień. Gdybym miał bardzo duży zestaw danych, na który mogłem spojrzeć wizualnie, nie wskoczyłbym i nie wykonałbym krótkich podsumowań bez uprzedniego wyszukania bardzo oczywistych funkcji. Od moich najwcześniejszych lekcji wnioskowania statystycznego nauczono mnie patrzeć na wykresy i wizualizacje danych jako pierwszy krok. Nie mogę tego wystarczająco podkreślić. Jeśli zestaw danych jest zbyt duży, aby człowiek mógł na niego spojrzeć na ekranie, należy pobrać próbkę częściową z rozdzielczością czytelną dla człowieka.
źródło