Wielokrotnie czytałem / słyszałem, że wielkość próbki co najmniej 30 jednostek jest uważana za „dużą próbkę” (założenia dotyczące normalności środków zwykle w przybliżeniu zachowują się z powodu CLT, ...). Dlatego w moich eksperymentach zwykle generuję próbki 30 jednostek. Czy możesz podać mi odniesienie, które należy zacytować, gdy używasz próbki o wielkości 30?
41
Odpowiedzi:
Wybór n = 30 dla granicy między małymi i dużymi próbkami jest jedynie regułą. Istnieje wiele książek, które cytują (w przybliżeniu) tę wartość, na przykład „ Prawdopodobieństwo i wnioskowanie statystyczne Hogga i Tanisa” (7e) mówi „więcej niż 25 lub 30”.
Powiedział, że historia opowiedziana mi się, że jedynym powodem, 30 uznano za granica była dobra, ponieważ jest wykonane za ładna Studenta t tabel w podręcznikach do tyłu ładnie mieści się na jednej stronie. To, a wartości krytyczne (między t Studenta i Normalne) są wyłączone tylko o około 0,25, w każdym razie od df = 30 do df = nieskończoność. W przypadku obliczeń ręcznych różnica tak naprawdę nie miała znaczenia.
W dzisiejszych czasach łatwo jest obliczyć wartości krytyczne dla różnych rzeczy z dokładnością do 15 miejsc po przecinku. Ponadto mamy metody ponownego próbkowania i permutacji, dla których nie jesteśmy nawet ograniczeni do parametrycznych rozkładów populacji.
W praktyce nigdy nie polegam na n = 30. Wykreśl dane. Nałóż normalny rozkład, jeśli chcesz. Wizualnie oceń, czy normalne zbliżenie jest właściwe (i zapytaj, czy zbliżenie jest naprawdę potrzebne). Jeśli generowanie próbek do badań i aproksymacja jest obowiązkowa, należy wygenerować wystarczającą wielkość próby, aby aproksymacja była tak bliska, jak to pożądane (lub tak bliska, jak to możliwe obliczeniowo).
źródło
W rzeczywistości „magiczna liczba” 30 jest błędem. Zobacz zachwycający artykuł Jacoba Cohena, Things I Have Learned (So Far) (Am. Psych. Grudzień 1990 45 # 12, s. 1304–1312) . Ten mit jest jego pierwszym przykładem tego, że „niektóre rzeczy, których się uczysz, nie są takie”.
źródło
IMO, wszystko zależy od tego, do czego chcesz użyć próbki. Dwa „głupie” przykłady ilustrujące to, co mam na myśli: jeśli potrzebujesz oszacować średnią, 30 obserwacji jest więcej niż wystarczające. Jeśli musisz oszacować regresję liniową za pomocą 100 predyktorów, 30 obserwacji nie będzie wystarczająco blisko.
źródło
Przeważnie arbitralna zasada. To stwierdzenie zależy od wielu czynników. Na przykład przy dystrybucji danych. Jeśli dane pochodzą na przykład z Cauchy'ego, nawet 30 ^ 30 obserwacji nie wystarczy do oszacowania średniej (w takim przypadku nawet nieskończona liczba obserwacji nie wystarczyłaby, aby spowodować Zbiegać się). Ta liczba (30) jest również fałszywa, jeśli wartości, które rysujesz, nie są od siebie niezależne (ponownie możesz mieć pewność, że nie ma żadnej zbieżności, niezależnie od wielkości próby).μ¯(n)
Mówiąc bardziej ogólnie, CLT potrzebuje zasadniczo dwóch filarów:
(Oba te warunki mogą być nieco osłabione, ale różnice mają w dużej mierze charakter teoretyczny)
źródło