Podstawowe kursy statystyki często sugerują zastosowanie rozkładu normalnego do oszacowania średniej parametru populacji, gdy wielkość próby n jest duża (zwykle powyżej 30 lub 50). Rozkład T studenta jest stosowany dla mniejszych próbek w celu uwzględnienia niepewności w odchyleniu standardowym próbki. Gdy wielkość próby jest duża, odchylenie standardowe próbki daje dobre informacje na temat odchylenia standardowego populacji, umożliwiając oszacowanie rozkładu normalnego. Rozumiem.
Ale po co używać oszacowania, kiedy dokładnie można uzyskać przedział ufności? Niezależnie od wielkości próbki, jaki jest sens stosowania rozkładu normalnego, jeśli jest to tylko oszacowanie czegoś, co można uzyskać dokładnie z rozkładem T?
Odpowiedzi:
Aby wyjaśnić związek z tytułem, nie używamy rozkładu t do oszacowania średniej (przynajmniej w sensie oszacowania punktowego), ale do skonstruowania przedziału dla niego.
To dobre pytanie (o ile nie przykładamy zbytniej wagi do „dokładnie”, ponieważ założenia są takie dokładnie podzielony na t, tak naprawdę się nie utrzymają).
Uważam tę radę za - w najlepszym razie - potencjalnie wprowadzającą w błąd. W niektórych sytuacjach rozkład t powinien być nadal stosowany, gdy stopnie swobody są znacznie większe niż to.
To, gdzie normalne jest rozsądne przybliżenie, zależy od różnych rzeczy (a więc zależy od sytuacji). Ponieważ jednak (z komputerami) wcale nie jest trudno po prostu użyćt , nawet jeśli df są bardzo duże, będziesz musiał się zastanawiać, dlaczego musisz martwić się zrobieniem czegoś innego przy n = 30.
Jeśli rozmiary próbek są naprawdę duże, nie zrobi to zauważalnej różnicy w przedziale ufności, ale nie sądzę, aby n = 30 zawsze było wystarczająco blisko „naprawdę dużego”.
Jest jedna okoliczność, w której warto zastosować normalną zamiastt - wtedy twoje dane wyraźnie nie spełniają warunków, aby uzyskać rozkład t, ale nadal możesz argumentować za przybliżoną normalnością średniej (jeśli n jest dość duży). Jednak w tych okolicznościach często t jest dobrym przybliżeniem w praktyce i może być nieco „bezpieczniejsze”. [W takiej sytuacji mogę być skłonny do zbadania sprawy za pomocą symulacji.]
źródło
To historyczny anachronizm. Jest ich wiele w statystykach.
Jeśli nie masz komputera, trudno było użyć rozkładu t, a znacznie łatwiej było użyć rozkładu normalnego. Gdy wielkość próbki staje się duża, obie dystrybucje stają się podobne (jak duże jest „duże” to kolejne pytanie).
źródło
źródło