Dlaczego nie wykorzystać rozkładu T do oszacowania średniej, gdy próbka jest duża?

17

Podstawowe kursy statystyki często sugerują zastosowanie rozkładu normalnego do oszacowania średniej parametru populacji, gdy wielkość próby n jest duża (zwykle powyżej 30 lub 50). Rozkład T studenta jest stosowany dla mniejszych próbek w celu uwzględnienia niepewności w odchyleniu standardowym próbki. Gdy wielkość próby jest duża, odchylenie standardowe próbki daje dobre informacje na temat odchylenia standardowego populacji, umożliwiając oszacowanie rozkładu normalnego. Rozumiem.

Ale po co używać oszacowania, kiedy dokładnie można uzyskać przedział ufności? Niezależnie od wielkości próbki, jaki jest sens stosowania rozkładu normalnego, jeśli jest to tylko oszacowanie czegoś, co można uzyskać dokładnie z rozkładem T?

Pertinax
źródło
@Glen_b Tak, to byłyby estymatory interwałów. Odnośnie do tych przedziałów: „Musisz użyć tabeli rozkładu t, gdy problemy robocze występują, gdy odchylenie standardowe populacji (σ) nie jest znane, a wielkość próby jest mała (n <30)” (z web.pdx.edu/~stipakb/ pobierz / PA551 / NormalVersusTdistribution.doc). Dlaczego ludzie nie używają rozkładu T przez cały czas, gdy odchylenie standardowe populacji nie jest znane (nawet gdy n> 30)?
Pertinax,

Odpowiedzi:

15

Aby wyjaśnić związek z tytułem, nie używamy rozkładu t do oszacowania średniej (przynajmniej w sensie oszacowania punktowego), ale do skonstruowania przedziału dla niego.

Ale po co używać oszacowania, kiedy dokładnie można uzyskać przedział ufności?

To dobre pytanie (o ile nie przykładamy zbytniej wagi do „dokładnie”, ponieważ założenia są takie dokładnie podzielony na t, tak naprawdę się nie utrzymają).

„Musisz użyć tabeli rozkładu t, gdy problemy robocze występują, gdy odchylenie standardowe populacji (σ) nie jest znane, a wielkość próby jest niewielka (n <30)”

Dlaczego ludzie nie używają rozkładu T przez cały czas, gdy odchylenie standardowe populacji nie jest znane (nawet gdy n> 30)?

Uważam tę radę za - w najlepszym razie - potencjalnie wprowadzającą w błąd. W niektórych sytuacjach rozkład t powinien być nadal stosowany, gdy stopnie swobody są znacznie większe niż to.

To, gdzie normalne jest rozsądne przybliżenie, zależy od różnych rzeczy (a więc zależy od sytuacji). Ponieważ jednak (z komputerami) wcale nie jest trudno po prostu użyć t , nawet jeśli df są bardzo duże, będziesz musiał się zastanawiać, dlaczego musisz martwić się zrobieniem czegoś innego przy n = 30.

Jeśli rozmiary próbek są naprawdę duże, nie zrobi to zauważalnej różnicy w przedziale ufności, ale nie sądzę, aby n = 30 zawsze było wystarczająco blisko „naprawdę dużego”.


Jest jedna okoliczność, w której warto zastosować normalną zamiast t - wtedy twoje dane wyraźnie nie spełniają warunków, aby uzyskać rozkład t, ale nadal możesz argumentować za przybliżoną normalnością średniej (jeśli n jest dość duży). Jednak w tych okolicznościach często t jest dobrym przybliżeniem w praktyce i może być nieco „bezpieczniejsze”. [W takiej sytuacji mogę być skłonny do zbadania sprawy za pomocą symulacji.]

Glen_b - Przywróć Monikę
źródło
2
Czytałem gdzieś w tym dokumencie, że jest dobre, gdy α = 5 % . Ale nie jestem pewien, czy to wystarczy. n=30α=5%
Stéphane Laurent,
1
@ StéphaneLaurent W większości przypadków powinno być w porządku na poziomie 5%, ale takie osądy zależą od osoby. Są sytuacje - z którymi spotkałem się tylko dzisiaj - gdzie ten poziom błędu może wystarczyć.
Glen_b
2
@ StéphaneLaurent Możesz uzyskać porządny wgląd od Johnson, VE (2013). Zmienione standardy dla dowodów statystycznych . Postępowania z National Academy of Sciences , 110 (48): 19313–19317. Ten artykuł wpisuje się w post - Dlaczego większość opublikowanych wyników badań jest fałszywą krytyką badań ( a la How Science Goes Wrong )
Alexis
4
@ StéphaneLaurent Twój artykuł odpowiada na moje pytanie. Dla przypomnienia, przybliżone tłumaczenie jego konkluzji: „Zastosowanie rozkładu normalnego jako przybliżenia rozkładu t Studenta jest wyłącznie produktem ograniczeń technologicznych XX wieku. Ograniczenia te zniknęły wraz z nowoczesnym oprogramowaniem statystycznym i nie ma już każdy powód, aby użyć tych niekonserwatywnych przybliżeń ".
Pertinax,
2
@TheThunderChimp Zastrzeżenie: jeśli znana jest wariancja populacji (np. Oszacowanie proporcji populacji - średnia zmiennej dychotomicznej), wówczas standardowa normalna ( z ), a nie rozkład t jest odpowiednia.
Alexis,
7

To historyczny anachronizm. Jest ich wiele w statystykach.

Jeśli nie masz komputera, trudno było użyć rozkładu t, a znacznie łatwiej było użyć rozkładu normalnego. Gdy wielkość próbki staje się duża, obie dystrybucje stają się podobne (jak duże jest „duże” to kolejne pytanie).

Jeremy Miles
źródło
1
To wydaje się dość płytka odpowiedź na głębsze pytanie.
Alexis,
2
Nie wiem co masz na myśli. Nie uważasz, że to jest powód? (Najbardziej uprzywilejowana odpowiedź ma ten sam punkt - choć bardziej wymownie i misternie.)
Jeremy Miles
1
Poparłem głos, ponieważ twoja odpowiedź brzmi: „Ponieważ historia. Krótkie podsumowanie twojego pytania.
Alexis,
2
Dzięki za poinformowanie mnie - to milsze niż anonimowe głosowanie, o którym nie wiedziałem powodu.
Jeremy Miles,
3
Historycznie jeden „używał” tych rozkładów, wyszukując wartości w tabelach. Jedynym sposobem, w jaki łatwiej byłoby zastosować rozkład normalny, byłoby to, że nie trzeba było wybierać kolumny odpowiadającej stopniom swobody. To nie jest problem. Co zrobił wykorzystanie limitu było to, że w pewnym momencie nie ma sensu, aby rozwinąć tabel do dużych stopni swobody: książki staną się zbyt duże.
whuber
1

ex2n

Wiktor Żurkowski
źródło
1
Przy jakich rozmiarach błędy numeryczne przy szacowaniu t przewyższają korzyści z jego używania?
jona
2
z pewnością możesz obliczyć wartości t z dowolną dokładnością, a więc mogą być tak dokładne, jak wielkości, z którymi je porównujesz.
Neil G
„Innymi słowy,„ dokładna ”wartość t nie jest„ dokładna ”, aw granicach błędu aproksymacji wartość jest taka sama jak wartość CDF dla standardowej normy.” Nie jestem pewien, czy jest to rzetelna zasada.
shadowtalker
2
25.9325×1016
1
Whuber, masz rację. Niepoprawnie użyłem „błędu numerycznego”. Miałem na myśli wszystkie błędy obsługi liczb: przybliżenie liczbowe całek, błędy numeryczne do pracy ze skończoną precyzją oraz błędy numeryczne spowodowane obcięciem. Gdyby można było pracować z nieskończoną precyzją, nie byłoby uzasadnienia dla zastąpienia rozkładu t normalnym
VictorZurkowski,