Jak wykonać test t-Studenta mający tylko wielkość próby, średnią próbki i średnią populacji?

28

Studenta -test wymaga próbka odchylenie standardowe . Jak jednak obliczyć dla gdy znana jest tylko wielkość próbki i średnia próbki?s stss

Na przykład, jeśli wielkość próbki wynosi a średnia próbki to , wówczas spróbuję utworzyć listę identycznych próbek o wartości każda. Oczekiwane odchylenie standardowe próbki wynosi . Spowoduje to utworzenie problemu dzielenia przez zero w teście .112 49 112 0 t49112491120t

DODATKOWE DANE:
Średni dochód pracowników ACME North Factory wynosi . Podobno losowa próba pracowników w ACME South Factory miała roczny dochód w . Czy ta różnica jest statystycznie istotna?49 $ 112$20049$112

Czy mam rację mówiąc, że średnia populacji wynosi ?$200

Zestaw
źródło
Jaki problem próbujesz rozwiązać? Pomoże nam pomóc, jeśli powiesz nam więcej.
pmgjones
Pewnie. Dodałem przykładowy problem.
Zestaw

Odpowiedzi:

32

Może to zaskoczyć wielu, ale aby rozwiązać ten problem, niekoniecznie musisz oszacować s . W rzeczywistości nie musisz nic wiedzieć o rozpowszechnianiu danych (chociaż byłoby to oczywiście pomocne). Na przykład Wall, Boen i Tweedie w artykule z 2001 roku opisują, jak znaleźć skończony przedział ufności dla średniej dowolnego rozkładu nieimodalnego na podstawie pojedynczego losowania.

W niniejszej sprawie mamy pewne podstawy, aby postrzegać średnią próbki 112 jako remis z rozkładu w przybliżeniu normalnego (mianowicie rozkład próby średniej z prostej losowej próby 49 wynagrodzeń). Zakładamy domyślnie, że istnieje dość duża liczba pracowników fabryki i że ich rozkład wynagrodzeń nie jest tak wypaczony ani multimodalny, aby uniemożliwić działanie twierdzenia o limicie centralnym. Następnie konserwatywny 90% CI dla średniej rozciąga się w górę do

112+5.84 |112|,

wyraźnie obejmujący rzeczywistą średnią z 200. (Patrz wzór Wall i in. 3). Biorąc pod uwagę ograniczoną liczbę dostępnych informacji i przyjęte tutaj założenia, nie możemy zatem stwierdzić, że 112 różni się „znacząco” od 200.

Odniesienie: „Skuteczny przedział ufności dla średniej z próbkami wielkości pierwszej i drugiej”. The American Statistician, maj 2001, t. 55, nr 2: str. 102–105. ( pdf )

Whuber
źródło
4
Tak to jest! Dlatego warto się uczyć: wyzwania dla naszej intuicji są wyjątkowo edukacyjne. Po raz pierwszy dowiedziałem się o tym z czytelnego artykułu na stronie Carlosa Rodrigueza (SUNY Albany), ale nie mogłem go znaleźć dziś rano: wygląda na to, że serwer jest wyłączony. Wypróbuj później Google „statystyki Carlosa Rogrigueza”. (Jego praca ma być na omega.albany.edu/8008/confint.html , ale może to być stary adres URL.)
whuber
4
Niesamowity. Nie wiedziałem tego Dzięki za referencje.
Rob Hyndman,
4
Dzięki - czy jest jakaś szansa, że ​​to papier Rodrigueza, o którym myślisz? arxiv.org/abs/bayes-an/9504001
ars
2
To jest świetne. Jestem jednak ciekawy, dlaczego zastosowałeś wzór (3) (który pochodzi od Edelmana), który Wall i in. Opisują jako „szerszy niż to konieczne”. Pod koniec akapitu bezpośrednio przed wzmianką (3) używają 4,84 (dokładnie 1 mniej niż 5,84) dla 90% przedziału, który pochodzi z ich równania (4). Bez wątpienia coś przeoczyłem.
Glen_b
2
@Glen_b Przeciwnie, najprawdopodobniej coś mi umknęło. Zwrócę na to uwagę następnym razem, gdy będę potrzebować tego artykułu, ale w międzyczasie różnica stałych nie ma tutaj wpływu na analizę.
whuber
13

To wydaje się być nieco wymyślonym pytaniem. 49 jest dokładnym kwadratem o wartości 7. Wartość rozkładu t z 48 DoF dla testu dwustronnego p <0,05 wynosi bardzo blisko 2 (2,01).

Odrzucamy hipotezę zerową równości średnich, jeśli | sample_mean - popn_mean | > 2 * StdError, tj. 200-112> 2 * SE, więc SE <44, tj. SD <7 * 44 = 308.

Niemożliwe byłoby uzyskanie rozkładu normalnego ze średnią 112 ze standardowym odchyleniem 308 (lub więcej) bez płac ujemnych.

Biorąc pod uwagę, że płace są ograniczone poniżej, prawdopodobnie będą one wypaczone, więc założenie logarytmiczno-normalnego rozkładu byłoby bardziej odpowiednie, ale nadal wymagałoby wysoce zmiennych płac, aby uniknąć p <0,05 w teście t.

Thylacoleo
źródło
3

Załóżmy, że w północnej fabryce ACME jest 999 pracowników, z których każdy zarabia 112, a jeden dyrektor generalny zarabia 88112. Średnie wynagrodzenie ludności wynosi Prawdopodobieństwo wyciągnięcia dyrektora generalnego z próby 49 osób w fabryce to (wynika to z rozkładu hipergeometrycznego), a zatem przy 95% ufności średnia twojej próbki populacji wyniesie 112. W rzeczywistości, dostosowując stosunek pracowników / dyrektorów generalnych i wynagrodzenie CEO, możemy uczynić go dowolnie mało prawdopodobne, że próbka 49 pracowników będzie narysować CEO, przy ustalaniu średniej populacji na 200, a średnia próbka 112. Tak więc, bez podejmowania pewnych założeń dotyczących rozkładu bazowego, nie można wyciągać żadnych wnioskowanie o średniej populacji.49 / 1000 < 0,05μ=0,999112+0,00188112=20049/1000<0,05

shabbychef
źródło
2
$
1
(1) dobry połów. (2) tak, mogę sprawić, by konfiguracja problemu była asymptotycznie przewrotna dla stałych wyników, post hoc . mój błąd. nie jestem jednak już pewien, co OP próbuje przetestować. Jeśli wiedzą, że średnia populacji wynosi 200, dlaczego próbują to przetestować?
shabbychef,
1
BTW, najwyraźniej stosunek wynagrodzenia do wynagrodzenia dyrektora generalnego / wynagrodzenia najmniej wypłacanego na poziomie 400 nie jest uważany za ekstremalny w Stanach Zjednoczonych. 800 jest jednak trochę przewrotne.
shabbychef,
2

Zakładam, że masz na myśli test t dla jednej próbki. Jego celem jest porównanie średniej próbki z hipotetyczną średnią. Następnie oblicza (zakładając, że twoja populacja jest gaussowską) wartość P, która odpowiada na to pytanie: Jeśli średnia w populacji rzeczywiście była wartością hipotetyczną, jak mało prawdopodobne byłoby pobranie próbki, której średnia jest tak daleka od tej wartości (lub dalej) niż zaobserwowałeś? Oczywiście odpowiedź na to pytanie zależy od wielkości próby. Ale zależy to również od zmienności. Jeśli twoje dane mają dużą rozproszenie, są one zgodne z szerokim zakresem średnich populacji. Jeśli Twoje dane są naprawdę ścisłe, są one zgodne z mniejszym zakresem średnich populacji.

Harvey Motulsky
źródło