Studenta -test wymaga próbka odchylenie standardowe . Jak jednak obliczyć dla gdy znana jest tylko wielkość próbki i średnia próbki?s s
Na przykład, jeśli wielkość próbki wynosi a średnia próbki to , wówczas spróbuję utworzyć listę identycznych próbek o wartości każda. Oczekiwane odchylenie standardowe próbki wynosi . Spowoduje to utworzenie problemu dzielenia przez zero w teście .112 49 112 0 t
DODATKOWE DANE:
Średni dochód pracowników ACME North Factory wynosi . Podobno losowa próba pracowników w ACME South Factory miała roczny dochód w . Czy ta różnica jest statystycznie istotna?49 $ 112
Czy mam rację mówiąc, że średnia populacji wynosi ?
Odpowiedzi:
Może to zaskoczyć wielu, ale aby rozwiązać ten problem, niekoniecznie musisz oszacować s . W rzeczywistości nie musisz nic wiedzieć o rozpowszechnianiu danych (chociaż byłoby to oczywiście pomocne). Na przykład Wall, Boen i Tweedie w artykule z 2001 roku opisują, jak znaleźć skończony przedział ufności dla średniej dowolnego rozkładu nieimodalnego na podstawie pojedynczego losowania.
W niniejszej sprawie mamy pewne podstawy, aby postrzegać średnią próbki 112 jako remis z rozkładu w przybliżeniu normalnego (mianowicie rozkład próby średniej z prostej losowej próby 49 wynagrodzeń). Zakładamy domyślnie, że istnieje dość duża liczba pracowników fabryki i że ich rozkład wynagrodzeń nie jest tak wypaczony ani multimodalny, aby uniemożliwić działanie twierdzenia o limicie centralnym. Następnie konserwatywny 90% CI dla średniej rozciąga się w górę do
wyraźnie obejmujący rzeczywistą średnią z 200. (Patrz wzór Wall i in. 3). Biorąc pod uwagę ograniczoną liczbę dostępnych informacji i przyjęte tutaj założenia, nie możemy zatem stwierdzić, że 112 różni się „znacząco” od 200.
Odniesienie: „Skuteczny przedział ufności dla średniej z próbkami wielkości pierwszej i drugiej”. The American Statistician, maj 2001, t. 55, nr 2: str. 102–105. ( pdf )
źródło
To wydaje się być nieco wymyślonym pytaniem. 49 jest dokładnym kwadratem o wartości 7. Wartość rozkładu t z 48 DoF dla testu dwustronnego p <0,05 wynosi bardzo blisko 2 (2,01).
Odrzucamy hipotezę zerową równości średnich, jeśli | sample_mean - popn_mean | > 2 * StdError, tj. 200-112> 2 * SE, więc SE <44, tj. SD <7 * 44 = 308.
Niemożliwe byłoby uzyskanie rozkładu normalnego ze średnią 112 ze standardowym odchyleniem 308 (lub więcej) bez płac ujemnych.
Biorąc pod uwagę, że płace są ograniczone poniżej, prawdopodobnie będą one wypaczone, więc założenie logarytmiczno-normalnego rozkładu byłoby bardziej odpowiednie, ale nadal wymagałoby wysoce zmiennych płac, aby uniknąć p <0,05 w teście t.
źródło
Załóżmy, że w północnej fabryce ACME jest 999 pracowników, z których każdy zarabia 112, a jeden dyrektor generalny zarabia 88112. Średnie wynagrodzenie ludności wynosi Prawdopodobieństwo wyciągnięcia dyrektora generalnego z próby 49 osób w fabryce to (wynika to z rozkładu hipergeometrycznego), a zatem przy 95% ufności średnia twojej próbkiμ = 0,999 ∗ 112 + 0,001 ∗ 88112 = 200. 49 / 1000 < 0,05
populacjiwyniesie 112. W rzeczywistości, dostosowując stosunek pracowników / dyrektorów generalnych i wynagrodzenie CEO, możemy uczynić go dowolnie mało prawdopodobne, że próbka 49 pracowników będzie narysować CEO, przy ustalaniu średniej populacji na 200, a średnia próbka 112. Tak więc, bez podejmowania pewnych założeń dotyczących rozkładu bazowego, nie można wyciągać żadnych wnioskowanie o średniej populacji.49 / 1000 < 0,05źródło
Zakładam, że masz na myśli test t dla jednej próbki. Jego celem jest porównanie średniej próbki z hipotetyczną średnią. Następnie oblicza (zakładając, że twoja populacja jest gaussowską) wartość P, która odpowiada na to pytanie: Jeśli średnia w populacji rzeczywiście była wartością hipotetyczną, jak mało prawdopodobne byłoby pobranie próbki, której średnia jest tak daleka od tej wartości (lub dalej) niż zaobserwowałeś? Oczywiście odpowiedź na to pytanie zależy od wielkości próby. Ale zależy to również od zmienności. Jeśli twoje dane mają dużą rozproszenie, są one zgodne z szerokim zakresem średnich populacji. Jeśli Twoje dane są naprawdę ścisłe, są one zgodne z mniejszym zakresem średnich populacji.
źródło