Tło: Przedstawiam kolegom w pracy prezentację na temat testowania hipotez i rozumiem większość z nich dobrze, ale jest jeden aspekt, który wiążę się w węzły, próbując zrozumieć i wyjaśnić innym.
Tak myślę, że wiem (proszę poprawić, jeśli źle!)
- Statystyki, które byłyby normalne, gdyby wariancja była znana, postępuj zgodnie z rozkładem jeśli wariancja jest nieznana
- CLT (Central Limit Theorem): rozkład próbkowania średniej próbki jest w przybliżeniu normalny dla wystarczająco dużego (może wynosić , może być do dla silnie wypaczonych rozkładów)30 300
- Rozkład można uznać za normalny dla stopni swobody> 30
Skorzystać z -test jeżeli:
- Populacja normalna i znana wariancja (dla dowolnej wielkości próby)
- Populacja normalna, wariancja nieznana in (z powodu CLT)
- Dwumian populacji, ,n q > 10
Używasz testu jeśli:
- Populacja normalna, wariancja nieznana in
- Brak wiedzy na temat populacji lub wariancji in , ale dane próbki wyglądają normalnie / pomyślnie przechodzą testy itp., Więc populację można uznać za normalną
Pozostały mi więc:
- Dla próbek i (?), Brak wiedzy o populacji i wariancji znanych / nieznanych.< ≈ 300
Więc moje pytania to:
Przy jakiej wielkości próby można założyć (w przypadku braku wiedzy o rozkładzie populacji lub wariancji), że rozkład średniej próby jest normalny (tj. Uruchomił się CLT), gdy rozkład próby wygląda nienormalnie? Wiem, że niektóre dystrybucje potrzeba , ale niektóre środki zdają się mówić używać -test gdy ...z n > 30
W przypadkach, których nie jestem pewien, zakładam, że sprawdzam dane pod kątem normalności. Teraz, jeśli przykładowe dane wyglądają normalnie, czy używam testu (ponieważ zakładam, że populacja jest normalna, a ponieważ )?
Co z tym, gdzie przykładowe dane dla przypadków, których nie jestem pewien, nie wyglądają normalnie? Czy są jakieś okoliczności, w których nadal używałbyś testu lub testu czy zawsze starasz się przekształcić / zastosować testy nieparametryczne? Wiem, że ze względu na CLT przy pewnej wartości rozkład próbkowania średniej będzie zbliżony do normy, ale dane próbki nie powiedzą mi, co to jest wartość ; dane próbki mogą być nienormalne, podczas gdy średnia próbki jest zgodna z normą / . Czy istnieją przypadki, w których transformowałbyś / stosowałeś test nieparametryczny, podczas gdy w rzeczywistości rozkład próbkowania średniej był normalny / ale nie mogłeś powiedzieć? z n n t t
Odpowiedzi:
@AdamO ma rację, po prostu zawsze używasz testu jeśli nie znasz a-priori odchylenia standardowego populacji. Nie musisz się martwić, kiedy przełączyć się na test- , ponieważ dystrybucja przełącza się za ciebie. Dokładniej, -Dystrybucja zbieżny do normalnej, a tym samym jest to prawidłowy rozdział co do wykorzystania w .t z t t NN
Istnieje również zamieszanie co do znaczenia tradycyjnej linii przy . Istnieją dwa rodzaje konwergencji, o których ludzie mówią:N=30
W każdym razie, aby bardziej precyzyjnie odpowiedzieć na twoje pytania, jeśli uważasz, że twoje (w grupie) surowe dane nie są normalnie rozpowszechniane, skorzystaj z testu Manna-Whitneya ; jeśli uważasz, że Twoje dane są normalnie rozpowszechniane, ale nie znasz a priori SD, skorzystaj z testu ; a jeśli uważasz, że Twoje dane są normalnie dystrybuowane i znasz a priori SD, skorzystaj testu- .U t z
Może pomóc ci przeczytać ostatnią odpowiedź @ GregSnow tutaj: Interpretacja wartości p w porównaniu proporcji między dwiema małymi grupami w R również w odniesieniu do tych kwestii.
źródło
W tej sprawie nie ma o czym dyskutować. Używać -test zawsze na nieparametrycznego testu różnic w sposób, o ile bardziej wyrafinowany przykład narzędziowego resampling permutacji ładujący, lub jest wymagana (przydatne w bardzo małych próbek o dużych odstępstw od normalności).t
Jeśli stopnie swobody faktycznie mają znaczenie, to test zapewni spójne oszacowanie wartości krytycznych i standardowych błędów dla rozkładu statystyki testowej w ramach hipotezy zerowej. W przeciwnym razie test jest w przybliżeniu taki sam jak test .t zt t z
Normalne przybliżenie do testów parametrów modelu parametrycznego, takich jak test proporcji populacji, jest w pewnym sensie nieczynne. Gdy dane są na tyle małe, że naprawdę istnieje różnica między wartościami krytycznymi generowanymi rozkładów lub , naprawdę powinieneś zastosować dokładny test proporcji oparty na skalowanym dwumianowym rozkładzie statystyki testowej. W ten sposób działają również testy ponownego próbkowania. Przyjmowanie arbitralnych założeń dotyczących wielkości próby i częstości przypadków / kontroli w szacowaniu parametrów Bernoulliego jest mylące i bardzo podatne na błędy.zt z
Pojęcie testu- („znanej” wariancji) jest mylące, ponieważ nigdy nie „znamy” wariancji ani nie wydajesz dużo na jej oszacowanie. Gdy ten koszt ma znaczenie, tylko test odzwierciedla jego wpływ na stopnie swobody.tz t
źródło