Mam próbkę 250 jednostek. Rozkład jest asymetryczny. Chcę przetestować hipotezę, że mediana populacji różni się od 3,5, więc myślę, że odpowiedni byłby test z jedną próbą. Wiem, że test rang Wilcoxona nie jest odpowiedni, ponieważ rozkład nie jest symetryczny. Czy można użyć testu znakowego? Jeśli tak nie jest, czy ktoś może polecić inny test?
hypothesis-testing
median
LeonRupnik
źródło
źródło
Odpowiedzi:
Streszczenie
Liczba danych przekraczająca3.5 ma rozkład dwumianowy z nieznanym prawdopodobieństwem p . Użyj tego do przeprowadzenia dwumianowego testup = 1 / 2 przeciw alternatywie P ≠ 1 / 2 .
Pozostała część tego postu wyjaśnia podstawowy model i pokazuje, jak wykonać obliczenia. Zapewnia działający
R
kod do ich wykonania. W mojej odpowiedzi na „Jakie jest znaczenie wartości p i wartości t w testach statystycznych?” Znajduje się rozszerzony opis teorii testowania hipotez ? .Model statystyczny
Zakładając, że wartości są dość zróżnicowane (z kilkoma powiązaniami na poziomie3.5 ), a następnie pod hipotezą zerową każda losowo próbkowana wartość ma wartość 1 / 2 = 50 % szansa na przekroczenie 3.5 (od 3.5 jest określany jako średnia wartość populacji). Zakładając wszystko250 wartości losowo i niezależnie pobierano próbki, a ich liczba przekraczała 3.5 będzie zatem miał dwumianowy( 250 , 1 / 2 ) dystrybucja. Nazwijmy ten numer „liczyć”k .
Z drugiej strony, jeśli mediana populacji różni się3.5 , szansa na przekroczenie losowej wartości próby 3.5 będzie się różnić od 1 / 2 . To jest hipoteza alternatywna.
Znalezienie odpowiedniego testu
Najlepszym sposobem na odróżnienie sytuacji zerowej od jej alternatyw jest przyjrzenie się wartościomk które są najprawdopodobniej poniżej zera i mniej prawdopodobne w ramach alternatyw. Są to wartości bliskie1 / 2 z 250 , równy 125 . Zatem region krytyczny dla twojego testu składa się z wartości stosunkowo odległych125 : blisko 0 lub blisko 250 . Ale jak daleko125 muszą stanowić znaczący dowód na to 3.5 nie jest mediana populacji?
W zależności od standardu znaczenia: nazywa się to rozmiarem testowym , często nazywanymα . Zgodnie z hipotezą zerową powinno być blisko - ale nie więcej niż -α szansa, że k będzie w regionie krytycznym.
Zwykle, gdy nie mamy wstępnych założeń, która alternatywa będzie miała zastosowanie - mediana większa lub mniejsza niż3.5 - próbujemy zbudować region krytyczny, aby była połowa tej szansy, α / 2 , to k jest niski, a druga połowa, α / 2 , to k jest wysoko. Ponieważ znamy rozkładk zgodnie z hipotezą zerową informacja ta wystarcza do określenia regionu krytycznego.
Technicznie istnieją dwa typowe sposoby przeprowadzania obliczeń: obliczanie prawdopodobieństw dwumianowych lub przybliżanie ich za pomocą rozkładu normalnego.
Obliczanie z prawdopodobieństwami dwumianowymi
Użyj funkcji punktu procentowego (kwantyla). Na
R
przykład jest to wywoływaneqbinom
i wywoływane jakDane wyjściowe dlaα = 0,05 jest
Oznacza to, że region krytyczny obejmuje wszystkie niskie wartościk pomiędzy (i włącznie) 0 i 109 , wraz ze wszystkimi wysokimi wartościami k pomiędzy (i włącznie) 141 i 250 . Jako czek możemy poprosić
R
o obliczenie szansy, którak
leży w tym regionie, gdy wartość null jest prawdziwa:Dane wyjściowe to0,0497 , bardzo blisko - ale nie więcej niż -α samo. Ponieważ obszar krytyczny musi kończyć się liczbą całkowitą, zwykle nie jest możliwe, aby ten rzeczywisty rozmiar testu był dokładnie równy nominalnemu rozmiarowi testuα , ale w tym przypadku dwie wartości są rzeczywiście bardzo zbliżone.
Obliczenia z normalnym przybliżeniem
Średnia z dwumianu( 250 , 1 / 2 ) dystrybucja jest 250 x 1 / 2 = 125 a jego wariantem jest 250 x 1 / 2 x ( 1 - 1 / 2 ) = 250 / 4 , dzięki czemu jego odchylenie standardowe jest równe 250 / 4-----√≈ 7,9 . Zastąpimy rozkład dwumianowy rozkładem normalnym. Standardowy rozkład normalny maα / 2 = 0,05 / 2 jego prawdopodobieństwo jest mniejsze niż - 1,95996 , zgodnie z obliczeniem
R
poleceniaPonieważ rozkłady normalne są symetryczne, tak też jest0,05 / 2 jego prawdopodobieństwo jest większe niż + 1,95996 . Dlatego region krytyczny składa się z wartościk które są więcej niż 1,95996 standardowe odchylenia od 125 . Oblicz te progi: są równe125 ± 7,9 × 1,96 ≈ 109,5 , 140,5 . Obliczenia można wykonać za jednym zamachem
Odk musi być liczbą całkowitą, widzimy, że wpadnie w krytyczny region, kiedy to będzie 109 lub mniej lub 141 albo lepszy. Ta odpowiedź jest identyczna z odpowiedzią uzyskaną przy użyciu dokładnego obliczenia dwumianowego. Zazwyczaj ma to miejsce, gdyp jest bliżej 1 / 2 niż jest to 0 lub 1 , wielkość próbki jest umiarkowana do dużej (dziesiątki lub więcej), oraz α nie jest bardzo mały (kilka procent).
Ten test, ponieważ nie zakłada niczego o populacji (z wyjątkiem tego, że nie ma dużego prawdopodobieństwa skoncentrowanego bezpośrednio na swojej medianie), nie jest tak potężny jak inne testy, które przyjmują konkretne założenia dotyczące populacji. Jeśli jednak test odrzuci zero, nie trzeba się martwić brakiem mocy. W przeciwnym razie musisz dokonać delikatnych kompromisów między tym, co jesteś gotów założyć, a tym, co możesz wyciągnąć na temat populacji.
źródło