Mam trzy grupy danych, każda z rozkładem dwumianowym (tj. Każda grupa ma elementy, które są albo sukcesem, albo porażką). Nie mam przewidywanego prawdopodobieństwa sukcesu, ale zamiast tego mogę polegać jedynie na współczynniku sukcesu każdego z nich jako przybliżeniu prawdziwego wskaźnika sukcesu. Znalazłem tylko to pytanie , które jest bliskie, ale nie wydaje się, aby dokładnie dotyczyło tego scenariusza.
Aby uprościć test, powiedzmy, że mam 2 grupy (3 można rozszerzyć z tego podstawowego przypadku).
- Badania grupy 1: = 2455
- Badania grupy 2: = 2730
- Sukces grupy 1: = 1556
- Sukces grupy 2: = 1671
Nie mam spodziewanego prawdopodobieństwa sukcesu, tylko to, co wiem z próbek. Mój dorozumiany wskaźnik sukcesu dla dwóch grup wynosi:
- Wskaźnik powodzenia grupy 1: = 1556/2455 = 63,4%
- Wskaźnik powodzenia grupy 2: = 1671/2730 = 61,2%
Wskaźnik powodzenia każdej próbki jest dość zbliżony. Jednak moje rozmiary próbek są również dość duże. Jeśli sprawdzę CDF rozkładu dwumianowego, aby zobaczyć, jak różni się on od pierwszego (gdzie zakładam, że pierwszy jest testem zerowym), mam bardzo małe prawdopodobieństwo, że drugi może zostać osiągnięty.
W programie Excel:
1-BINOM.DIST (1556,2455,61.2%, PRAWDA) = 0,012
Nie uwzględnia to jednak żadnej wariancji pierwszego wyniku, zakłada jedynie, że pierwszym wynikiem jest prawdopodobieństwo testu.
Czy istnieje lepszy sposób na sprawdzenie, czy te dwie próbki danych różnią się między sobą statystycznie?
prop.test
:prop.test(c(1556, 1671), c(2455, 2730))
.Odpowiedzi:
Rozwiązanie jest proste w Google: http://en.wikipedia.org/wiki/Statistic_hypothesis_testing
Więc chciałbyś przetestować następującą hipotezę zerową względem podanej alternatywy
H A : p 1 ≠ p 2H0:p1=p2 kontraHA:p1≠p2
Musisz tylko obliczyć statystykę testową, która jest
gdzie .p^=n1p^1+n2p^2n1+n2
Zatem teraz w twoim problemie , , i P 2=0,612n1=2455N2=2730.p^1=.634 p^2=.612 n1=2455 n2=2730.
Po obliczeniu statystyki testowej wystarczy obliczyć odpowiednią wartość regionu krytycznego, aby porównać również statystyki testowe. Na przykład, jeśli testujesz tę hipotezę na poziomie ufności 95%, musisz porównać swoją statystykę testową z wartością regionu krytycznego (dla tego testu dwustronnego).zα/2=1.96
Teraz, jeśli , możesz odrzucić hipotezę zerową, w przeciwnym razie nie możesz odrzucić hipotezy zerowej.z>zα/2
Cóż, to rozwiązanie działa w przypadku, gdy porównujesz dwie grupy, ale nie uogólnia się do przypadku, w którym chcesz porównać 3 grupy.
Możesz jednak użyć testu Chi Squared, aby sprawdzić, czy wszystkie trzy grupy mają równe proporcje, jak sugeruje @Eric w swoim komentarzu powyżej: „Czy to pytanie pomaga? Stats.stackexchange.com/questions/25299/… - Eric”
źródło
W R odpowiedź jest obliczana jako:
źródło
Tylko podsumowanie:
Odpowiedzi Dana i Abaumanna sugerują testowanie w modelu dwumianowym, w którym hipoteza zerowa jest zunifikowanym pojedynczym modelem dwumianowym, którego średnia jest szacowana na podstawie danych empirycznych. Ich odpowiedzi są teoretycznie poprawne, ale wymagają one przybliżenia przy użyciu rozkładu normalnego, ponieważ rozkład statystyki testowej nie jest dokładnie zgodny z rozkładem normalnym. Dlatego jest poprawny tylko dla dużej wielkości próbki.
Ale odpowiedź Davida wskazuje na test nieparametryczny z wykorzystaniem testu Fishera. Informacje są tutaj: https://en.wikipedia.org/wiki/Fisher%27s_exact_test . Można go zastosować do małych próbek, ale trudno je obliczyć dla dużych próbek.
Który test zastosować i jak bardzo ufasz wartości p, jest zagadką. Ale zawsze istnieje tendencja do wyboru dowolnego testu.
źródło
źródło
W Pythonie statsmodels ma funkcję o nazwie
proportions_ztest
. Oto przykład jego użycia:To drukuje:
źródło
Oryginalny post: odpowiedź Dana jest w rzeczywistości niepoprawna, aby nikogo nie urazić. Test Z jest stosowany tylko wtedy, gdy dane są zgodne ze standardowym rozkładem normalnym. W takim przypadku dane mają rozkład dwumianowy, dlatego należy zastosować test chi-kwadrat, jeśli próbka jest duża, lub test Fishera, jeśli próbka jest mała.
Edycja: Mój błąd, przepraszam @Dan. Test Z jest ważny tutaj, jeśli twoje zmienne są niezależne. Jeśli to założenie nie jest spełnione lub nieznane, test Z może być nieważny.
źródło