Testowanie hipotez dla równości proporcji z 3 próbkami

9

Mam zestaw danych danych klienta telefonu komórkowego z dwiema kolumnami. Pierwsza kolumna zawiera pewną kategorię, do której należy konto (A, B lub C), a druga kolumna zawiera wartość binarną określającą, czy to konto zostało anulowane. na przykład

A | cancelled
C | active
B | active
A | cancelled

chcę wymyślić jakiś test hipotez, aby sprawdzić, czy stosunek kont typu A, B i C jest inny dla kont aktywnych i kont anulowanych - hipoteza zerowa jest taka, że ​​są one takie same. To jest jak test hipotez dla proporcji, tyle że nie wiem, jak to zrobić dla 3 wartości

użytkownik1893354
źródło
6
Możesz użyć aby sprawdzić równość proporcji między trzema grupami. χ2
Myślę również, że mógłbym wykonać trzy testy hipotez A i B, B i C oraz A i C, aby sprawdzić, czy są one różne
24.09.2013
5
Możesz, ale pamiętaj, że będziesz musiał poprawić problemy z wieloma porównaniami.
Dziękuję za Twoją odpowiedź. Jestem tylko ciekawy, co masz na myśli przez problemy wielokrotnych porównań? A dokładniej, dlaczego metoda testowania trzech hipotez jest niekorzystna. Dzięki!
user1893354 24.09.2013
3
Masz dwa problemy z użyciem trzech testów hipotez. Po pierwsze, są one współzależne, ponieważ każda para ponownie wykorzystuje niektóre dane. Po drugie, gdyby faktycznie byli niezależni, to szansa, że ​​co najmniej jeden z nich byłby znaczący, nawet gdy wartość null jest prawdziwa - to znaczy prawdopodobieństwo błędu fałszywie dodatniego - byłaby prawie trzy razy większa niż pożądana wartość fałszywa stopa dodatnia. Drugi problem wskazuje, że test wymaga dostosowania, ale pierwszy pokazuje, że znalezienie odpowiedniego dopasowania może być problematyczne. Podejście pozwala uniknąć tych problemów. χ2
whuber

Odpowiedzi:

13

Mam zamiar oprzeć moją odpowiedź ogólnie i wstawić komentarze, w jaki sposób twój problem pasuje do środowiska testowego. Ogólnie rzecz biorąc, możemy sprawdzić równość proporcji za pomocą gdzie typowa hipoteza , , jest następująca:χ2H0

H0:p1=p2=...=pk

tzn. wszystkie proporcje są sobie równe. Teraz w twoim przypadku hipoteza zerowa jest następująca:

H0:p1=p2=p3
a alternatywną hipotezą jest
HA: at leat one pi is different for i=1,2,3

Teraz, aby przeprowadzić test , musimy obliczyć następującą statystykę testową: Wartość statystyki testowej wynosiχ2

χ2=i=1n(OiEi)2Ei

gdzie

  • χ2 = Pearsona łączny statystyka testowa, która zbliża się asymptotycznie rozkładuχ2
  • Oi = obserwowana częstotliwość
  • Ei = oczekiwana (teoretyczna) częstotliwość, potwierdzona hipotezą zerową
  • n = liczba komórek w tabeli

W twoim przypadku ponieważ możemy uznać ten problem za następującą tabelę: n=6wprowadź opis zdjęcia tutaj

Teraz, gdy mamy już statystyki testowe, mamy dwie opcje, jak przejść do zakończenia testowania hipotez.

Opcja 1) Możemy porównać nasz test statyczny z odpowiednią wartością krytyczną w ramach hipotezy zerowej. To znaczy, jeśli jest prawdziwe, to statystyka z tabeli kontyngencji z wierszami i kolumnami powinna mieć z stopni wolność. Po obliczeniu naszej wartości krytycznej jeśli mamy to wówczas odrzucimy hipotezę zerową. Oczywiście, jeśli to nie odrzucimy hipotezy zerowej. χ2H0χ2RCχ2(R1)×(C1)χχ2>χχ2χ

Graficznie (wszystkie liczby są złożone) wygląda to następująco: wprowadź opis zdjęcia tutaj

Z wykresu, jeśli nasza statystyka testowa odpowiada niebieskiej statystyce testowej, nie odrzucilibyśmy hipotezy zerowej, ponieważ ta statystyka testowa nie mieści się w obszarze krytycznym (tj. ). Alternatywnie, zielona statystyka testowa mieści się w obszarze krytycznym, dlatego odrzucilibyśmy hipotezę zerową, gdybyśmy obliczyli statystykę zielonego testu.χ2χ2<χ

W twoim przykładzie twoje stopnie swobody są równe

df=(R1)×(C1)=(21)×(31)=1×2=2

Opcja 2) możemy obliczyć wartość p związaną ze statystyką testową w ramach hipotezy zerowej, a jeśli ta wartość p jest mniejsza niż określony poziom , możemy odrzucić hipotezę zerową. Jeśli wartość p jest większa niż poziom wówczas nie odrzucamy hipotezy zerowej. Zauważ, że wartość p jest prawdopodobieństwem, że jest większy niż statystyka testowa.ααχ(R1)×(C1)2

Graficznie to mamy wprowadź opis zdjęcia tutaj

gdzie wartość p jest obliczana jako obszar większy niż nasza statystyka testowa (niebieski obszar zacieniowany w przykładzie).

Jeśli więc nie odrzuci hipotezy zerowej , w przeciwnym razieα>p-valueH0

jeśli odrzuca hipotezę zerowąαp-valueH0


źródło