Czytałem, że test chi-kwadrat jest przydatny, aby sprawdzić, czy próbka znacznie różni się od zestawu wartości oczekiwanych.
Na przykład, oto tabela wyników ankiety dotyczącej ulubionych kolorów ludzi (n = 15 + 13 + 10 + 17 = 55 wszystkich respondentów):
red,blue,green,yellow
15,13,10,17
Test chi-kwadrat może mi powiedzieć, czy ta próbka znacznie różni się od zerowej hipotezy o równym prawdopodobieństwie osób lubiących każdy kolor.
Pytanie: Czy test można przeprowadzić na proporcjach wszystkich respondentów, którzy lubią określony kolor? Jak poniżej:
red,blue,green,yellow
0.273,0.236,0.182,0.309
Gdzie oczywiście 0,273 + 0,236 + 0,182 + 0,309 = 1.
Jeśli test chi-kwadrat nie jest odpowiedni w tym przypadku, jaki test byłby? Dzięki!
Edycja: Próbowałem @Roman Luštrik poniżej odpowiedzi i otrzymałem następujący wynik: dlaczego nie otrzymuję wartości p i dlaczego R mówi „przybliżenie chi-kwadrat może być niepoprawne”?
> chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0))
Chi-squared test for given probabilities
data: c(0, 0, 0, 8, 6, 2, 0, 0)
X-squared = NaN, df = 7, p-value = NA
Warning message:
In chisq.test(c(0, 0, 0, 8, 6, 2, 0, 0), p = c(0.406197174, 0.088746395, :
Chi-squared approximation may be incorrect
Odpowiedzi:
Popraw mnie, jeśli się mylę, ale myślę, że można to zrobić w R za pomocą tego polecenia
Zakłada się proporcje po 1/4. Możesz modyfikować oczekiwane wartości za pomocą argumentu
p
. Na przykład uważasz, że ludzie mogą preferować (z dowolnego powodu) jeden kolor w stosunku do innych kolorów.źródło
Korzystając z dodatkowych informacji, które podałeś (ponieważ niektóre wartości mają wartość 0), jest całkiem oczywiste, dlaczego twoje rozwiązanie nic nie zwraca. Po pierwsze, prawdopodobieństwo wynosi 0, więc:
Co uniemożliwia podziały. Teraz to mówię oznacza, że nie można osiągnąć takiego wyniku. Jeśli tak, równie dobrze możesz po prostu usunąć go z danych (patrz komentarz @cardinal). Jeśli masz na myśli wysoce nieprawdopodobne, pierwszym „rozwiązaniem” może być zwiększenie tej szansy 0 bardzo małą liczbą.p = 0
Dany :
Mógłbyś :
Ale to nie jest poprawny wynik. W każdym razie należy unikać stosowania testu chi-kwadrat w tych przypadkach granicznych. Lepszym podejściem jest zastosowanie metody ładowania początkowego, obliczanie dostosowanej statystyki testowej i porównywanie statystyki z próbki z rozkładem uzyskanym za pomocą ładowania początkowego.
W kodzie R może to być (krok po kroku):
Daje to wartość p wynoszącą 0, co jest znacznie bardziej zgodne z różnicą między obserwowaną a oczekiwaną. Pamiętaj, że ta metoda zakłada, że dane pochodzą z dystrybucji wielomianowej. Jeśli to założenie nie ma miejsca, wartość p również nie ma miejsca.
źródło
źródło
Tak, możesz przetestować hipotezę zerową: „H0: prop (czerwony) = prop (niebieski) = prop (zielony) = prop (żółty) = 1/4” za pomocą testu chi kwadrat, który porównuje proporcje badania (0.273 , ...) do oczekiwanych proporcji (1/4, 1/4, 1/4, 1/4)
źródło
Statystyka testu dla testu chi-kwadrat Pearsona jest
więc test istotności zaobserwowanych proporcji zależy od wielkości próbki, tak jak można się spodziewać.
źródło