Jak porównać obserwowane i oczekiwane zdarzenia?

9

Załóżmy, że mam jedną próbkę częstotliwości 4 możliwych zdarzeń:

Event1 - 5
E2 - 1
E3 - 0
E4 - 12

i mam spodziewane prawdopodobieństwo wystąpienia moich zdarzeń:

p1 - 0.2
p2 - 0.1
p3 - 0.1
p4 - 0.6

Dzięki sumie obserwowanych częstotliwości moich czterech zdarzeń (18) mogę obliczyć oczekiwane częstotliwości zdarzeń, prawda?

expectedE1 - 18 * 0.2 = 3.6
expectedE2 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.6 = 10.8

Jak mogę porównać zaobserwowane wartości z wartościami oczekiwanymi? sprawdzić, czy moje obliczone prawdopodobieństwa są dobrymi predyktorami?

Myślałem o teście chi-kwadrat, ale wynik zmienia się wraz z rozmiarem próbki (n = 18), to znaczy, jeśli pomnożę obserwowane wartości przez 1342 i użyję tej samej metody, wynik będzie inny. Może test sparowany z Wilcoxem działa, ale co sugerujesz?

Jeśli można zasugerować w R, byłoby lepiej.

Juan
źródło

Odpowiedzi:

4

Wspominasz, że otrzymujesz różne wyniki, jeśli pomnożysz wszystkie wartości przez . To nie jest problem. Państwo powinno być bardzo różne wyniki. Jeśli rzucisz monetą i wyskoczy ona do głów, nie mówi to wiele. Jeśli rzucisz monetą razy i za każdym razem dostajesz głowy, masz o wiele więcej informacji sugerujących, że moneta jest niesprawiedliwa.13421342

Zwykle chcesz zastosować alternatywy dla gdy spodziewana liczba wystąpień jest tak niska (powiedzmy poniżej ) w dużym odsetku twoich kategorii (powiedzmy, co najmniej ). Jedną z możliwości jest dokładny test Fishera , który jest realizowany w R . Możesz zobaczyć test jako przybliżenie dokładnego testu Fishera, a przybliżenie jest dobre tylko wtedy, gdy więcej oczekiwanych zliczeń jest dużych.χ2520%χ2

Douglas Zare
źródło
Dziękuję, który z nich jest lepszy: tylko test Fishera? czy test Fishera z p symulowaną wartością? i dlaczego?
Juan
Symulacja wprowadza błędy, które mogą być małe, ale nie powinny być konieczne w przypadku małych wartości. Jeśli masz kategorii i obiektów, liczba możliwych wyników wynosi . Gdy jest to małe jak na standardy komputerów (być może mniej niż ), użyłbym tylko dokładnych obliczeń. Jeśli dokładne obliczenia są powolne, sprawdź błędy symulacji i sprawdź, czy są one dopuszczalne do zwiększenia prędkości. kn(n+k1n)107
Douglas Zare