(Aby uczynić nasze pojęcia nieco bardziej precyzyjnymi, nazwijmy „statystykę testową” rozkładem rzeczy, na którą patrzymy, aby faktycznie obliczyć wartość p. Oznacza to, że dla dwustronnego testu t nasza statystyka testowa byłaby zamiast )| T.|T.
Co statystyka testowa ma to wywołać na próbie uporządkowania przestrzeni (a ściślej, częściową zamówieniu), tak aby można było zidentyfikować przypadki skrajne (te najbardziej spójne z alternatywnej).
W przypadku dokładnego testu Fishera istnieje już pewna kolejność - które są prawdopodobieństwami samych różnych tabel 2x2. Tak się składa, że odpowiadają one kolejności na w tym sensie, że albo największa, albo najmniejsza wartość jest „ekstremalna”, a także te o najmniejszym prawdopodobieństwie. Zamiast więc patrzeć na wartości w sposób, który sugerujesz, możesz po prostu pracować z dużymi i małymi końcami, na każdym kroku dodając dowolną wartość (największy lub najmniejszyX1 , 1X1 , 1X1 , 1X1 , 1-wartość jeszcze tam nie ma) ma najmniejsze związane z tym prawdopodobieństwo, trwające do momentu dotarcia do obserwowanego stołu; po włączeniu całkowitego prawdopodobieństwa wszystkich tych skrajnych tabel jest wartość p.
Oto przykład:
> data.frame(x=x,prob=dhyper(x,9,12,10),rank=rank(dhyper(x,9,12,10)))
x prob rank
1 0 1.871194e-04 2
2 1 5.613581e-03 4
3 2 5.052223e-02 6
4 3 1.886163e-01 8
5 4 3.300786e-01 10
6 5 2.829245e-01 9
7 6 1.178852e-01 7
8 7 2.245433e-02 5
9 8 1.684074e-03 3
10 9 3.402171e-05 1
Pierwsza kolumna to wartości , druga kolumna to prawdopodobieństwa, a trzecia kolumna to indukowane uporządkowanie.X1 , 1
Tak więc w konkretnym przypadku dokładnego testu Fishera prawdopodobieństwo każdej tabeli (równoważnie każdej wartości ) można uznać za rzeczywistą statystykę testuX1 , 1 .
Jeśli porównasz sugerowaną statystykę testu, wywołuje to samo uporządkowanie w tym przypadku (i myślę, że robi to ogólnie, ale nie sprawdziłem), ponieważ większe wartości tej statystyki to mniejsze wartości prawdopodobieństwa, więc można ją również uznać za „statystykę” - ale tak samo wiele innych wielkości - w istocie każda, która zachowuje tę kolejność we wszystkich przypadkach, to równoważne statystyki testowe, ponieważ zawsze wytwarzają identyczne wartości p.|X1 , 1- μ |X1 , 1
Należy również zauważyć, że dzięki bardziej precyzyjnemu pojęciu „statystyki testowej” wprowadzonej na początku, żadna z możliwych statystyk testowych tego problemu nie ma rozkładu hipergeometrycznego; tak, ale w rzeczywistości nie jest to odpowiednia statystyka testowa dla testu dwustronnego (gdybyśmy wykonali test jednostronny, w którym tylko więcej asocjacji w głównej przekątnej, a nie w drugiej przekątnej, uznano za zgodne z alternatywnie, byłaby to statystyka testowa). To jest ten sam problem, który zacząłem od jednej strony / dwóch stron.X1 , 1
[Edycja: niektóre programy przedstawiają statystyki testowe dla testu Fishera; Zakładam, że byłoby to obliczenie typu -2logL, które byłoby asymptotycznie porównywalne z kwadratem chi. Niektórzy mogą również przedstawiać iloraz szans lub jego log, ale to nie jest całkiem równoważne.]
Jeśli zrobisz to poprawnie i naprawisz marginesy na znanych wartościach, możesz uznać (lub dowolną inną komórkę) za swoją statystykę. Analogicznie do losowania kulek z urny zawierającej białe kule i czarne kule bez zamiany, można interpretować jako liczbę narysowanych białych kulek, gdzie jest sumą pierwszego rzędu, jest suma drugiego wiersza, jest sumą pierwszej kolumny.X1 , 1 k W. b X1 , 1 b W. k
źródło
Tak naprawdę to nie ma. Statystyka testowa jest historyczną anomalią - jedynym powodem, dla którego mamy statystykę testową, jest uzyskanie wartości p. Dokładny test Fishera przeskakuje obok statystyki testowej i przechodzi bezpośrednio do wartości p.
źródło