Mam nadzieję, że to nie jest głupie pytanie. Powiedzmy, że mam dowolną ciągłą dystrybucję. Mam również statystyki i chciałbym użyć tego dowolnego rozkładu, aby uzyskać wartość p dla tej statystyki.
Zdaję sobie sprawę, że w R łatwo to zrobić, o ile twoja dystrybucja pasuje do jednego z wbudowanych, tak jakby to było normalne. Ale czy istnieje prosty sposób na zrobienie tego z dowolną dystrybucją, bez takiego założenia?
Jeśli masz funkcję rozkładu skumulowanego , to obliczenie wartości p dla danej statystyki T wynosi po prostu 1 - F ( T ) . Jest to proste w R. Jeśli natomiast masz funkcję gęstości prawdopodobieństwa , to F ( x ) = ∫ x - ∞ p ( t ) d t . Możesz znaleźć tę całkę analitycznie lub numerycznie. W R będzie to wyglądać następująco:FpT1−F(T)F(x)=∫x−∞p(t)dt
Możesz dostroić, integrateaby uzyskać większą dokładność. Może się to oczywiście nie udać w szczególnych przypadkach, gdy całka nie zachowuje się dobrze, ale powinna działać dla większości funkcji gęstości.
Możesz oczywiście przekazać parametry pF, jeśli masz kilka wartości parametrów do wypróbowania i nie chcesz za dFkażdym razem zmieniać definicji .
Myślę, że twoja metoda jest o wiele łatwiejsza niż sugerowałem, szczególnie jeśli nie ma ograniczeń dla funkcji, którą integrujesz. Nie znam techniki numerycznej. w R.
suncoolsu
Tak, myślę, że jest to bardziej zgodne z moimi obecnymi umiejętnościami. Dzięki!
Alan H.
Właściwie nie jestem pewien, czy śledzę, jak działają te funkcje. W przykładach podano wyniki dla rozkładu normalnego, ale gdzie mogę podłączyć funkcję gęstości prawdopodobieństwa?
Alan H.
(Przeprowadziłem testy i wydaje mi się, że moje dane nie są wcale normalne.)
Alan H.,
@Alan H., podłącz swoją funkcję gęstości do dF. To dFpowinno zwrócić wartość funkcji gęstości przy danym argumencie.
mpiktas,
9
Tak, możliwe jest użycie dowolnego rozkładu, aby uzyskać wartość p dla dowolnej statystyki . Teoretycznie i praktycznie można obliczyć (jednostronną) wartość p według tego wzoru.
p - v a l u e =P[ T> To b s e r v e d| H.0h o l d s ]
T.T.o b s e r v e d
T.H.0T.
Jedynym założeniem, które tu przyjmujesz, jest to, że znasz zerowy rozkład T (który może nie być w standardowych formatach generatora liczb losowych R). To wszystko - o ile znasz rozkład zerowy, wartość p można obliczyć.
Muszę zauważyć - jest to jeden z powodów, dla których wartości p są tak popularne i łatwe do błędnego zrozumienia. (IMHO)
suncoolsu
Ok, to ma sens. Mam coś, co uważam za dobre oszacowanie rozkładu zerowego. Wszelkie wskazówki, jak zaimplementować to w języku R? Dzięki!
Alan H.,
1
@Alan - Czy wiesz, jak generować losowe wartości z Null Distribution? Jeśli tak, załóżmy, że - T = c (T1, ..., TN) są ciągnione z rozkładu zerowego - wartość p = suma (T> T_obs) / N. Jeśli nie wiesz, jak wygenerować, być może musisz użyć Metropolis Sampling lub Gibbs Sampling, aby uzyskać T1 ... TN, ale jest to bardzo możliwe.
dF
. TodF
powinno zwrócić wartość funkcji gęstości przy danym argumencie.Tak, możliwe jest użycie dowolnego rozkładu, aby uzyskać wartość p dla dowolnej statystyki . Teoretycznie i praktycznie można obliczyć (jednostronną) wartość p według tego wzoru.
Jedynym założeniem, które tu przyjmujesz, jest to, że znasz zerowy rozkład T (który może nie być w standardowych formatach generatora liczb losowych R). To wszystko - o ile znasz rozkład zerowy, wartość p można obliczyć.
źródło