W przypadku niektórych testów R
istnieje dolna granica obliczeń wartości p . Nie jestem pewien, dlaczego jest to ta liczba, jeśli istnieje ku temu dobry powód lub jest to po prostu arbitralne. Wiele innych pakietów statystyk po prostu trafia , więc jest to o wiele wyższy poziom precyzji. Ale nie widziałem zbyt wielu artykułów zgłaszających lub .0.0001
Czy zgłaszanie tej obliczonej wartości jest powszechną / najlepszą praktyką, czy bardziej typowe jest zgłaszanie czegoś innego (np. p < 0.000000000000001
)?
...But I haven't seen too many papers reporting p<2.22⋅10−16....
Zobacz niektóre artykuły GWAS , istnieje wiele artykułów pokazujących wyniki dla wartości w setkach, np .: region KLK raka prostaty, p = 9x10 ^ -186.Odpowiedzi:
Jest ku temu dobry powód.
Wartość można znaleźć poprzez
noquote(unlist(format(.Machine)))
Jeśli spojrzysz na pomoc, (
?".Machine"
):Zasadniczo jest to wartość, poniżej której możesz być pewny, że wartość będzie dość liczbowo bez znaczenia - w tym sensie, że każda mniejsza wartość prawdopodobnie nie będzie dokładnym obliczeniem wartości, którą próbowaliśmy obliczyć. (Po przestudiowaniu małej analizy numerycznej, w zależności od tego, jakie obliczenia zostały wykonane przez określoną procedurę, istnieje duża szansa, że liczbowa bezsensowność znacznie przewyższa to.)
Ale znaczenie statystyczne zostanie utracone znacznie wcześniej. Zauważ, że wartości p zależą od założeń, a im dalej w skrajny ogon, tym bardziej na prawdziwą wartość p (zamiast obliczanej przez nas wartości nominalnej) będą miały wpływ błędne założenia, w niektórych przypadkach, nawet jeśli tylko trochę się mylą. Ponieważ założenia nie będą po prostu dokładnie spełnione, średnie wartości p mogą być względnie dokładne (pod względem względnej dokładności, być może tylko przez niewielką część), ale bardzo małe wartości p mogą być pomijane przez wiele rzędów wielkość.
To znaczy, że zwykła praktyka (coś, co jak mówi się <0,0001) jest powszechne w pakietach lub reguła APA, o której wspomina Jaap w swojej odpowiedzi) prawdopodobnie nie jest tak daleko od rozsądnej praktyki, ale przybliżony punkt, w którym rzeczy zatracenie znaczenia poza powiedzeniem „ to bardzo małe ” będzie oczywiście bardzo różne w zależności od okoliczności.
Jest to jeden z powodów, dla których nie mogę zasugerować ogólnej zasady - nie może istnieć jedna zasada, która byłaby nawet zdalnie odpowiednia dla wszystkich w każdych okolicznościach - zmieniają nieco okoliczności, a szeroka szara linia zaznacza zmianę z nieco znaczącej na względnie względną bez znaczenia zmieni się, czasem na dłuższą metę.
Jeśli było określić wystarczających informacji na temat dokładnych okoliczności (na przykład jest to regresja, z tym wiele nieliniowości, że ilość wariacji w tej zmiennej niezależnej, w tym rodzaj i ilość uzależnienia w perspektywie błędzie, że rodzaj i ilość heteroskedastyczności, ten kształt rozkładu błędów), mógłbym symulować „prawdziwe” wartości p, aby porównać je z nominalnymi wartościami p, aby można było zobaczyć, kiedy były zbyt różne, aby wartość nominalna miała jakiekolwiek znaczenie.
Ale to prowadzi nas do drugiego powodu, dla którego - nawet jeśli podałeś wystarczającą ilość informacji, aby zasymulować prawdziwe wartości p - nadal nie mogłem odpowiedzialnie określić granicy nawet dla takich okoliczności.
To, co zgłaszasz, zależy od preferencji ludzi - twoich i odbiorców. Wyobraź sobie, że mi tyle o okolicznościach mi zdecydować, że chcę, aby narysować linię przy nominalnej od 10 - 6 .p 10- 6
Wszystko dobrze i dobrze, moglibyśmy pomyśleć - z wyjątkiem własnej funkcji preferencji (to, co wygląda dobrze dla ciebie, gdybyś spojrzał na różnicę między nominalnymi wartościami p podanymi przez pakiety statystyk a tymi wynikającymi z symulacji, gdy przypuszczasz, że określony zestaw błędów założeń) może ustawić na a redaktorzy czasopisma, do którego chcesz się zgłosić, mogą ustawić regułę kocową na 10 - 4 , podczas gdy następny dziennik może ustawić na 10 - 3, a dalej może nie mieć żadnej ogólnej reguły, a konkretny edytor, który masz, może zaakceptować nawet niższe wartości niż ja dałem ... ale jeden z sędziów może wtedy mieć określone odcięcie!10- 5 10- 4 10- 3
W przypadku braku wiedzy na temat ich funkcji i zasad preferencji oraz braku wiedzy na temat własnych narzędzi, w jaki sposób mogę odpowiedzialnie zasugerować ogólny wybór, jakie działania należy podjąć?
Mogę przynajmniej powiedzieć ci, co robię (i nie sugeruję, że jest to dla ciebie dobry wybór):
Jest to z pewnością pomocne w podjęciu decyzji o wyborze - ale równie chętnie omawiam wyniki symulacji, jak wykorzystując je do wyboru wartości granicznej, dając innym szansę wyboru własnej.
Alternatywą dla symulacji jest przyjrzenie się niektórym procedurom, które są bardziej odporne * na różne potencjalne niepowodzenia założenia i sprawdzenie, jak duża różnica może mieć wartość p. Ich wartości p również nie będą miały szczególnego znaczenia, ale przynajmniej dają pewne wyobrażenie o tym, jak duży może być wpływ. Jeśli niektóre bardzo różnią się od nominalnego, daje to również więcej wyobrażenia, które naruszenia założeń należy zbadać pod kątem wpływu. Nawet jeśli nie zgłosisz żadnej z tych alternatyw, daje to lepszy obraz tego, jak znacząca jest twoja mała wartość p.
* Pamiętaj, że tutaj tak naprawdę nie potrzebujemy procedur odpornych na rażące naruszenia niektórych założeń; te, które są mniej dotknięte względnie łagodnymi odchyleniami odpowiedniego założenia, powinny być odpowiednie do tego ćwiczenia.
Powiem, że kiedy / jeśli przyjdziesz do zrobienia takich symulacji, nawet przy dość łagodnych naruszeniach, w niektórych przypadkach może być zaskakujące, jak daleko nawet tak małe wartości p mogą być błędne. To zrobiło więcej, aby zmienić sposób, w jaki osobiście interpretuję wartość p bardziej, niż zmieniłem określone wartości graniczne, których mógłbym użyć.
Przesyłając wyniki rzeczywistego testu hipotez do dziennika, próbuję dowiedzieć się, czy mają jakieś reguły. Jeśli nie, staram się zadowolić, a potem czekam, aż sędziowie narzekają.
źródło
To, co jest powszechną praktyką, może zależeć od dziedziny badań. Podręcznik American Psychological Association (APA), który jest jednym z najczęściej używanych stylów cytowania, stwierdza (s. 139, wydanie 6):
źródło
Takie ekstremalne wartości p występują częściej w polach z bardzo dużą ilością danych, takich jak genomika i monitorowanie procesu. W takich przypadkach jest czasami zgłaszany jako -log 10 (wartość p). Zobacz na przykład ten rysunek z Natury , gdzie wartości p spadają do 1e-26.
-log 10 (wartość p) nazywa się „LogWorth” przez statystyków, z którymi pracuję w JMP.
źródło
w R „<2e-16” nie oznacza dosłownie <2e-16, ale zamiast tego oznacza, że wartość jest tak mała, że R nie może jej nagrać ani wyświetlić.
W teście regresji często otrzymuję p tak małe, jak 4,940656e-324, kiedy wyświetla „<2e-16”, jest to liczba nawet mniejsza niż 4,940656e-324
źródło
<2e-16
, wartość jest mniejsza niż2e-16
, dosłownie.format.pval
lub po prostu wypróbuj, jak wformat.pval(1e-16)
.