Dlaczego statystycy zniechęcają nas do określania wyników jako „ bardzo znaczących”, gdy wartość jest znacznie poniżej konwencjonalnego poziomu α wynoszącego 0,05 ?
Czy naprawdę źle jest ufać wynikowi, który ma 99,9% szansy na to, że nie jest błędem typu I ( ) więcej niż wynik, który daje tę szansę tylko na 99% ( p = 0,01 )?
Odpowiedzi:
Myślę, że nie ma nic złego w stwierdzeniu, że wyniki są „bardzo znaczące” (nawet jeśli tak, to jest trochę niechlujne).
Oznacza to, że gdybyś ustalił znacznie mniejszy poziom istotności , nadal oceniałbyś wyniki jako znaczące. Lub, równoważnie, jeśli niektórzy z twoich czytelników mają na myśli znacznie mniejsze α , to oniα α wciąż mogą ocenić swoje wyniki za znaczące.
Zauważ, że poziom istotności jest w oku patrzącego, podczas gdy pα p wartość jest (z pewnymi zastrzeżeniami) właściwością danych.
Obserwując jest tak samo, jak obserwacji p = 0,04 , chociaż zarówno można nazwać „znaczące” według standardowej konwencji, w danej dziedzinie ( α = 0,05 ). Mała wartość p oznacza mocniejsze dowody przeciw zerowej wartości (dla tych, którzy lubią schemat Fishera testowania hipotez); oznacza to, że przedział ufności wokół wielkości efektu wyklucza wartość zerową z większym marginesem (dla tych, którzy wolą CI od wartości p ); oznacza to, że prawdopodobieństwo zerowe z tyłu będzie mniejsze (dla Bayesianów z pewnym wcześniejszym); wszystko to jest równoważne i oznacza po prostu, że ustalenia są bardziej przekonującep = 10- 10 p = 0,04 α = 0,05 p p . Zobacz Czy mniejsze wartości p są bardziej przekonujące? po więcej dyskusji.
Termin „bardzo znaczący” nie jest precyzyjny i nie musi być. Jest to subiektywna ocena eksperta, podobna do obserwowania zaskakująco dużego efektu i nazywania go „ogromnym” (a może po prostu „bardzo dużym”). Nie ma nic złego w stosowaniu jakościowych, subiektywnych opisów danych, nawet w piśmie naukowym; pod warunkiem, że przedstawiona zostanie również obiektywna analiza ilościowa.
Zobacz także kilka doskonałych komentarzy powyżej, +1 do @whuber, @Glen_b i @COOLSerdash.
źródło
To jest częste pytanie.
Podobne pytanie może brzmieć „Dlaczego p <= 0,05 uważa się za znaczący?” ( http://www.jerrydallal.com/LHSP/p05.htm )
@ Michael-Mayer podał jedną część odpowiedzi: znaczenie jest tylko jedną częścią odpowiedzi. Przy wystarczającej ilości danych zwykle niektóre parametry będą wyświetlane jako „znaczące” (patrz korekta Bonferroniego). Testy wielokrotne to specyficzny problem w genetyce, w której duże badania szukające znaczenia są powszechne i często wymagane są wartości p < 10–8 ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).
Jednym z problemów wielu analiz jest to, że były one oportunistyczne i nie były wcześniej zaplanowane (tj. „Jeśli wystarczająco torturujesz dane, natura zawsze się przyzna”. - Ronald Coase).
Zasadniczo, jeśli analiza jest wstępnie zaplanowana (z korektą z powtarzaną analizą dla mocy statystycznej), można ją uznać za znaczącą. Często wielokrotne testowanie przez wiele osób lub grup jest najlepszym sposobem na potwierdzenie, że coś działa (lub nie). Powtarzanie wyników jest najczęściej właściwym testem na znaczenie.
źródło
Test jest narzędziem do podjęcia czarno-białej decyzji, tj. Próbuje odpowiedzieć na pytanie tak / nie, na przykład „czy istnieje prawdziwy efekt leczenia?”. Często, zwłaszcza jeśli zestaw danych jest duży, takie pytanie jest marnowaniem zasobów. Po co zadawać binarne pytanie, czy można uzyskać odpowiedź na pytanie ilościowe, takie jak „jak duży jest prawdziwy efekt leczenia?”. który pośrednio odpowiada również na pytanie tak / nie? Zamiast więc z dużą pewnością odpowiedzieć na nieinformacyjne pytanie „tak / nie”, często zalecamy stosowanie przedziałów ufności, które zawierają znacznie więcej informacji.
źródło