Czy błędem jest określanie wyników jako „prawie” lub „nieco” znaczących?

13

Ogólny konsensus w podobnej kwestii: czy błędem jest odnosić się do wyników jako „bardzo znaczących”? jest to, że „wysoce znaczący” jest ważnym, choć niespecyficznym, sposobem opisania siły powiązania, którego wartość p jest znacznie poniżej ustalonego progu istotności. A co z opisywaniem wartości p, które są nieco powyżej twojego progu? Widziałem, że niektóre artykuły używają terminów takich jak „nieco znaczący”, „prawie znaczący”, „zbliżający się do znaczenia” i tak dalej. Uważam, że te terminy są nieco nieprzyzwoite, w niektórych przypadkach jest to nieuczciwy sposób na wyciągnięcie znaczącego wyniku z badania z wynikami negatywnymi. Czy te warunki są dopuszczalne do opisania wyników, które „po prostu tęsknią” za wartością graniczną wartości p?

Nuclear Wang
źródło
3
Nie sądzę, aby ktokolwiek sugerował kwalifikowanie „znaczenia” do opisania „siły skojarzenia”; to drugie brzmi bardziej jak miara wielkości efektu. W każdym razie zobacz tutaj, aby uzyskać pełniejszą listę.
Scortchi - Przywróć Monikę
1
@Scortchi - Z mojego zrozumienia wynika, że ​​bardzo mała wartość p jest bardzo znacząca, co oznacza silny związek między daną zmienną a celem. Jest to wynik dużego rozmiaru efektu, dużej ilości danych lub obu tych czynników. W przypadku dużych wartości p dowody potwierdzające związek między zmienną a docelową są słabe. Uwielbiam też tę listę w swoim linku.
Nuclear Wang,
9
Uzyskanie bardzo małej wartości p dla małego rozmiaru efektu trudno nazwać „silnym skojarzeniem”. Byłby to tylko wykrywalny związek.
whuber
2
Widziałem ludzi często używających tych zwrotów w branży, ale nie w artykułach naukowych.
Aksakal
1
Być może twój dyskomfort wynika z przekonania, że ​​wartości p (lub dowolna inna liczba uzyskana z próbki) są ostrymi miernikami czegoś.
Eric Towers,

Odpowiedzi:

14

Jeśli chcesz zezwolić, aby „znaczenie” przyznało stopnie naukowe, to wystarczająco uczciwe („nieco znaczące”, „dość znaczące”), ale unikaj zwrotów sugerujących, że nadal jesteś przywiązany do idei progu, na przykład „prawie znaczący” , „zbliża się do znaczenia” lub „u progu znaczenia” (mój ulubiony z „Nadal nie znaczący” na blogu Prawdopodobny błąd ), jeśli nie chcesz wyglądać na zdesperowanego.

Scortchi - Przywróć Monikę
źródło
9
(+1) dla linku. Ale myślę, że punktem kulminacyjnym twórczości poetyckiej jest „balansowanie na granicy znaczenia (p = 0,06)” .
Alecos Papadopoulos,
1
@AlecosPapadopoulos: Masz rację, chociaż „flirtowanie z konwencjonalnymi poziomami znaczenia” i „unoszenie się bliżej znaczenia statystycznego” zasługuje na wyróżnienia. „Quasi-znaczący” jest być może zwycięzcą w innej kategorii.
Scortchi - Przywróć Monikę
4
Rzeczywiście pierwsze dwa mają prawdziwego ducha filmowego, pierwszy z filmu „Statistics Gigolo” (kto inny flirtowałby z konwencjonalnym poziomem ?), A drugi z filmu „Dying on the Tail”, gdzie widzimy groźnego sępa (wartość p) unosząca się nad umierającym bohaterem (istotność statystyczna).
Alecos Papadopoulos,
1
Osobiście porzuciłbym słowo „znaczący” w moim frazowaniu i nazwałbym p = 0,06 „całkiem interesującym”. Słusznie lub niesłusznie, gdy po raz pierwszy spotkałem się z wartościami p podczas kursu Six Sigma, instruktor zasugerował, że dla 0,05 <= 0,1 właściwa etykieta wymagała „więcej danych” (w oparciu o ustawienie przemysłowe, w którym trudno zdobyć dodatkowe punkty danych) , tak zupełnie inny niż scenariusz „Big Data”
Robert de Graaf
6

Z mojego punktu widzenia kwestia sprowadza się do tego, co faktycznie oznacza przeprowadzenie testu istotności. Testy istotności opracowano jako środek do podjęcia decyzji o odrzuceniu hipotezy zerowej lub jej odrzuceniu. Sam Fisher wprowadził niesławną zasadę 0,05 dotyczącą podejmowania tej (arbitralnej) decyzji.

Zasadniczo logika testowania istotności polega na tym, że użytkownik musi określić poziom alfa w celu odrzucenia hipotezy zerowej (konwencjonalnie 0,05) przed zebraniem danych . Po zakończeniu testu istotności użytkownik odrzuca wartość zerową, jeśli wartość p jest mniejsza niż poziom alfa (lub nie odrzuca jej w inny sposób).

Powodem, dla którego nie możesz zadeklarować efektu jako wysoce znaczącego (powiedzmy na poziomie 0,001), jest to, że nie możesz znaleźć mocniejszych dowodów, niż chciałeś znaleźć. Tak więc, jeśli ustawisz poziom alfa na 0,05 przed testem, możesz znaleźć dowody tylko na poziomie 0,05, niezależnie od tego, jak małe są twoje wartości p. W ten sam sposób mówienie o efektach „nieco znaczących” lub „zbliżających się do znaczenia” również nie ma większego sensu, ponieważ wybrałeś to arbitralne kryterium 0,05. Jeśli interpretujesz logikę testowania istotności dosłownie, nic większego niż 0,05 nie jest znaczące.

Zgadzam się, że terminy „zbliżające się znaczenie” są często używane w celu zwiększenia szans na publikację. Nie sądzę jednak, aby można było za to winić autorów, ponieważ obecna kultura publikacji w niektórych naukach nadal silnie opiera się na „świętym Graalu” wynoszącym 0,05.

Niektóre z tych zagadnień omówiono w:

Gigerenzer, G. (2004). Bezmyślne statystyki. The Journal of Socio-Economics, 33 (5), 587-606.

Royall, R. (1997). Dowody statystyczne: paradygmat prawdopodobieństwa (Vol. 71). Prasa CRC.

Martin R. Vasilev
źródło
1
Mieszasz filozofię nauki Fisherian z podejściem Neymana / Pearsona, jeśli dodasz poziom alfa do testów znaczenia Fishera.
RBirkelbach
5

To śliskie nachylenie odwołuje się do modelu Fishera vs Neymana / Pearsona do testowania znaczenia zerowej hipotezy (NHST). Z jednej strony chcemy dokonać oceny ilościowej tego, jak mało prawdopodobny jest wynik w ramach hipotezy zerowej (np. Wielkości efektu). Z drugiej strony, na koniec dnia chcesz dyskretnej decyzji, czy twoje wyniki są, czy nie, prawdopodobnie spowodowane wyłącznie przez przypadek. Skończyliśmy z rodzajem hybrydowego podejścia, które nie jest zbyt satysfakcjonujące.

W większości dyscyplin konwencjonalne p dla istotności jest ustalone na 0,05, ale tak naprawdę nie ma podstaw, dla których tak musi być. Kiedy recenzuję artykuł, nie mam absolutnie żadnego problemu z tym, że autor nazywa 0,06 znaczącym, a nawet 0,07, pod warunkiem, że metodologia jest solidna, a cały obraz, w tym wszystkie analizy, liczby itp., Opowiadają spójną i wiarygodną historię. Występują problemy, gdy autorzy próbują stworzyć historię z trywialnych danych o niewielkich rozmiarach efektów. I odwrotnie, może nie do końca „uwierzę”, że test jest praktycznie znaczący, nawet jeśli osiąga konwencjonalne znaczenie p <0,05. Mój kolega powiedział kiedyś: „Twoje statystyki powinny po prostu tworzyć kopię zapasową tego, co jest już widoczne w twoich danych liczbowych”.

To powiedziawszy, myślę, że Wasilew ma rację. Biorąc pod uwagę zepsuty system publikacji, musisz w zasadzie uwzględnić wartości p, a zatem musisz poważnie potraktować słowo „znaczący”, nawet jeśli wymaga ono przymiotników takich jak „marginalnie” (co wolę). Zawsze możesz z tym walczyć w recenzji, ale najpierw musisz się tam dostać.

HEITZ
źródło
5

Różnica między dwiema wartościami p zazwyczaj nie jest znacząca. Nie ma zatem znaczenia, czy wartość p wynosi 0,05, 0,049, 0,051 ...

W odniesieniu do wartości p jako miary siły asocjacji: wartość p nie jest bezpośrednio miarą siły asocjacji. Wartość p jest prawdopodobieństwem znalezienia tak ekstremalnych lub bardziej ekstremalnych danych, jak dane, które zaobserwowałeś, biorąc pod uwagę hipotezę, że parametr wynosi 0 (jeśli ktoś jest zainteresowany hipotezą zerową - patrz komentarz Nicka Coxa). Jednak często nie jest to ilość, którą interesuje badacz. Wielu badaczy jest raczej zainteresowanych odpowiedzią na pytania typu „jakie jest prawdopodobieństwo, że parametr będzie większy niż wybrana wartość odcięcia?” Jeśli jesteś tym zainteresowany, musisz dołączyć dodatkowe wcześniejsze informacje do swojego modelu.

RBirkelbach
źródło
6
Zgadzam się z duchem tego, ale drobny druk, jak zawsze, wymaga całkowitej czujności. „przy założeniu, że parametr wynosi 0”: często, ale nie zawsze. Wartości P można również obliczyć dla innych hipotez. Również dla „założonego” odczytu ”hipotetycznie”.
Nick Cox,
Masz całkowitą rację - zredaguję moją odpowiedź!
RBirkelbach
3

To, czy „prawie znaczący” ma sens, czy nie, zależy od filozofii wnioskowania statystycznego. Całkowicie poprawne jest rozważenie poziomu alfa jako linii na piasku, w takim przypadku należy zwrócić uwagę tylko na to, czy czy . Dla takiego „absolutysty” „prawie znaczący” nie ma sensu. Ale równie dobrze jest myśleć o wartościach p jako o ciągłych pomiarach siły wsparciap<αp>α(oczywiście nie siła efektu). Dla takiego „kontynentalisty” „prawie znaczący” jest rozsądnym sposobem opisania wyniku o umiarkowanej wartości p. Problem powstaje, gdy ludzie mieszają te dwie filozofie - lub, co gorsza, nie są świadomi, że obie istnieją. (Nawiasem mówiąc - ludzie często przyjmują te mapy czysto na Neymana / Pearsona i Fishera, ale nie robią tego; stąd moje, co prawda, niezgrabne warunki dla nich). Więcej szczegółów na ten temat w blogu na ten temat tutaj: https://scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-signiant-ridiculous/

Stephen Heard
źródło
1

Myślę, że powiedzenie czegoś, co jest prawie statystycznie istotne, nie jest poprawne z technicznego punktu widzenia. Po ustawieniu poziomu tolerancji przeprowadzany jest statystyczny test istotności. Musisz wrócić do idei dystrybucji próbkowania. Jeśli twój poziom tolerancji to 0,05 i zdarzy ci się uzyskać wartość p wynoszącą 0,053, to przypadkowo zastosowana próbka dała tę statystykę. Można bardzo dobrze uzyskać kolejną próbkę, która może nie dać takich samych wyników - uważam, że prawdopodobieństwo takiego wystąpienia zależy od ustawionego poziomu tolerancji, a nie od statystyki próbki. Pamiętaj, że testujesz próbki pod kątem parametru populacji, a próbki mają własny rozkład próbkowania. Więc moim zdaniem albo coś jest statystycznie znaczące, albo nie.

Chris Kwaramba
źródło
0

[0,1]H0p>α

H1

Patrz na przykład Wikipedia .

snaut
źródło
Nie do końca cię śledzę. Tak, w każdym ciągłym rozkładzie prawdopodobieństwo uzyskania wyniku dokładnie 0,051 jest równe prawdopodobieństwu uzyskania wyniku dokładnie 1 - wynosi zero. Ale testowanie hipotez bada prawdopodobieństwo zobaczenia wartości co najmniej tak ekstremalnej, jak zaobserwowana. Zawsze znajdziesz wartość p co najmniej tak ekstremalną jak 1, ale znacznie rzadziej zobaczysz wartość p tak ekstremalną jak 0,051. Co sprawia, że ​​ta różnica jest „bez znaczenia”?
Nuclear Wang
Pod wartością zerową jest równie prawdopodobne zaobserwowanie wartości pw przedziale [0,05,0,051], jak w przypadku wartości pw przedziale [0,999,1]. Obserwacja wartości p bliżej progu nie jest większym dowodem przeciwko zeru jako obserwacja jakiejkolwiek innej wartości p poza obszarem odrzucenia.
snaut
Niektóre wartości ap wynoszą 0,05, inne wykorzystują 0,01 lub 0,1 jako próg. Tak więc wśród 3 badaczy, którzy przeprowadzają tę samą analizę i stwierdzają wartość p wynoszącą 0,03, dwóch może nazwać to znaczącym, a jeden nie. Jeśli wszystkie znajdą wartość p wynoszącą 0,91, nikt nie nazwie jej znaczącą. Wartość p bliższa progu oznacza, że ​​więcej osób uzna, że ​​istnieją wystarczające dowody na odrzucenie wartości zerowej. Nie rozumiem, dlaczego p = 0,051 ip = 1 powinny być nierozróżnialne pod względem wsparcia dla H1 - niektóre osoby uzasadniają wsparcie dla H1 przy p = 0,051; nikt nie zrobi tego z p = 1.
Nuclear Wang