Czy wartość p jest zasadniczo bezużyteczna i niebezpieczna w użyciu?

36

Ten artykuł „ Kursy, ciągle aktualizowane” z NY Times przykuł moją uwagę. Krótko mówiąc, stwierdza to

[Statystyka bayesowska] okazuje się szczególnie przydatna w podejściu do skomplikowanych problemów, w tym wyszukiwań takich jak ta przeprowadzona przez Straż Przybrzeżną w 2013 r. W celu odnalezienia zaginionego rybaka, Johna Aldridge'a (choć jak dotąd nie w polowaniu na Malaysia Airlines Flight 370). ......, statystyki bayesowskie przewijają się przez wszystko, od fizyki po badania nad rakiem, ekologia i psychologia ...

W artykule pojawiła się także krytyka wartości p częstego, na przykład:

Wyniki są zwykle uważane za „statystycznie istotne”, jeśli wartość p jest mniejsza niż 5 procent. Ale w tej tradycji istnieje niebezpieczeństwo, powiedział Andrew Gelman, profesor statystyki w Kolumbii. Nawet jeśli naukowcy zawsze poprawnie wykonali obliczenia - a nie robią tego, argumentuje - zaakceptowanie wszystkiego z wartością p wynoszącą 5 procent oznacza, że ​​jeden na 20 „statystycznie znaczących” wyników jest niczym innym jak szumem losowym.

Poza powyższym być może najbardziej znanym artykułem krytykującym wartość p jest ta - „Metoda naukowa: błędy statystyczne” Reginy Nuzzo z Nature , w której omówiono wiele zagadnień naukowych związanych z podejściem wartości p, takich jak problemy z odtwarzalnością, Hackowanie wartości p itp.

Wartości P, „złoty standard” ważności statystycznej, nie są tak wiarygodne, jak przypuszcza wielu naukowców. ...... Być może najgorszym błędem jest rodzaj samooszukiwania się, dla którego psycholog Uri Simonsohn z University of Pennsylvania i jego współpracownicy spopularyzowali pojęcie hakowania P. jest również znany jako pogłębianie danych, węszenie, łowienie ryb, pogoń za znaczeniem i podwójne zanurzenie. „Hakowanie P”, mówi Simonsohn, „próbuje wielu rzeczy, dopóki nie uzyskasz pożądanego rezultatu” - nawet nieświadomie. ...... „To odkrycie wydaje się być uzyskane dzięki hakowaniu p, autorzy porzucili jeden z warunków, tak aby ogólna wartość p była mniejsza niż 0,05” i „Ona jest hakerem p, zawsze monitoruje dane podczas ich gromadzenia. ”

Inną rzeczą jest to ciekawa fabuła, jak następuje od tutaj , z komentarzem na temat działki:

Bez względu na to, jak niewielki może być Twój efekt, zawsze możesz wykonać ciężką pracę polegającą na gromadzeniu danych, aby przekroczyć próg p <0,05. Dopóki efekt, który badasz, nie istnieje, wartości p mierzą tylko wysiłek włożony w gromadzenie danych.

wprowadź opis zdjęcia tutaj

W związku z powyższym moje pytania są następujące:

  1. Co dokładnie oznacza argument Andrew Gelmana w drugim cytacie blokowym? Dlaczego zinterpretował 5-procentową wartość p jako „zauważa jeden na 20 statystycznie istotnych wyników, ale losowy szum”? Nie jestem przekonany, ponieważ dla mnie wartość p służy do wnioskowania na podstawie jednego badania. Jego punkt wydaje się związany z wielokrotnymi testami.

    Aktualizacja: Sprawdź blog Andrew Gelmana na ten temat: Nie, nie powiedziałem tego! (Kredyty dla @Scortchi, @whuber).

  2. Biorąc pod uwagę krytykę wartości p, a także biorąc pod uwagę, że istnieje wiele kryteriów informacyjnych, takich jak AIC, BIC, do oceny istotności modelu (stąd zmiennych), czy nie powinniśmy używać wartości p do wyboru zmiennych w wszystko oprócz tych kryteriów wyboru modelu?dop

  3. Czy istnieją jakieś praktyczne wskazówki dotyczące wykorzystania wartości p do analizy statystycznej, które mogłyby prowadzić do bardziej wiarygodnych wyników badań?
  4. Czy ramy modelowania bayesowskiego byłyby lepszym sposobem realizacji, o czym opowiadają się niektórzy statystycy? W szczególności, czy podejście bayesowskie byłoby bardziej prawdopodobne w przypadku fałszywego znalezienia lub manipulowania problemami z danymi? Nie jestem tu również przekonany, ponieważ przeor jest bardzo subiektywny w podejściu bayesowskim. Czy są jakieś praktyczne i dobrze znane badania, które pokazują, że podejście bayesowskie jest lepsze niż wartość p częstego, czy przynajmniej w niektórych szczególnych przypadkach?

    Aktualizacja: Byłbym szczególnie zainteresowany tym, czy zdarzają się przypadki, że podejście bayesowskie jest bardziej wiarygodne niż podejście p-wartości częstych. Przez „wiarygodny” rozumiem, że podejście bayesowskie ma mniejsze szanse na manipulowanie danymi w celu uzyskania pożądanych rezultatów. Jakieś sugestie?


Aktualizacja 6/9/2015

Właśnie zauważyłem wiadomość i pomyślałem, że dobrze byłoby umieścić ją tutaj do dyskusji.

Dziennik psychologii zakazuje wartości P.

Kontrowersyjny test statystyczny w końcu dobiegł końca, przynajmniej w jednym czasopiśmie. Na początku tego miesiąca redaktorzy Podstawowej i Stosowanej Psychologii Społecznej (BASP) ogłosili, że czasopismo nie będzie już publikować artykułów zawierających wartości P, ponieważ statystyki były zbyt często wykorzystywane do wspierania badań niższej jakości.

Wraz z niedawnym referatem „zmienna wartość P generuje nieodpowiedzialne wyniki” z natury , o wartości P.

Zaktualizuj 5/8/2016

W marcu Amerykańskie Stowarzyszenie Statystyczne (ASA) opublikowało oświadczenia dotyczące istotności statystycznej i wartości p: „… Oświadczenie ASA ma na celu ukierunkowanie badań na„ epokę p <0,05 ”.”

To oświadczenie zawiera 6 zasad odnoszących się do niewłaściwego wykorzystania wartości p:

  1. Wartości p mogą wskazywać, jak niezgodne są dane z określonym modelem statystycznym.
  2. Wartości p nie mierzą prawdopodobieństwa, że ​​badana hipoteza jest prawdziwa, ani prawdopodobieństwa, że ​​dane zostały wygenerowane wyłącznie przez przypadek.
  3. Wnioski naukowe oraz decyzje biznesowe lub polityczne nie powinny opierać się wyłącznie na tym, czy wartość p przekracza określony próg.
  4. Właściwe wnioskowanie wymaga pełnego raportowania i przejrzystości.
  5. Wartość p lub istotność statystyczna nie mierzy wielkości efektu ani ważności wyniku.
  6. Sama wartość p nie stanowi dobrego dowodu na temat modelu lub hipotezy.

Szczegóły: „Oświadczenie ASA w sprawie wartości p: kontekst, proces i cel” .

Aaron Zeng
źródło
11
0,050,05
10
@whuber: Masz rację: Nie, nie powiedziałem tego! .
Scortchi - Przywróć Monikę
4
Dobre znalezisko, @Scortchi! Dla przypomnienia - na wypadek, gdyby link kiedykolwiek się zepsuł - Gelman zdecydowanie odrzuca charakterystykę NY Times (aczkolwiek bardzo taktownie) i pisze „Akceptacja wszystkiego o wartości p 5% może prowadzić do fałszywych ustaleń - przypadków, w których zaobserwowano„ istotny statystycznie „wzorzec danych nie odzwierciedla odpowiedniego wzorca w populacji - o wiele więcej niż 5 procent czasu”.
whuber
3
W nawiązaniu do komentarza „Tak długo, jak długo efekt, który badasz, nie istnieje”, jest to punkt badań obejmujących wartości p - w celu ustalenia, czy efekt, który badasz, jest naprawdę obecny, czy też osobliwości w dane, które zebrałeś, są po prostu przypadkowe. Obniżenie wartości p wraz ze wzrostem wielkości próbki jest całkowicie matematycznie uzasadnione i jest jedyną opcją. W żaden sposób nie „hakujesz” wartości p. Z intuicyjnego punktu widzenia sensowne jest, aby włożenie większego wysiłku w gromadzenie danych przełożyło się na większe zaufanie do wyciągniętych z nich wniosków.
David Webb
1
@DavidWebb Zgoda. Jeśli rozmiar efektu jest mały, nie ma problemu i łatwiej będzie powiedzieć, jak duży lub mały efekt ma więcej danych. Jeśli możesz uzyskać więcej danych, powinieneś.
Desty

Odpowiedzi:

25

Oto kilka myśli:

  1. 80%100/118,7584%
  2. p
  3. p
  4. Nie jestem dogmatycznie przeciwny stosowaniu metod bayesowskich, ale nie sądzę, aby rozwiązały ten problem. Na przykład możesz po prostu zbierać dane, dopóki wiarygodny przedział nie będzie zawierał żadnej wartości, którą chcesz odrzucić. Zatem masz „wiarygodne hakowanie interwałowe”. Moim zdaniem problem polega na tym, że wielu praktykujących nie jest wewnętrznie zainteresowanych analizami statystycznymi, których używają, więc zastosują dowolną z wymaganych metod w bezmyślny i mechaniczny sposób. Aby uzyskać więcej informacji na temat mojej perspektywy, pomocne może być przeczytanie mojej odpowiedzi na: Wielkość efektu jako hipoteza do testowania istotności .
gung - Przywróć Monikę
źródło
10
(+1) Łatwym sposobem na zhakowanie wiarygodnego interwału jest przyjęcie właściwego wcześniejszego :-). Oczywiście żaden kompetentny lekarz nie zrobiłby tego - podkreśla Gelman za pomocą oceny wrażliwości, nieinformacyjnych hiperpriorów itp. - ale znowu żaden kompetentny użytkownik testów hipotez nie zrobiłby hakowania wartości p, prawda? Z drugiej strony, w analizie bayesowskiej może być trudniej ukryć to, co się robi - zakładając, że wcześniejsze informacje są wyraźnie ujawnione - w porównaniu do wszystkich nieudokumentowanych analiz, które mogą być zaangażowane w hackowanie wartości p.
whuber
1
@ Whuber, to prawda, ale myślę, że możemy odłożyć na bok wszelkie kwestie związane z niewłaściwością lub podmiotowością z góry. Jeśli prawdziwy efekt nie jest dokładnie równy 0, w / wystarczającej ilości danych wiarygodny interwał ostatecznie nie będzie obejmował 0, podobnie jak p będzie wynosić <0,05 (por. Ostatni cytat), więc możesz po prostu zbierać dane, dopóki nie otrzymasz wynik, który chcesz niezależnie od wcześniejszego.
gung - Przywróć Monikę
4
Słuszne uwagi. Przypomina mi się ostatnie pytanie dotyczące przewidywania awarii w 10 000 produktów po tym, jak nie zaobserwowałem żadnych awarii w 100 000 z nich. Odpowiedź jest dość wrażliwa na wcześniejsze, ponieważ awarie są tak rzadkie. Może to być wyjątkowa sytuacja, która „potwierdza regułę”; pokazuje, że w rzeczywistości gromadzenie wystarczającej ilości danych w celu uzyskania pożądanego rezultatu może być niewykonalne. Właśnie wtedy niektórzy klienci zaczynają błagać statystyki, by „zrobili swoją magię”, aby osiągnąć pożądany rezultat! Prawdopodobnie wielu czytelników odczuwało tę presję przed ....
whuber
1
@gung, w praktycznych badaniach klinicznych, na różnych etapach zawsze znajdują się kryteria zatrzymania rekrutacji większej liczby osób do eksperymentów. W tym sensie, czy podejście bayesowskie wydawałoby się mniej prawdopodobne, aby manipulować wiarygodnym interwałem, a tym samym wnioskami z badań?
Aaron Zeng
2
@AaronZeng, wydaje mi się, że wyraźne kryteria zatrzymania odnoszą się w równym stopniu do perspektyw częstokrzyskich i bayesowskich. Nie widzę tu żadnej przewagi / wady netto.
gung - Przywróć Monikę
8

Dla mnie jedną z najbardziej interesujących rzeczy w kontrowersjach dotyczących hakowania p jest to, że cała historia p <= 0,05 jako standardu „raz w niebieskim księżycu” dla znaczenia statystycznego, jak zauważył Joseph Kaldane w artykule JASA na temat statystyk kryminalistycznych w latach 90. całkowicie nie opiera się na teorii statystycznej. Jest to konwencja, prosta heurystyka i zasada praktyczna, która rozpoczęła się od RA Fisher i od tego czasu została potwierdzona lub poświęcona do obecnego „niekwestionowanego” statusu. Bez względu na to, czy jest bayesowski, czy nie, czas jest już spóźniony, aby zakwestionować ten standard metryczny lub przynajmniej dać mu sceptycyzm, na jaki zasługuje.

To powiedziawszy, moja interpretacja punktu Gelmana jest taka, że, jak dobrze wiadomo, proces wzajemnej oceny nagradza pozytywne znaczenie statystyczne i karze nieistotne wyniki, nie publikując tych artykułów. Jest to niezależne od tego, czy opublikowanie nieznacznego odkrycia miałoby potencjalnie duży wpływ na sposób myślenia i teoretyzację dla danej dziedziny. Gelman, Simonshohn i inni wielokrotnie wskazywali na nadużywanie poziomu istotności 0,05 w recenzowanych i opublikowanych badaniach, podając przykłady absurdalnych, ale statystycznie istotnych wyników badań paranormalnych, społecznych i psychologicznych. Jednym z najbardziej rażących było statystycznie istotne odkrycie, że kobiety w ciąży częściej noszą czerwone sukienki. Gelman utrzymuje, że wobec braku logicznych wyzwań dla wyników statystycznychpotencjalnie bezsensowne wyjaśnienie. Tutaj odnosi się do branżowego zagrożenia zawodowego za pomocą zbyt technicznych i zawiłych argumentów, które niewiele lub wcale nie przyczyniają się do rozwoju debaty wśród świeckich odbiorców.

Jest to kwestia, o której Gary King gwałtownie mówi, gdy praktycznie błaga politologów ilościowych (a co za tym idzie, wszystkie kwanty), aby zaprzestali mechanistycznego, technicznego reportażu, takiego jak „ten wynik był znaczący na poziomie ap <= 0,05” i przechodząc do bardziej merytorycznych interpretacji . Oto cytat z artykułu przez niego,

(1) przekazują liczbowo dokładne szacunki wielkości największego istotnego zainteresowania, (2) zawierają rozsądne miary niepewności dotyczące tych szacunków oraz (3) wymagają niewielkiej specjalistycznej wiedzy do zrozumienia. Poniższe proste stwierdzenie spełnia nasze kryteria: „Gdy inne rzeczy są równe, dodatkowy rok nauki zwiększyłby twój roczny dochód średnio o 1500 dolarów, plus minus około 500 dolarów”. Każdy inteligentny uczeń szkoły średniej zrozumiałby to zdanie, bez względu na to, jak wyrafinowany był model statystyczny i jak potężne były jego komputery.

Punkt Kinga jest bardzo dobrze przemyślany i wytycza kierunek, w którym powinna zmierzać debata.

Jak najlepiej wykorzystać analizy statystyczne: poprawa interpretacji i prezentacji , King, Tomz i Wittenberg, 2002, Am Jour of Poli Sci .

Mike Hunter
źródło
2
+1 Dziękujemy za czytelny, pouczający i przemyślany wkład w wątek.
whuber
@ whuber Dzięki za miłe słowa. Czas pokaże, czy inni uczestnicy się z tym zgadzają, czy nie.
Mike Hunter,
2
Mogę się łudzić, ale lubię myśleć, że niektórzy (jeśli nie większość) z naszych czynnych wyborców nie głosują na podstawie porozumienia lub braku porozumienia, ale tego, czy post odpowiada na pierwotne pytanie w sposób jasny i autorytatywny . W końcu tekst aktywowany nad ikoną głosowania brzmi „Ta odpowiedź jest przydatna”, a nie „Zgadzam się z tym facetem”. (Jest to nie należy mylić z głosowania na naszej stronie meta, która dokłada oznaczać stopień porozumienia.) Dowody na to wrażenie jest zapewniany jest przez wielu odznaki sportowej nagrodzonych.
whuber
@ Whuber Niuans, który wskazałeś, został należycie odnotowany.
Mike Hunter,
@ Whuber ten wątek był źródłem mojego użycia słowa zwodzonego na naszym czacie innego dnia.
Mike Hunter,
5

Oto kilka moich przemyśleń na pytanie 3 po przeczytaniu wszystkich wnikliwych komentarzy i odpowiedzi.

Być może jednym praktycznym wskazówką w analizie statystycznej, aby uniknąć włamań wartości p, jest spojrzenie na naukowo (lub biologicznie, klinicznie itp.) Wielkość znaczącego / znaczącego efektu.

θ

H.0:θ=0przeciwkos.H.za:θ0,
H.0:θ<δprzeciwkos.H.za:θδ,
δ

Ponadto, aby uniknąć użycia zbyt dużego rozmiaru próbki do wykrycia efektu, należy również wziąć pod uwagę wymagany rozmiar próbki. Oznacza to, że powinniśmy ograniczyć maksymalny rozmiar próbki zastosowany w eksperymencie.

Podsumowując

  1. Potrzebujemy wstępnie zdefiniować próg dla znaczącego rozmiaru efektu, aby zadeklarować znaczenie;
  2. Musimy wstępnie zdefiniować próg wielkości próbki zastosowany w eksperymencie, aby określić ilościowo, jak wykrywalny jest znaczący rozmiar efektu;

W związku z powyższym być może uda nam się w ten sposób uniknąć niewielkiego „znaczącego” efektu wynikającego z dużej wielkości próby.


[Aktualizacja 6/9/2015]

Jeśli chodzi o pytanie 3, oto kilka sugestii opartych na niedawnym artykule z natury: „Zmienna wartość P generuje nie powtarzalne wyniki”, jak wspomniałem w części Pytanie.

  1. Podaj oszacowania wielkości efektu i ich dokładność, tj. 95% przedział ufności, ponieważ te bardziej informacyjne informacje odpowiadają dokładnie na pytania, jak duża jest różnica, czy jak silny jest związek lub powiązanie;
  2. Umieścić oszacowania wielkości efektu i 95% CI w kontekście konkretnych badań / pytań naukowych i skupić się na ich przydatności w odpowiedzi na te pytania i zdyskontować zmienną wartość P;
  3. Zamień analizę mocy na „ planowanie precyzji ”, aby określić wielkość próbki wymaganą do oszacowania wielkości efektu w celu osiągnięcia określonego stopnia precyzji.

[Koniec aktualizacji 6/9/2015]

Aaron Zeng
źródło
4
H.0:θ=δ
@AndyW, dziękuję za komentarze. Odpowiednio zmieniłem odpowiedź. Czy to brzmiałoby lepiej?
Aaron Zeng
2
+1 za odniesienie do tego artykułu o Naturze. Zawiera jednak zadziwiające dezinformacje, takie jak (niezapowiedziana) bayesowska interpretacja wartości p: „Na przykład, jeśli badanie uzyska P = 0,03, istnieje 90% szans, że powtórzone badanie zwróci gdzieś wartość P pomiędzy szerokim zakresem 0–0,6 (90% przedziały prognozowania), podczas gdy szanse na P <0,05 wynoszą zaledwie 56%. ” Zastanawiam się, jaką wcześniejszą dystrybucję zakładają autorzy - i dlaczego to w ogóle ma znaczenie?
whuber
@AndyW i Aaron Zeng, jeszcze lepiej jest połączyć wyniki obu testów dla różnicy i testów dla równoważności. W ten sposób jednoznacznie umieszcza się zarówno istotną wielkość efektu, jak i moc statystyczną we wnioskach, które wyciąga (patrz rozdział na temat testów trafności).
Alexis
3

P.(re|H.0)αH.0H.0

  1. Oznacza to, że wyniki 1/20 mogą odrzucić wartość zerową, gdy nie powinny. Jeśli nauka oparłaby swój wniosek na pojedynczych eksperymentach, stwierdzenie byłoby uzasadnione. W przeciwnym razie, jeśli eksperymenty byłyby powtarzalne, oznaczałoby to, że 19/20 nie zostałby odrzucony. Morał tej historii jest taki, że eksperymenty powinny być powtarzalne.

  2. Nauka jest tradycją opartą na „obiektywności”, więc „obiektywne prawdopodobieństwo” naturalnie przemawia. Przypomnijmy, że eksperymenty mają na celu wykazanie wysokiego stopnia kontroli, często przy użyciu projektowania bloków i randomizacji w celu kontroli czynników spoza badań. Dlatego porównanie z przypadkowym ma sens, ponieważ wszystkie inne czynniki powinny być kontrolowane, z wyjątkiem tych objętych badaniem. Techniki te były bardzo skuteczne w rolnictwie i przemyśle, zanim zostały przeniesione do nauki.

  3. Nie jestem pewien, czy brak informacji był kiedykolwiek naprawdę problemem. Warto zauważyć, że dla wielu nauk niematematycznych statystyka jest tylko polem do zaznaczenia.

  4. Sugerowałbym ogólną lekturę na temat teorii decyzji, która jednoczy te dwie struktury. Sprowadza się to po prostu do korzystania z dowolnej ilości informacji. Statystyki częstokroć przyjmują, że parametry w modelach mają nieznane wartości ze stałych rozkładów. Bayesianie zakładają, że parametry w modelach pochodzą z rozkładów uwarunkowanych tym, co wiemy. Jeśli jest wystarczająco dużo informacji, aby utworzyć wcześniejsze i wystarczające informacje, aby zaktualizować je do dokładnego z tyłu, to świetnie. Jeśli nie ma, możesz skończyć z gorszymi wynikami.

Emir
źródło
1

Odtwarzalność wyników badań statystycznych

Jest to krótkie, proste ćwiczenie do oceny odtwarzalności decyzji na podstawie testów statystycznych.

Rozważ hipotezę zerową H0 z zestawem alternatywnych hipotez zawierających H1 i H2. Ustaw procedurę testu hipotezy statystycznej na poziomie istotności 0,05, aby uzyskać moc 0,8, jeśli H1 jest prawdą. Ponadto załóżmy, że moc dla H2 wynosi 0,5. Aby ocenić odtwarzalność wyniku testu, rozważa się przeprowadzenie eksperymentu dwa razy. Zaczynając od sytuacji, w której H0 jest prawdą, prawdopodobieństwo wyników wspólnego eksperymentu pokazano w tabeli 1. Prawdopodobieństwo, że nie uda się odtworzyć decyzji, wynosi 0,095.

Tabela 1. Częstotliwości, jeśli H0 jest prawdziwe

farmiqumindoy.ofa.remidojasjaonRmijotmidot.H.0Rmitzajan.H.0Rmijotmidot.H.00,00250,0475Rmitzajan.H.00,04750,9025

Częstotliwości zmieniają się wraz ze zmianą prawdziwego stanu przyrody. Zakładając, że H1 jest prawdą, H0 można odrzucić zgodnie z projektem o mocy 0,8. Wynikowe częstotliwości dla różnych wyników wspólnego eksperymentu pokazano w tabeli 2. Prawdopodobieństwo, że nie uda się odtworzyć decyzji, wynosi 0,32.

Tabela 2. Częstotliwości, jeśli H1 jest prawdziwe

farmiqumindoy.ofa.remidojasjaonRmijotmidot.H.0Rmitzajan.H.0Rmijotmidot.H.00,640,16Rmitzajan.H.00,160,04

Zakładając, że H2 jest prawdą, H0 zostanie odrzucone z prawdopodobieństwem 0,5. Wynikowe częstotliwości dla różnych wyników wspólnego eksperymentu pokazano w tabeli 3. Prawdopodobieństwo, że nie uda się odtworzyć decyzji, wynosi 0,5.

Tabela 3. Częstotliwości, jeśli H2 jest prawdą

farmiqumindoy.ofa.remidojasjaonRmijotmidot.H.0Rmitzajan.H.0Rmijotmidot.H.00,250,25Rmitzajan.H.00,250,25

Procedura testowa została zaprojektowana w celu kontroli błędów typu I (odrzucenie hipotezy zerowej, nawet jeśli jest to prawda) z prawdopodobieństwem 0,05 i ograniczenia błędów typu II (brak odrzucenia hipotezy zerowej, nawet jeśli jest błędna, a H1 jest prawdą) do 0,2. W obu przypadkach, przy założeniu, że H0 lub H1 są prawdziwe, prowadzi to do nieistotnych częstotliwości, odpowiednio 0,095 i 0,32, decyzji „nieodtwarzalnych”, „sprzecznych”, jeżeli ten sam eksperyment powtórzy się dwukrotnie. Sytuacja pogarsza się z częstotliwością do 0,5 dla „niemożliwych do odtworzenia”, „sprzecznych” decyzji, jeśli prawdziwy stan natury znajduje się pomiędzy hipotezą zerową i alternatywną zastosowaną do zaprojektowania eksperymentu.

Sytuacja może również ulec poprawie - jeśli błędy typu 1 są kontrolowane bardziej rygorystycznie lub jeśli prawdziwy stan natury jest daleko od zera, co skutkuje mocą odrzucenia wartości zerowej bliskiej 1.

Dlatego jeśli chcesz uzyskać bardziej powtarzalne decyzje, zwiększ poziom istotności i moc swoich testów. Niezbyt zadziwiające ...

user36160
źródło
(+1) Ale nie możesz ustawić wartości p na 5% przed eksperymentem - myślę, że masz na myśli „poziom istotności”.
Scortchi - Przywróć Monikę
Dziękuję Ci. To samo w ostatnim zdaniu: „zmniejsz poziomy istotności i zwiększ moc”
Scortchi - Przywróć Monikę
Myślę, że największym problemem z wartościami p jest to, że ludzie mylą je z istotnym znaczeniem. Jeśli więc p <0,05, oznacza to, że rozmiar odkrytego efektu jest wystarczająco duży, aby mieć znaczenie. W pracy jestem proszony o generowanie [merytorycznie] znaczących efektów poprzez generowanie wartości p.
user54285