Czy słabe badania zwiększają prawdopodobieństwo wyników fałszywie dodatnich?

23

To pytanie zostało już zadane tu i tutaj, ale nie sądzę, że odpowiedzi odnoszą się bezpośrednio do pytania.

Czy słabe badania zwiększają prawdopodobieństwo wyników fałszywie dodatnich? Niektóre artykuły prasowe potwierdzają to twierdzenie. Na przykład :

Niska moc statystyczna to zła wiadomość. Badania o słabej mocy częściej tracą rzeczywiste skutki, a jako grupa częściej zawierają wyższy odsetek wyników fałszywie dodatnich - to znaczy efektów, które osiągają istotność statystyczną, nawet jeśli nie są rzeczywiste.

Jak rozumiem, moc testu można zwiększyć:

  • zwiększenie wielkości próby
  • mający większy rozmiar efektu
  • zwiększenie poziomu istotności

Zakładając, że nie chcemy zmieniać poziomu istotności, uważam, że powyższy cytat odnosi się do zmiany wielkości próby. Nie widzę jednak, jak zmniejszenie próby powinno zwiększyć liczbę wyników fałszywie dodatnich. Mówiąc prościej, zmniejszenie mocy badania zwiększa szanse na fałszywe negatywy, które odpowiadają na pytanie:

P.(brak odrzucenia H.0|H.0 to fałsz)

Przeciwnie, fałszywie pozytywne odpowiedzi odpowiadają na pytanie:

P.(odrzucać H.0|H.0 jest prawdziwy)

Oba są różnymi pytaniami, ponieważ warunki warunkowe są różne. Moc jest (odwrotnie) związana z fałszywymi negatywami, ale nie z fałszywymi pozytywami. Czy coś brakuje?

Robert Smith
źródło
4
Nie jest to fałszywie dodatni wskaźnik, który zależy od siły statystycznej, ale „współczynnik fałszywych odkryć”:P.(H.0jest prawdziwy|odrzucaćH.0)
Jake Westfall,
2
Tak, wydaje się to właściwa interpretacja stwierdzenia w artykule przewodowym.
Robert Smith,

Odpowiedzi:

30

Masz rację, ponieważ wielkość próbki wpływa na moc (tj. Błąd 1 - typ II), ale nie błąd typu I. Powszechnym nieporozumieniem jest to, że wartość p jako taka (poprawnie interpretowana) jest mniej wiarygodna lub ważna, gdy wielkość próbki jest niewielka - bardzo zabawny artykuł Fristona 2012 ma zabawne podejście do tego [1].

To powiedziawszy, problemy z badaniami o niskiej mocy są prawdziwe, a cytat jest w dużej mierze poprawny, powiedziałbym, tylko trochę nieprecyzyjny w swoim brzmieniu.

Podstawowym problemem związanym z badaniami o niskiej mocy jest to, że chociaż współczynnik wyników fałszywie dodatnich (błąd typu I) w testach hipotetycznych jest stały, to odsetek wyników dodatnich (mocy) spada. Stąd wynik dodatni (= znaczący) jest mniej prawdopodobny w badaniu słabym. Ta idea wyraża się w odsetku fałszywych odkryć [2], patrz także [3]. Wydaje się, że odnosi się to do cytatu.

Dodatkowym często wymienianym problemem dotyczącym słabszych badań jest to, że prowadzą one do zawyżonych rozmiarów efektów. Powodem jest to, że a) przy niższej mocy twoje szacunki prawdziwych efektów staną się bardziej zmienne (stochastyczne) wokół ich prawdziwej wartości, i b) tylko najsilniejszy z tych efektów przejdzie przez filtr istotności, gdy moc jest niska. Należy jednak dodać, że jest to problem zgłaszania, który można łatwo rozwiązać, omawiając i zgłaszając wszystkie, a nie tylko znaczące skutki.

Wreszcie ważną kwestią praktyczną w przypadku słabych badań jest to, że niska moc zwiększa problemy statystyczne (np. Stronniczość estymatorów), a także pokusę zabawy ze zmiennymi i podobnymi taktykami hakowania p. Korzystanie z tych „stopni swobody badacza” jest najbardziej skuteczne, gdy moc jest niska, a TO może mimo wszystko zwiększyć błąd typu I, patrz np. [4].

Z tych wszystkich powodów byłbym zatem sceptycznie nastawiony do słabych badań.

[1] Friston, K. (2012) Dziesięć ironicznych zasad dla nie-statystycznych recenzentów. NeuroImage, 61, 1300-1310.

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3] Przycisk, KS; Ioannidis, JPA; Mokrysz, C .; Nosek, BA; Flint, J .; Robinson, ESJ & Munafo, MR (2013) Awaria zasilania: dlaczego mała wielkość próby podważa niezawodność neurobiologii. Nat. Rev. Neurosci., 14, 365-376

[4] Simmons, JP; Nelson, LD i Simonsohn, U. (2011) Psychologia fałszywie dodatnia: nieujawniona elastyczność w gromadzeniu i analizie danych pozwala prezentować wszystko jako znaczące. Psychol Sci., 22, 1359-1366.

Florian Hartig
źródło
Dziękuję Ci. Doskonałe referencje. Dla kompletności, [1] można znaleźć tutaj, a [3] jest dostępny tutaj . Kiedy mówisz o częstości fałszywych odkryć, czy jesteś pewien, że to właściwa koncepcja? Opierając się na [3], być może miałeś na myśli pozytywną wartość predykcyjną (PPV), w której słabsze badania mają niższy PPV (to znaczy, że prawdziwie pozytywne wyniki nie są tak częste, jak powinny być w badaniu o dużej mocy). Wygląda na to, że odsetek fałszywych odkryć jest uzupełnienie PPV.
Robert Smith
W moim rozumieniu pojęcia te są identyczne, PPV = 1-FDR. Wolę używać FDR, ponieważ uważam, że słowo jest intuicyjnie lepiej zrozumiałe.
Florian Hartig,
2
Tal Yarkoni zwraca uwagę wszystkie rzeczy źle o artykule Friston tutaj .
jona
1
@jona - Myślę, że Tal Yarkoni podnosi kilka dobrych punktów w swoim blogu. Wydaje mi się, że podsumowanie 1 zdania brzmiałoby: „niska moc to problem”, co dokładnie mówię powyżej. Nadal uważam karykaturę komentarzy recenzenta za zabawną, ponieważ zdarza się, że recenzenci „stwierdzają, że wielkość próbki jest zbyt niska” bez przekonującego argumentu, który wymaga obliczenia mocy.
Florian Hartig,
6

W zależności od tego, jak na to spojrzysz, niska moc może zwiększyć fałszywie dodatnie wskaźniki w danych scenariuszach.

Zastanów się, co następuje: badacz testuje leczenie. Jeśli test wróci jako nieistotny, porzucają go i przechodzą do następnego leczenia. Jeśli test wróci znacząco, publikują go. Rozważmy również, że badacz przetestuje niektóre metody leczenia, które działają, a niektóre nie. Jeśli badacz ma dużą moc (oczywiście odnosząc się do przypadku, gdy testuje leczenie, które działa), istnieje duże prawdopodobieństwo, że przestanie, gdy przetestuje skuteczne leczenie. Z drugiej strony, przy niskiej mocy, prawdopodobnie przegapią prawdziwy efekt leczenia i przejdą do innych zabiegów. Im więcej zerowanych metod leczenia przetestują, tym bardziej prawdopodobne jest, że popełnią błąd typu I (ten badacz nie uwzględnia wielu porównań). W przypadku niskiej mocy oczekuje się, że przetestują one o wiele więcej zerowych zabiegów,

Można powiedzieć „cóż, to tylko badacz nadużywający wielu porównań!”. Cóż, to może być prawda, ale w ten sposób wiele badań robi się obecnie. Z tych właśnie powodów osobiście nie wierzę w publikowane prace, chyba że ma wystarczająco dużą próbkę, tak że badacz nie byłby w stanie powtórzyć tego samego eksperymentu wiele razy.

Cliff AB
źródło
1
Dziękuję Ci. Nawet ignorując przypadek wielokrotnych porównań (bez odpowiednich poprawek), myślę, że opisujesz inne wystąpienie PPV, jak opisano tutaj . Nie mogę wkleić akapitu, ale zaczyna się od ( For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null)
Robert Smith,
1
Ach tak, to bardzo ściśle opisuje to, o czym mówiłem. Najmniejsze rozróżnienie polega na tym, że mówię: „W danej procedurze eksperymentalnej posiadanie indywidualnej niskiej mocy przy każdym teście prawdziwego efektu zwiększa szanse na popełnienie błędu typu I w całej naszej procedurze eksperymentalnej ”. Jest to oczywiście inne niż zwiększenie poziomu błędu typu I w każdym teście statystycznym. Ponadto jest to tylko w najbardziej technicznym sensie innym niż PPV. Jest to jednak jedyny sposób, w jaki informacja medialna „niska moc zwiększa błędy typu I” ma sens (i myślę, że ma wiele sensu).
Cliff AB
4

Niska moc nie może wpływać na współczynnik błędów typu 1, ale może wpływać na odsetek opublikowanych wyników, które są błędami typu 1.

Powodem jest to, że niska moc zmniejsza szanse na prawidłowe odrzucenie H0 (błąd typu 2), ale nie ma szans na fałszywe odrzucenie H0 (błąd typu 1).

Załóżmy przez sekundę, że istnieją dwie literatury ... jedna z bardzo niską mocą - prawie zerową - a druga z odpowiednią mocą. W obu literaturach można założyć, że gdy H0 jest fałszywe, przez pewien czas nadal będziesz otrzymywać fałszywie dodatnie (np. 5% dla alfa = 0,05). Zakładając, że badacze nie zawsze mają rację w swoich hipotezach, możemy założyć, że obie literatury powinny mieć podobną LICZBĘ błędów typu 1, dobrą moc czy nie. Wynika to z faktu, że na częstotliwość błędów typu 1 nie ma wpływu moc, jak powiedzieli inni.

Jednak w literaturze o NISKIEJ mocy masz również wiele błędów typu 2. Innymi słowy, literatura o niskiej mocy powinna BRAK poprawiać odrzucenia H0, co powoduje, że błędy Typu 1 stanowią większą część literatury. W literaturze o dużej mocy powinieneś mieć mieszankę poprawnych i niepoprawnych odrzuceń H0.

Czy więc niska moc zwiększa błędy typu 1? Nie. Jednak utrudnia to znalezienie prawdziwych efektów, przez co błędy typu 1 stanowią większy odsetek opublikowanych wyników.

Tom Carpenter
źródło
1
Dziękuję Ci. Co z PPV? W artykule, do którego odwołuje się Florian Hartig, istnieje twierdzenie, że biorąc pod uwagę błąd typu I, im niższa moc, tym niższe PPV. Jeśli PPV jest niższy, co oznacza, że ​​liczba prawdziwych stwierdzonych odkryć jest niższa, liczba fałszywych stwierdzeń (fałszywych alarmów) powinna wzrosnąć.
Robert Smith
0

Oprócz odpowiedzi innych, badanie jest zwykle słabe, gdy wielkość próby jest niewielka. Istnieje wiele testów, które są tylko asymptotycznie ważne i zbyt optymistyczne lub konserwatywne dla małych n.

Inne testy są ważne tylko dla małych rozmiarów próbek, jeżeli spełnione są określone warunki, ale stają się bardziej niezawodne przy dużych rozmiarach próbek (np. Test t).

W obu tych przypadkach mała wielkość próby i niespełnione założenia mogą prowadzić do zwiększonego poziomu błędu typu I. Obie te sytuacje zdarzają się na tyle często, że uważam prawdziwą odpowiedź na twoje pytanie: nie w teorii, ale w praktyce.

Erik
źródło