Jak indywidualny badacz powinien myśleć o odsetku fałszywych odkryć?

30

Próbowałem owinąć głowę wokół tego, w jaki sposób współczynnik fałszywych odkryć (FDR) powinien wpływać na wnioski poszczególnych badaczy. Na przykład, jeśli twoje badanie jest słabe, czy powinieneś zdyskontować swoje wyniki, nawet jeśli są znaczące przy ? Uwaga: mówię o FDR w kontekście badania wyników wielu badań łącznie, a nie jako metody wielokrotnych poprawek testowych.α=.05

(być może hojne) założenie, że testowanych hipotez jest rzeczywiście prawdą, FDR jest funkcją wskaźników błędu zarówno typu I, jak i typu II, jak następuje:.5

FDR=αα+1β.

Jest oczywiste, że jeśli badanie jest wystarczająco słabe , nie powinniśmy ufać wynikom, nawet jeśli są one znaczące, tak bardzo, jak w przypadku badań o odpowiedniej mocy. Tak więc, jak powiedzieliby niektórzy statystycy , istnieją okoliczności, w których „na dłuższą metę” możemy opublikować wiele istotnych wyników, które są fałszywe, jeśli zastosujemy się do tradycyjnych wytycznych. Jeśli zbiór badań charakteryzuje się konsekwentnie słabymi wynikami badań (np. Literatura dotycząca interakcji genów środowisku z poprzedniej dekady ), można nawet podejrzewać znaczące wyniki.×

Stosowanie pakietów R extrafont, ggplot2i xkcdmyślę, że to może być z pożytkiem rozumiana jako kwestii perspektywy: Znaczący wynik ...

Nie tak pewny...

Biorąc pod uwagę te informacje, co powinien zrobić indywidualny badacz ? Jeśli zgaduję, jaki powinien być rozmiar badanego efektu (a zatem oszacowanie , biorąc pod uwagę wielkość mojej próby), czy powinienem dostosować mój poziom do momentu, aż FDR = 0,05? Czy powinienem publikować wyniki na poziomie , nawet jeśli moje badania są słabe i pozostawiam rozważenie FDR konsumentom literatury?α α = 0,051βαα=.05

Wiem, że jest to temat, który był często dyskutowany, zarówno na tej stronie, jak i w literaturze statystycznej, ale nie mogę znaleźć konsensusu w tej sprawie.


EDYCJA: W odpowiedzi na komentarz @ amoeba, FDR można wyprowadzić ze standardowej tabeli awaryjności współczynnika błędów typu I / typu II (wybacz jego brzydotę):

|                            |Finding is significant |Finding is insignificant |
|:---------------------------|:----------------------|:------------------------|
|Finding is false in reality |alpha                  |1 - alpha                |
|Finding is true in reality  |1 - beta               |beta                     |

Tak więc, jeśli przedstawiono nam znaczące odkrycie (kolumna 1), prawdopodobieństwo, że jest to fałsz, w rzeczywistości wynosi alfa ponad sumę kolumny.

Ale tak, możemy zmodyfikować naszą definicję FDR, aby odzwierciedlić (wcześniejsze) prawdopodobieństwo, że dana hipoteza jest prawdziwa, chociaż moc badania nadal odgrywa pewną rolę:(1β)

FDR=α(1prior)α(1prior)+(1β)prior
Richard Border
źródło
Może nie dać ci jednoznacznej odpowiedzi na twoje pytanie, ale możesz znaleźć inspirację w tym tekście.
JohnRos
1
Artykuł Davida Colquhouna, do którego linkujesz , był ostatnio omawiany tutaj (wraz z @DavidColquhoun sam dołącza do dyskusji), być może zainteresuje Cię spojrzenie.
ameba mówi Przywróć Monikę
2
Skąd bierze się wzór na FDR w kategoriach i ? Być może jestem głupi, ale nie rozumiem, dlaczego to prawda. Spodziewałbym się, że FDR będzie zależeć od rozpowszechnienia zer w populacji badań, co wydaje się nie wchodzić w twoją formułę. Jestem zdezorientowany. βαβ
ameba mówi Przywróć Monikę
2
Cóż, dobrze, powinienem to cofnąć: twoja oryginalna formuła jest poprawna w szczególnym przypadku, gdy wcześniejsze prawdopodobieństwo . Właściwie napisałeś to cały czas, ale nie zauważyłem; Przepraszam. Masz również rację, że dla dowolnego danego (oprócz lub twojego ) FDR będzie rosnąć wraz ze spadkiem mocy osiągając przy zerowej mocy. Twoje pytanie ma więc sens +1. p p = 0 przed = 1 1p=0.5pp=0prior=11
ameba mówi Przywróć Monikę
1
@Horst, „problem” z badaniami o niskiej mocy (opisywanej przez OP) polega na tym, że jeśli wszystkie badania w jakiejś dziedzinie są rażąco słabe, wówczas rzadko wykrywają prawdziwy efekt, podczas gdy z prawdopodobieństwem zgłasza fałszywe odkrycie, które może prowadzić do tego, że większość zgłaszanych odkryć jest fałszywa (tj. do bardzo wysokiego FDR). To nie jest dobra sytuacja dla naukowców.α
Amoeba mówi Reinstate Monica

Odpowiedzi:

6

p

Zamiast tego ważne jest, aby wszystkie badania były dostępne, bez względu na poziomy mocy lub znaczące wyniki. W rzeczywistości zły nawyk publikowania jedynie znaczących wyników i ukrywania nieistotnych wyników prowadzi do stronniczości publikacji i psuje ogólny zapis wyników naukowych.

Tak więc indywidualny badacz powinien przeprowadzić badanie w odtwarzalny sposób, przechowywać wszystkie zapisy i rejestrować wszystkie procedury eksperymentalne, nawet jeśli czasopisma publikujące nie pytają o takie szczegóły. Nie powinien zbytnio martwić się niską mocą. Nawet wynik nieinformacyjny (= odrzucona hipoteza zerowa) dodałby więcej estymatorów do dalszych badań, o ile można sobie pozwolić na wystarczającą jakość samych danych.

ppp

Horst Grünbusch
źródło
Horst, wydajesz się odpowiadać na inne pytanie niż zadano.
Alexis,
1
Pamiętaj, że pytanie dotyczy FDR między badaniami, a nie w obrębie. Wymaga to pewnego rodzaju bayesowskiego podejścia w celu uzyskania akceptowalnego ogólnego poziomu prawidłowych decyzji. Moja odpowiedź podkreśla, że ​​ogólna ocena jest raczej dokonywana przez agregację danych i szacunków badań, a nie decyzji, więc problem rozwiązuje się, tworząc ogromne „badanie wirtualne”, o ile dane (nie decyzje) z pojedynczych badań są wiarygodne.
Horst Grünbusch
6

αα=.05

α

p<0,05p0,05pp0,05p-wartość znów byłaby mała).

α

ameba mówi Przywróć Monikę
źródło
5

To jest właściwie głębokie pytanie filozoficzne. Sam jestem badaczem i zastanawiałem się nad tym. Ale przed odpowiedzią przejrzyjmy dokładnie, jaki jest odsetek fałszywych wykrytych błędów.

FDR w porównaniu z P P jest po prostu miarą prawdopodobieństwa stwierdzenia, że ​​istnieje różnica, gdy w ogóle nie ma żadnej różnicy i nie uwzględnia mocy. Z drugiej strony FDR bierze pod uwagę moc. Jednak aby obliczyć FDR, musimy przyjąć założenie: jakie jest prawdopodobieństwo, że otrzymamy prawdziwy wynik dodatni? To jest coś, do czego nigdy nie będziemy mieli dostępu, chyba że w wysoce wymyślnych okolicznościach. Właściwie mówiłem o tym niedawno podczas seminarium, które wygłosiłem. Można znaleźć slajdy tutaj .

Oto rysunek z artykułu Davida Colquhouna na ten temat:

Calquhoun 2014

Wskaźnik fałszywego wykrycia jest obliczany przez podzielenie liczby wyników fałszywie dodatnich przez sumę wyników prawdziwie pozytywnych i fałszywych alarmów (w przykładzie 495 / (80 + 495) x 100% = 86%!

Trochę więcej na P

Przyjrzyj się slajdom z mojego wykładu. Omówiłem fakt, że wartości P pochodzą z rozkładu. Co oznacza, że ​​zawsze będzie szansa, że ​​znajdziesz fałszywy pozytyw. Tak więc znaczenia statystycznego nie należy uważać za absolutną prawdę. Twierdzę, że coś, co jest istotne statystycznie, należy interpretować jako: „Hej, może tu być coś interesującego, nie jestem pewien, ktoś przejdzie podwójną kontrolę!” Stąd podstawowe pojęcie odtwarzalności w badaniach!

Więc co robimy? Ciekawym punktem na powyższym rysunku i mojej analizie P i FDR jest to, że jedynym sposobem na osiągnięcie jasnego zrozumienia jest 1) odtwarzalność i 2) publikowanie wszystkich wyników. Obejmuje to wyniki negatywne (chociaż wyniki negatywne są trudne do interpretacji). Jednak wnioski, które wyciągamy z naszych wyników, muszą być odpowiednie. Niestety wielu czytelników i badaczy nie do końca rozumie pojęcia P i FDR. Uważam, że obowiązkiem czytelników jest odpowiednia analiza wyników ... co oznacza, że ​​ciężar spoczywa ostatecznie na nauczycielach. W końcu wartość P wynosząca 0,000000001 jest bez znaczenia, jeśli „rozpowszechnienie” (patrz rysunek powyżej) wynosi 0 (w takim przypadku wskaźnik fałszywych odkryć wyniósłby 100%).

Jako badacz wydawców uważaj, aby w pełni zrozumieć swoje wyniki i zgłaszać roszczenia tylko tak silnie, jak tylko zechcesz. Jeśli okaże się, że FDR dla konkretnego badania wynosi 86% (jak w powyższym przykładzie), powinieneś bardzo uważać na swoje interpretacje. Z drugiej strony, jeśli FDR jest wystarczająco mały dla Twojej wygody ... nadal uważaj na swoje interpretacje.

Mam nadzieję, że wszystko tutaj było jasne. To bardzo ważna koncepcja i cieszę się, że poruszyłeś dyskusję. Daj mi znać, jeśli masz jakieś pytania / wątpliwości / itp.

justanotherbrain
źródło
1
@Alexis Nie ma czegoś takiego jak przerośnięte badanie! Dopóki zauważony jest rozmiar efektu, nie można zaszkodzić dokładniejszemu określeniu wielkości efektu poprzez przeprowadzenie badania z większą wielkością próby. Wydaje mi się, że pojęcie „obezwładnienia” wiąże się z pustym pojęciem, że można wyciągać użyteczne wnioski z patrzenia na wartość P bez patrzenia na obserwowane dane.
Michael Lew
1
@MichaelLew: Masz rację, że problem obezwładnienia można (częściowo) rozwiązać, jeśli zawsze uwzględnisz szacowany rozmiar efektu wraz z wartością p. Jest to jednak nieco sprzeczne z celem wartości p: Mapowanie estymatora efektu do wyników testu binarnego „efekt obecny / nieobecny” tak, że poziom błędu typu I jest poprawny. Również twoja ocena, jaki może być odpowiedni rozmiar efektu, może się zmienić, gdy zobaczysz wartość p. Tak więc najlepiej jest rozwiązać ten problem, wcześniej ustalając odpowiedni zakres efektów, a następnie porównując go z badaniem CI, jak sugerowała Alexis.
Horst Grünbusch
1
θ
1
Do pewnego stopnia ... Mówiłem ściśle w odniesieniu do wnioskowania statystycznego , podczas gdy ty mówisz więcej o logice projektowania badań i ontologii tworzenia wiedzy naukowej. To powiedziawszy, uważam, że pozytywne wyniki , które nie są interpretowane przy takim protokole staranności itp., Są równie prawdopodobne, że są fałszywe jak negatywne wyniki. Nie wszystkie zjawiska wszechświata nadają się do badania w izolacji (np. Zarówno zdrowie jednostki, jak i populacji są jednocześnie chemiczne, społeczne, behawioralne itp.), Dlatego niepewności ontologiczne muszą towarzyszyć badaniom takich złożonych układów.
Alexis
2
@ HorstGrünbusch Nie uważam, by pierwotne pytanie było ustawione w kontekście hybrydowym, ponieważ dotyczy alfa i beta, a nie wartości P. Jednak odpowiedź justanotherbrain z pewnością wymagałaby starannej przeróbki, aby umieścić ją wyłącznie w frameworku Neyman & Pearson lub frameworku do testowania istotności. Fałszywe wskaźniki wykrycia naprawdę należą tylko do tych pierwszych.
Michael Lew
3

Aby pomóc w zrozumieniu zależności, stworzyłem ten wykres FDR jako funkcję wcześniejszego prawdopodobieństwa dla różnych mocy (przy alfa = 0,05). Zwróć uwagę na ten wykres, a równanie @Buckminster oblicza FDR dla wszystkich wyników z P mniejszym niż alfa. Wykres wyglądałby inaczej, gdyby wziąć pod uwagę tylko wartości P bardzo zbliżone do wartości P zaobserwowanej w jednym badaniu.

Harvey Motulsky
źródło
2
a oto wersja aplikacji Shiny (choć trochę inna): buckminster.shinyapps.io/FalseDiscoveryRate
Richard Border
1

Sugerowanie publikacji jest decyzją. Myślę, że warto przestudiować korzyści i koszty związane z tą decyzją.

1) Środowisko akademickie powszechnie popycha badaczy do publikowania większej liczby, sądząc, że różne rankingi publikacji wpłyną również na ten zapis. Możemy założyć, że bardziej prestiżowe czasopisma mogą mieć bardziej niezawodną kontrolę jakości (mam nadzieję).

2) Mogą wystąpić koszty społeczne związane ze zbyt dużą produkcją publikacji. Zasoby te można lepiej wykorzystać gdzie indziej, na przykład w badaniach stosowanych bez publikacji wyników. Niedawno pojawiła się publikacja, że ​​wiele publikacji nie jest ważnych jako źródła, ponieważ sama liczba nowych publikacji jest tak duża ... :)

http://arxiv.org/pdf/1503.01881v1.pdf

Aby indywidualny badacz numer jeden zmusił do opublikowania większej liczby i uważam, że powinny istnieć zinstytucjonalizowane kontrole jakości, które nie są zależne od poszczególnych ludzi w celu utrzymania jakości na akceptowanym poziomie.

W każdym razie wartości parametrów nie są faktami, należy je podać z uwzględnieniem różnych kosztów i korzyści związanych z liczbą opublikowanych wyników, gdy wyniki są naprawdę i / lub fałszywie znaczące.

Analityk
źródło