Próbowałem owinąć głowę wokół tego, w jaki sposób współczynnik fałszywych odkryć (FDR) powinien wpływać na wnioski poszczególnych badaczy. Na przykład, jeśli twoje badanie jest słabe, czy powinieneś zdyskontować swoje wyniki, nawet jeśli są znaczące przy ? Uwaga: mówię o FDR w kontekście badania wyników wielu badań łącznie, a nie jako metody wielokrotnych poprawek testowych.
(być może hojne) założenie, że testowanych hipotez jest rzeczywiście prawdą, FDR jest funkcją wskaźników błędu zarówno typu I, jak i typu II, jak następuje:
Jest oczywiste, że jeśli badanie jest wystarczająco słabe , nie powinniśmy ufać wynikom, nawet jeśli są one znaczące, tak bardzo, jak w przypadku badań o odpowiedniej mocy. Tak więc, jak powiedzieliby niektórzy statystycy , istnieją okoliczności, w których „na dłuższą metę” możemy opublikować wiele istotnych wyników, które są fałszywe, jeśli zastosujemy się do tradycyjnych wytycznych. Jeśli zbiór badań charakteryzuje się konsekwentnie słabymi wynikami badań (np. Literatura dotycząca interakcji genów środowisku z poprzedniej dekady ), można nawet podejrzewać znaczące wyniki.
Stosowanie pakietów R extrafont
, ggplot2
i xkcd
myślę, że to może być z pożytkiem rozumiana jako kwestii perspektywy:
Biorąc pod uwagę te informacje, co powinien zrobić indywidualny badacz ? Jeśli zgaduję, jaki powinien być rozmiar badanego efektu (a zatem oszacowanie , biorąc pod uwagę wielkość mojej próby), czy powinienem dostosować mój poziom do momentu, aż FDR = 0,05? Czy powinienem publikować wyniki na poziomie , nawet jeśli moje badania są słabe i pozostawiam rozważenie FDR konsumentom literatury?α α = 0,05
Wiem, że jest to temat, który był często dyskutowany, zarówno na tej stronie, jak i w literaturze statystycznej, ale nie mogę znaleźć konsensusu w tej sprawie.
EDYCJA: W odpowiedzi na komentarz @ amoeba, FDR można wyprowadzić ze standardowej tabeli awaryjności współczynnika błędów typu I / typu II (wybacz jego brzydotę):
| |Finding is significant |Finding is insignificant |
|:---------------------------|:----------------------|:------------------------|
|Finding is false in reality |alpha |1 - alpha |
|Finding is true in reality |1 - beta |beta |
Tak więc, jeśli przedstawiono nam znaczące odkrycie (kolumna 1), prawdopodobieństwo, że jest to fałsz, w rzeczywistości wynosi alfa ponad sumę kolumny.
Ale tak, możemy zmodyfikować naszą definicję FDR, aby odzwierciedlić (wcześniejsze) prawdopodobieństwo, że dana hipoteza jest prawdziwa, chociaż moc badania nadal odgrywa pewną rolę:
źródło
Odpowiedzi:
Zamiast tego ważne jest, aby wszystkie badania były dostępne, bez względu na poziomy mocy lub znaczące wyniki. W rzeczywistości zły nawyk publikowania jedynie znaczących wyników i ukrywania nieistotnych wyników prowadzi do stronniczości publikacji i psuje ogólny zapis wyników naukowych.
Tak więc indywidualny badacz powinien przeprowadzić badanie w odtwarzalny sposób, przechowywać wszystkie zapisy i rejestrować wszystkie procedury eksperymentalne, nawet jeśli czasopisma publikujące nie pytają o takie szczegóły. Nie powinien zbytnio martwić się niską mocą. Nawet wynik nieinformacyjny (= odrzucona hipoteza zerowa) dodałby więcej estymatorów do dalszych badań, o ile można sobie pozwolić na wystarczającą jakość samych danych.
źródło
źródło
To jest właściwie głębokie pytanie filozoficzne. Sam jestem badaczem i zastanawiałem się nad tym. Ale przed odpowiedzią przejrzyjmy dokładnie, jaki jest odsetek fałszywych wykrytych błędów.
FDR w porównaniu z P P jest po prostu miarą prawdopodobieństwa stwierdzenia, że istnieje różnica, gdy w ogóle nie ma żadnej różnicy i nie uwzględnia mocy. Z drugiej strony FDR bierze pod uwagę moc. Jednak aby obliczyć FDR, musimy przyjąć założenie: jakie jest prawdopodobieństwo, że otrzymamy prawdziwy wynik dodatni? To jest coś, do czego nigdy nie będziemy mieli dostępu, chyba że w wysoce wymyślnych okolicznościach. Właściwie mówiłem o tym niedawno podczas seminarium, które wygłosiłem. Można znaleźć slajdy tutaj .
Oto rysunek z artykułu Davida Colquhouna na ten temat:
Wskaźnik fałszywego wykrycia jest obliczany przez podzielenie liczby wyników fałszywie dodatnich przez sumę wyników prawdziwie pozytywnych i fałszywych alarmów (w przykładzie 495 / (80 + 495) x 100% = 86%!
Trochę więcej na P
Przyjrzyj się slajdom z mojego wykładu. Omówiłem fakt, że wartości P pochodzą z rozkładu. Co oznacza, że zawsze będzie szansa, że znajdziesz fałszywy pozytyw. Tak więc znaczenia statystycznego nie należy uważać za absolutną prawdę. Twierdzę, że coś, co jest istotne statystycznie, należy interpretować jako: „Hej, może tu być coś interesującego, nie jestem pewien, ktoś przejdzie podwójną kontrolę!” Stąd podstawowe pojęcie odtwarzalności w badaniach!
Więc co robimy? Ciekawym punktem na powyższym rysunku i mojej analizie P i FDR jest to, że jedynym sposobem na osiągnięcie jasnego zrozumienia jest 1) odtwarzalność i 2) publikowanie wszystkich wyników. Obejmuje to wyniki negatywne (chociaż wyniki negatywne są trudne do interpretacji). Jednak wnioski, które wyciągamy z naszych wyników, muszą być odpowiednie. Niestety wielu czytelników i badaczy nie do końca rozumie pojęcia P i FDR. Uważam, że obowiązkiem czytelników jest odpowiednia analiza wyników ... co oznacza, że ciężar spoczywa ostatecznie na nauczycielach. W końcu wartość P wynosząca 0,000000001 jest bez znaczenia, jeśli „rozpowszechnienie” (patrz rysunek powyżej) wynosi 0 (w takim przypadku wskaźnik fałszywych odkryć wyniósłby 100%).
Jako badacz wydawców uważaj, aby w pełni zrozumieć swoje wyniki i zgłaszać roszczenia tylko tak silnie, jak tylko zechcesz. Jeśli okaże się, że FDR dla konkretnego badania wynosi 86% (jak w powyższym przykładzie), powinieneś bardzo uważać na swoje interpretacje. Z drugiej strony, jeśli FDR jest wystarczająco mały dla Twojej wygody ... nadal uważaj na swoje interpretacje.
Mam nadzieję, że wszystko tutaj było jasne. To bardzo ważna koncepcja i cieszę się, że poruszyłeś dyskusję. Daj mi znać, jeśli masz jakieś pytania / wątpliwości / itp.
źródło
Aby pomóc w zrozumieniu zależności, stworzyłem ten wykres FDR jako funkcję wcześniejszego prawdopodobieństwa dla różnych mocy (przy alfa = 0,05). Zwróć uwagę na ten wykres, a równanie @Buckminster oblicza FDR dla wszystkich wyników z P mniejszym niż alfa. Wykres wyglądałby inaczej, gdyby wziąć pod uwagę tylko wartości P bardzo zbliżone do wartości P zaobserwowanej w jednym badaniu.
źródło
Sugerowanie publikacji jest decyzją. Myślę, że warto przestudiować korzyści i koszty związane z tą decyzją.
1) Środowisko akademickie powszechnie popycha badaczy do publikowania większej liczby, sądząc, że różne rankingi publikacji wpłyną również na ten zapis. Możemy założyć, że bardziej prestiżowe czasopisma mogą mieć bardziej niezawodną kontrolę jakości (mam nadzieję).
2) Mogą wystąpić koszty społeczne związane ze zbyt dużą produkcją publikacji. Zasoby te można lepiej wykorzystać gdzie indziej, na przykład w badaniach stosowanych bez publikacji wyników. Niedawno pojawiła się publikacja, że wiele publikacji nie jest ważnych jako źródła, ponieważ sama liczba nowych publikacji jest tak duża ... :)
http://arxiv.org/pdf/1503.01881v1.pdf
Aby indywidualny badacz numer jeden zmusił do opublikowania większej liczby i uważam, że powinny istnieć zinstytucjonalizowane kontrole jakości, które nie są zależne od poszczególnych ludzi w celu utrzymania jakości na akceptowanym poziomie.
W każdym razie wartości parametrów nie są faktami, należy je podać z uwzględnieniem różnych kosztów i korzyści związanych z liczbą opublikowanych wyników, gdy wyniki są naprawdę i / lub fałszywie znaczące.
źródło