Benjamini i Hochberg opracowali pierwszą (i nadal chyba najczęściej stosowaną) metodę kontrolowania wskaźnika fałszywych odkryć (FDR).
Chcę zacząć od szeregu wartości P, z których każda służy do innego porównania, i zdecydować, które są wystarczająco niskie, aby nazwać je „odkryciem”, kontrolując FDR do określonej wartości (powiedzmy 10%). Jednym z założeń zwykłej metody jest to, że zestaw porównań jest albo niezależny, albo ma „zależność dodatnią”, ale nie mogę dokładnie zrozumieć, co to wyrażenie oznacza w kontekście analizy zestawu wartości P.
multiple-comparisons
non-independent
false-discovery-rate
Harvey Motulsky
źródło
źródło
Odpowiedzi:
Z pytaniem, a zwłaszcza komentarze do innych odpowiedzi, wydaje mi się, że jesteś głównie mylić o „duży obraz” tutaj: mianowicie, co robi „pozytywna zależność” odnoszą się w tym kontekście w ogóle - w przeciwieństwie do tego, co to techniczne znaczenie warunku PRDS. Opowiem więc o dużym obrazie.
Wielkie zdjęcie
Wyobraź sobie, że jesteś testowania null hipotezy, i wyobrazić sobie, że wszystkie z nich są prawdziwe. Każdy z -values jest zmienną losową; powtarzanie eksperymentu w kółko dawałoby za każdym razem inną wartość , więc można mówić o rozkładzie wartości (poniżej wartości zerowej). Dobrze wiadomo, że dla każdego testu rozkład wartości poniżej wartości zerowej musi być jednorodny; więc w przypadku testowania wielokrotnego wszystkie rozkładów krańcowych wartości będzie jednakowych.N p p p p N pN. N. p p p p N. p
Jeśli wszystkie dane i wszystkie testy są od siebie niezależne, to łączny rozkład wartości również będzie równomierny. Będzie to prawdą, np. W klasycznej sytuacji „żelkowej fasoli”, gdy testuje się kilka niezależnych rzeczy:N pN. N. p
Nie musi tak być. Każda para wartości może w zasadzie być skorelowana, pozytywnie lub negatywnie, lub być zależna w bardziej skomplikowany sposób. Rozważ przetestowanie wszystkich różnic parami w średnich między czterema grupami; to jest testów. Każda z sześciu samych wartości jest równomiernie rozmieszczona. Ale wszystkie są pozytywnie skorelowane: jeśli (przy danej próbie) grupa A przez przypadek ma szczególnie niską średnią, wówczas porównanie A-B-B może dać niską wartość (byłoby to fałszywie dodatnie). Ale w tej sytuacji prawdopodobne jest, że A-vs-C, a także A-vs-D, również przyniosą niskie wartości . WięcN = 4 ⋅ 3 / 2 = 6 s s s sp N.= 4 ⋅ 3 / 2 = 6 p p p p -wartości są oczywiście niezależne, a ponadto są pozytywnie skorelowane między sobą.
To nieformalnie odnosi się do „pozytywnej zależności”.
Wydaje się, że jest to częsta sytuacja w wielu testach. Innym przykładem byłoby testowanie różnic w kilku zmiennych, które są ze sobą skorelowane. Uzyskanie znacznej różnicy w jednym z nich zwiększa szanse na uzyskanie znaczącej różnicy w innym.
Trudno jest wymyślić naturalny przykład, w którym wartości byłyby „ujemnie zależne”. @ user43849 zauważył w komentarzach powyżej, że w przypadku testów jednostronnych jest to łatwe:p
Ale do tej pory nie byłem w stanie wymyślić naturalnego przykładu z zerowymi punktami.
Dokładne matematyczne sformułowanie „pozytywnej zależności”, które gwarantuje prawidłowość procedury Benjamini-Hochberg, jest raczej trudne. Jak wspomniano w innych odpowiedziach, głównym odniesieniem jest Benjamini i Yekutieli 2001 ; pokazują, że właściwość PRDS („zależność regresji dodatniej od każdego z podzbioru”) pociąga za sobą procedurę Benjamini-Hochberg. Jest to zrelaksowana forma właściwości PRD („zależność od regresji dodatniej”), co oznacza, że PRD implikuje PRDS, a zatem pociąga za sobą również procedurę Benjamini-Hochberg.
Definicje PRD / PRDS znajdują się w odpowiedzi @ user43849 (+1) oraz w pracy Benjamini i Yekutieli. Definicje są raczej techniczne i nie rozumiem ich dobrze. W rzeczywistości B&Y wspomina także o kilku innych powiązanych koncepcjach: wielowymiarowej całkowitej pozytywności rzędu drugiego (MTP2) i pozytywnym skojarzeniu. Według B&Y są one powiązane w następujący sposób (schemat jest mój):
MTP2 implikuje PRD, co implikuje PRDS, który gwarantuje poprawność procedury BH. PRD oznacza również PA, ale PA PRDS.≠
źródło
Świetne pytanie! Cofnijmy się i zrozummy, co zrobił Bonferroni i dlaczego Benjamini i Hochberg musieli opracować alternatywę.
W ostatnich latach stało się konieczne i obowiązkowe przeprowadzenie procedury zwanej wielokrotną korektą testu. Wynika to z rosnącej liczby testów przeprowadzanych jednocześnie z naukami o wysokiej przepustowości, szczególnie w dziedzinie genetyki wraz z pojawieniem się badań asocjacyjnych całego genomu (GWAS). Przepraszam za odniesienie do genetyki, ponieważ jest to moja dziedzina pracy. Jeśli wykonujemy 1 000 000 testów jednocześnie przy , spodziewalibyśmy się fałszywie dodatnich. Jest to absurdalnie duże i dlatego musimy kontrolować poziom, na którym ocenia się znaczenie. Korekta bonferroniego, czyli dzielenie progu akceptacji (0,05) przez liczbę niezależnych testów koryguje wskaźnik błędu rodzinnego ( ).50 , 000 ( 0,05 / M ), M W E RP.= 0,05 50 , 000 ( 0,05 / M) faW.miR
To prawda, ponieważ FWER jest związana z szybkością testu mądry błędów ( ) przez równanie . Oznacza to, że 100 procent minus 1 odejmuje testowy poziom błędu podniesiony do potęgi liczby wykonanych niezależnych testów. Przyjmując założenie, że daje , co jest wartością P akceptacji skorygowaną dla M całkowicie niezależną testy.F W E R = 1 - ( 1 - T W E R ) M ( 1 - 0,05 ) 1 / M = 1 - 0,05T.W.miR faW.miR = 1 - ( 1 - TW.miR )M. TWER≈0,05( 1 - 0,05 )1 / M= 1 - 0,05M. T.W.miR ≈ 0,05M.
Problem, który napotykamy teraz, podobnie jak Benjamini i Hochberg, polega na tym, że nie wszystkie testy są całkowicie niezależne. Dlatego korekcja Bonferroniego, choć solidna i elastyczna, jest nadmierną korektą . Rozważmy przypadek genetyki, w której dwa geny są połączone w przypadku zwanym nierównowagą sprzężenia; to znaczy, gdy jeden gen ma mutację, inny jest bardziej podatny na ekspresję. Nie są to oczywiście niezależne testy, choć zakłada się , że w korekcji bonferroniego są . To tutaj zaczynamy dostrzegać, że dzielenie wartości P przez M tworzy sztucznie niski próg z powodu założonych niezależnych testów, które naprawdę na siebie wpływają, ergo tworząc M, które jest zbyt duże dla naszej rzeczywistej sytuacji, w której rzeczy nie są niezależny.
Procedura sugerowana przez Benjaminiego i Hochberga, a wzmocniona przez Jekutieli (i wielu innych) jest bardziej liberalna niż Bonferroni, a w rzeczywistości korekta Bonferroniego jest stosowana tylko w największych badaniach. Wynika to z faktu, że we FDR zakładamy pewną współzależność ze strony testów, a zatem M, które jest zbyt duże i nierealne i pozbywa się wyników, na których nam zależy. Dlatego w przypadku 1000 testów, które nie są niezależne, prawdziwym M nie będzie 1000, ale coś mniejszego z powodu zależności. Zatem, gdy dzielimy 0,05 przez 1000, próg jest zbyt surowy i unika niektórych testów, które mogą być interesujące.
Nie jestem pewien, czy zależy ci na mechanice kontrolowania zależności, ale jeśli tak, to połączyłem dokument Yekutieli w celach informacyjnych. Załączę też kilka innych rzeczy dla twojej informacji i ciekawości.
Mam nadzieję, że to pomogło w jakiś sposób, jeśli coś podrobiłem, proszę daj mi znać.
~ ~ ~
Referencje
Dokument Yekutieli na temat pozytywnych zależności - http://www.math.tau.ac.il/~ybenja/MyPapers/benjamini_yekutieli_ANNSTAT2001.pdf
(patrz 1.3 - Problem.)
Wyjaśnienie Bonferroni i innych interesujących rzeczy - recenzje Nature Genetics. Moc statystyczna i testy istotności w dużych badaniach genetycznych - Pak C Sham i Shaun M Purcell
(patrz ramka 3.)
http://en.wikipedia.org/wiki/Familywise_error_rate
EDYTOWAĆ:
W mojej poprzedniej odpowiedzi nie zdefiniowałem bezpośrednio pozytywnej zależności, o którą pytano. W artykule Yekutieli sekcja
2.2
zatytułowana jest Zależność pozytywna i sugeruję to, ponieważ jest bardzo szczegółowe. Uważam jednak, że możemy uczynić to nieco bardziej zwięzłym.Podsumowując, właściwość dodatniej zależności jest tak naprawdę własnością dodatniej zależności od regresji całego naszego zestawu statystyk testowych od naszego zestawu prawdziwych zerowych statystyk testowych, a my kontrolujemy dla FDR równego 0,05; dlatego, gdy wartości P idą od dołu do góry (procedura step-up), zwiększają się prawdopodobieństwo bycia częścią zbioru zerowego.
Moja poprzednia odpowiedź w komentarzach na temat macierzy kowariancji była niepoprawna, tylko trochę niejasna. Mam nadzieję, że to pomoże trochę więcej.
źródło
Uważam, że ten przedruk był pomocny w zrozumieniu znaczenia. Trzeba powiedzieć, że oferuję tę odpowiedź nie jako ekspert w temacie, ale jako próbę zrozumienia, aby zostać sprawdzonym i potwierdzonym przez społeczność.
Dzięki Amoebie za bardzo pomocne uwagi na temat różnicy między PRD a PRDS, patrz komentarze
Edytowano, aby dodać:
Oto domniemany przykład systemu, który nie jest PRDS (kod R poniżej). Logika jest taka, że gdy próbki aib są bardzo podobne, bardziej prawdopodobne jest, że ich produkt będzie nietypowy. Podejrzewam, że ten efekt (a nie nierównomierność wartości p poniżej zera dla
(a*b), (c*d)
porównania) napędza ujemną korelację wartości p, ale nie jestem pewien. Ten sam efekt pojawia się, jeśli wykonamy test t dla drugiego porównania (zamiast Wilcoxona), ale rozkład wartości p nadal nie jest jednolity, prawdopodobnie z powodu naruszenia założenia normalności.źródło
W swoim artykule Benjamini i Yekutieli podają kilka przykładów tego, w jaki sposób pozytywna zależność od regresji (PRD) różni się od pozytywnego powiązania. Procedura kontroli FDR opiera się na słabszej formie PRD, którą nazywają PRDS (tj. PRD dla każdego z podzbioru zmiennych).
Pozytywna zależność została pierwotnie zaproponowana przez Lehmanna w ustawieniu dwuwymiarowym , ale wielowariantowa wersja tego pojęcia, znana jako zależność od regresji dodatniej, jest tym, co jest istotne w testach wielokrotnych.
Oto odpowiedni fragment str.6
źródło
Dodatnia zależność w tym przypadku oznacza, że zestaw testów jest dodatnio skorelowany. Chodzi o to, że jeśli zmienne w zestawie testów, dla których masz wartości P, są dodatnio skorelowane, to każda ze zmiennych nie jest niezależna .
Jeśli na przykład pomyślisz o korekcie wartości p Bonferroniego, możesz zagwarantować, że poziom błędu typu 1 jest mniejszy niż 10% w porównaniu ze 100 statystycznie niezależnymi testami, ustawiając próg istotności na 0,1 / 100 = 0,001. Ale co jeśli każdy z tych 100 testów jest w jakiś sposób skorelowany? Zatem tak naprawdę nie wykonałeś 100 osobnych testów.
We FDR pomysł różni się nieco od korekty Bonferroniego. Chodzi o to, aby zagwarantować, że tylko pewien procent (powiedzmy 10%) rzeczy, które uznajesz za znaczące, są fałszywie uznane za znaczące. Jeśli masz skorelowane markery (zależność dodatnia) w zestawie danych, wartość FDR jest wybierana na podstawie całkowitej liczby przeprowadzanych testów (ale rzeczywista liczba statystycznie niezależnych testów jest mniejsza). W ten sposób bezpieczniej jest wnioskować, że odsetek fałszywych odkryć fałszywie deklaruje znaczące 10% lub mniej testów w twoim zestawie wartości P.
W tym rozdziale książki znajduje się dyskusja na temat pozytywnej zależności.
źródło