Znaczenie „dodatniej zależności” jako warunek zastosowania zwykłej metody kontroli FDR

36

Benjamini i Hochberg opracowali pierwszą (i nadal chyba najczęściej stosowaną) metodę kontrolowania wskaźnika fałszywych odkryć (FDR).

Chcę zacząć od szeregu wartości P, z których każda służy do innego porównania, i zdecydować, które są wystarczająco niskie, aby nazwać je „odkryciem”, kontrolując FDR do określonej wartości (powiedzmy 10%). Jednym z założeń zwykłej metody jest to, że zestaw porównań jest albo niezależny, albo ma „zależność dodatnią”, ale nie mogę dokładnie zrozumieć, co to wyrażenie oznacza w kontekście analizy zestawu wartości P.

Harvey Motulsky
źródło
1
Dzięki za przyznanie nagrody za moją odpowiedź, Harvey! Czy powiedziałbyś, że to rozwiązuje ten problem, czy szukasz bardziej szczegółowej ekspozycji? Zauważyłem, że nie przyjąłeś jeszcze żadnej odpowiedzi, dlatego chciałbym wyjaśnić. Dzięki. Być może możesz skomentować lub edytować swoje Q, aby wyjaśnić, co nadal chciałbyś wyjaśnić.
ameba mówi Przywróć Monikę
2
@ameba. Ostateczny termin nagród przypadł mi, a twoja odpowiedź była jak dotąd najlepsza. Szczerze mówiąc, w tej chwili nigdy nie przyszło mi do głowy, że przyznanie nagrody również nie akceptuje odpowiedzi. Ale wiem, że są różne (winię jet lag). Ale pełna odpowiedź naprawdę musi zawierać realistyczne przykłady, w których zbiór wartości P zarówno wykazuje pozytywną zależność, jak i nie. Wstrzymam się od przyjmowania odpowiedzi przez tydzień w nadziei, że ktoś może podać oba rodzaje przykładów, więc znaczenie jest jasne.
Harvey Motulsky
Prawdopodobnie nie jest to naprawdę satysfakcjonujący przykład, ale naprawdę łatwo jest wymyślić wartości pz i bez dodatniej zależności, jeśli pomyślimy o przeprowadzeniu jednostronnych testów zmiennych skorelowanych. Wyobraź sobie, że testuję, czy A = 0, a także czy B = 0 w porównaniu z jednostronnymi alternatywami (A> 0 i B> 0). Wyobraź sobie, że B zależy od A. Na przykład wyobraź sobie, że chcę wiedzieć, czy populacja zawiera więcej kobiet niż mężczyzn, a także czy populacja zawiera więcej jajników niż jąder. Wyraźna znajomość wartości p pierwszego pytania zmienia nasze oczekiwania dotyczące wartości p dla drugiego
Jacob Socolar
Dzięki, Harvey. Mam nadzieję, że było jasne, że nie próbowałem nakłaniać cię do zaakceptowania mojej odpowiedzi (!!), ale raczej do wyjaśnienia, jakiej odpowiedzi szukasz w tym wątku i co nadal chciałbyś wyjaśnić. Tak naprawdę nie jestem ekspertem w tym temacie, staram się to po prostu zrozumieć.
ameba mówi Przywróć Monikę
Obie wartości p zmieniają się w tym samym kierunku, a to jest PRD. Ale jeśli zamiast tego przetestuję drugą hipotezę, że populacja 2 ma więcej jąder niż jajników, nasze oczekiwanie na drugą wartość p maleje wraz ze wzrostem pierwszej wartości p. To nie jest PRD.
Jacob Socolar

Odpowiedzi:

20

Z pytaniem, a zwłaszcza komentarze do innych odpowiedzi, wydaje mi się, że jesteś głównie mylić o „duży obraz” tutaj: mianowicie, co robi „pozytywna zależność” odnoszą się w tym kontekście w ogóle - w przeciwieństwie do tego, co to techniczne znaczenie warunku PRDS. Opowiem więc o dużym obrazie.

Wielkie zdjęcie

Wyobraź sobie, że jesteś testowania null hipotezy, i wyobrazić sobie, że wszystkie z nich są prawdziwe. Każdy z -values jest zmienną losową; powtarzanie eksperymentu w kółko dawałoby za każdym razem inną wartość , więc można mówić o rozkładzie wartości (poniżej wartości zerowej). Dobrze wiadomo, że dla każdego testu rozkład wartości poniżej wartości zerowej musi być jednorodny; więc w przypadku testowania wielokrotnego wszystkie rozkładów krańcowych wartości będzie jednakowych.N p p p p N pNN ppppNp

Jeśli wszystkie dane i wszystkie testy są od siebie niezależne, to łączny rozkład wartości również będzie równomierny. Będzie to prawdą, np. W klasycznej sytuacji „żelkowej fasoli”, gdy testuje się kilka niezależnych rzeczy:N pNNp

zielone żelki

Nie musi tak być. Każda para wartości może w zasadzie być skorelowana, pozytywnie lub negatywnie, lub być zależna w bardziej skomplikowany sposób. Rozważ przetestowanie wszystkich różnic parami w średnich między czterema grupami; to jest testów. Każda z sześciu samych wartości jest równomiernie rozmieszczona. Ale wszystkie są pozytywnie skorelowane: jeśli (przy danej próbie) grupa A przez przypadek ma szczególnie niską średnią, wówczas porównanie A-B-B może dać niską wartość (byłoby to fałszywie dodatnie). Ale w tej sytuacji prawdopodobne jest, że A-vs-C, a także A-vs-D, również przyniosą niskie wartości . WięcN = 4 3 / 2 = 6 s s s spN=43/2=6pppp-wartości są oczywiście niezależne, a ponadto są pozytywnie skorelowane między sobą.

To nieformalnie odnosi się do „pozytywnej zależności”.

Wydaje się, że jest to częsta sytuacja w wielu testach. Innym przykładem byłoby testowanie różnic w kilku zmiennych, które są ze sobą skorelowane. Uzyskanie znacznej różnicy w jednym z nich zwiększa szanse na uzyskanie znaczącej różnicy w innym.

Trudno jest wymyślić naturalny przykład, w którym wartości byłyby „ujemnie zależne”. @ user43849 zauważył w komentarzach powyżej, że w przypadku testów jednostronnych jest to łatwe:p

Wyobraź sobie, że testuję, czy A = 0, a także czy B = 0 w porównaniu z jednostronnymi alternatywami (A> 0 i B> 0). Wyobraź sobie, że B zależy od A. Na przykład wyobraź sobie, że chcę wiedzieć, czy populacja zawiera więcej kobiet niż mężczyzn, a także czy populacja zawiera więcej jajników niż jąder. Wyraźna znajomość wartości p pierwszego pytania zmienia nasze oczekiwania dotyczące wartości p drugiego. Obie wartości p zmieniają się w tym samym kierunku, a to jest PRD. Ale jeśli zamiast tego przetestuję drugą hipotezę, że populacja 2 ma więcej jąder niż jajników, nasze oczekiwanie na drugą wartość p maleje wraz ze wzrostem pierwszej wartości p. To nie jest PRD.

Ale do tej pory nie byłem w stanie wymyślić naturalnego przykładu z zerowymi punktami.


Dokładne matematyczne sformułowanie „pozytywnej zależności”, które gwarantuje prawidłowość procedury Benjamini-Hochberg, jest raczej trudne. Jak wspomniano w innych odpowiedziach, głównym odniesieniem jest Benjamini i Yekutieli 2001 ; pokazują, że właściwość PRDS („zależność regresji dodatniej od każdego z podzbioru”) pociąga za sobą procedurę Benjamini-Hochberg. Jest to zrelaksowana forma właściwości PRD („zależność od regresji dodatniej”), co oznacza, że ​​PRD implikuje PRDS, a zatem pociąga za sobą również procedurę Benjamini-Hochberg.

Definicje PRD / PRDS znajdują się w odpowiedzi @ user43849 (+1) oraz w pracy Benjamini i Yekutieli. Definicje są raczej techniczne i nie rozumiem ich dobrze. W rzeczywistości B&Y wspomina także o kilku innych powiązanych koncepcjach: wielowymiarowej całkowitej pozytywności rzędu drugiego (MTP2) i pozytywnym skojarzeniu. Według B&Y są one powiązane w następujący sposób (schemat jest mój):

PRD, PRDS, MTP2 i PA

MTP2 implikuje PRD, co implikuje PRDS, który gwarantuje poprawność procedury BH. PRD oznacza również PA, ale PA PRDS.

ameba mówi Przywróć Monikę
źródło
Czy przykładem negatywnej zależności byłyby testy par post hoc następujące po powiedzmy jednokierunkowej ANOVA trzech grup, gdzie , ale , podczas gdy , i , więc podczas ma mniejsze szanse na odrzucenie (ponieważ pod ), ale z powodu zależności jest bardziej prawdopodobne, że odrzuci? ˉ x B < μ B ˉ x Aμ A ˉ x Cμ C p A  vs.  B H 0 | ˉ x A - ˉ x B | < | ˉ x B - ˉ x C | p B  vs.  CμA<μB<μCx¯B<μBx¯AμAx¯CμCpA vs. BH0 |x¯ZA-x¯b|<|x¯b-x¯do|pb vs. do
Alexis,
1
@Alexis Sam myślałem w tym kierunku, ale nie sądzę, że to działa, ponieważ musimy rozważyć, co dzieje się pod wartością zerową . W tym przypadku wartością zerową jest to, że , więc twoje rozumowanie się załamuje. μA=μB=μdo
ameba mówi Przywróć Monikę
Tak więc, jeśli trudno jest pomyśleć o sytuacjach zależności ujemnej, wówczas procedura Benjamini-Hochberg jest ważna w sytuacjach takich jak testy par post hoc po odrzuceniu omnibusowej zerowej hipotezy dotyczącej niezależnych grup (np. Jednokierunkowo niezablokowana ANOVA, Q Cochrana, Kruskala- Wallis itp.)?
Alexis,
@Alexis Uważam, że to prawda, tak. Nadal próbuję wymyślić naturalny przykład z negatywną zależnością ...
amoeba mówi Przywróć Monikę
SKAŁA! Ty chodź dziewczyno! :) (Dla pozbawionego płci znaczenia słowa „dziewczyna”;).
Alexis,
18

Świetne pytanie! Cofnijmy się i zrozummy, co zrobił Bonferroni i dlaczego Benjamini i Hochberg musieli opracować alternatywę.

W ostatnich latach stało się konieczne i obowiązkowe przeprowadzenie procedury zwanej wielokrotną korektą testu. Wynika to z rosnącej liczby testów przeprowadzanych jednocześnie z naukami o wysokiej przepustowości, szczególnie w dziedzinie genetyki wraz z pojawieniem się badań asocjacyjnych całego genomu (GWAS). Przepraszam za odniesienie do genetyki, ponieważ jest to moja dziedzina pracy. Jeśli wykonujemy 1 000 000 testów jednocześnie przy , spodziewalibyśmy się fałszywie dodatnich. Jest to absurdalnie duże i dlatego musimy kontrolować poziom, na którym ocenia się znaczenie. Korekta bonferroniego, czyli dzielenie progu akceptacji (0,05) przez liczbę niezależnych testów koryguje wskaźnik błędu rodzinnego ( ).50 , 000 ( 0,05 / M ), M W E RP.=0,0550,000(0,05/M.)faW.miR

To prawda, ponieważ FWER jest związana z szybkością testu mądry błędów ( ) przez równanie . Oznacza to, że 100 procent minus 1 odejmuje testowy poziom błędu podniesiony do potęgi liczby wykonanych niezależnych testów. Przyjmując założenie, że daje , co jest wartością P akceptacji skorygowaną dla M całkowicie niezależną testy.F W E R = 1 - ( 1 - T W E R ) M ( 1 - 0,05 ) 1 / M = 1 - 0,05T.W.miRfaW.miR=1-(1-T.W.miR)M. TWER0,05(1-0,05)1/M.=1-0,05M.T.W.miR0,05M.

Problem, który napotykamy teraz, podobnie jak Benjamini i Hochberg, polega na tym, że nie wszystkie testy są całkowicie niezależne. Dlatego korekcja Bonferroniego, choć solidna i elastyczna, jest nadmierną korektą . Rozważmy przypadek genetyki, w której dwa geny są połączone w przypadku zwanym nierównowagą sprzężenia; to znaczy, gdy jeden gen ma mutację, inny jest bardziej podatny na ekspresję. Nie są to oczywiście niezależne testy, choć zakłada się , że w korekcji bonferroniego są . To tutaj zaczynamy dostrzegać, że dzielenie wartości P przez M tworzy sztucznie niski próg z powodu założonych niezależnych testów, które naprawdę na siebie wpływają, ergo tworząc M, które jest zbyt duże dla naszej rzeczywistej sytuacji, w której rzeczy nie są niezależny.

Procedura sugerowana przez Benjaminiego i Hochberga, a wzmocniona przez Jekutieli (i wielu innych) jest bardziej liberalna niż Bonferroni, a w rzeczywistości korekta Bonferroniego jest stosowana tylko w największych badaniach. Wynika to z faktu, że we FDR zakładamy pewną współzależność ze strony testów, a zatem M, które jest zbyt duże i nierealne i pozbywa się wyników, na których nam zależy. Dlatego w przypadku 1000 testów, które nie są niezależne, prawdziwym M nie będzie 1000, ale coś mniejszego z powodu zależności. Zatem, gdy dzielimy 0,05 przez 1000, próg jest zbyt surowy i unika niektórych testów, które mogą być interesujące.

Nie jestem pewien, czy zależy ci na mechanice kontrolowania zależności, ale jeśli tak, to połączyłem dokument Yekutieli w celach informacyjnych. Załączę też kilka innych rzeczy dla twojej informacji i ciekawości.

Mam nadzieję, że to pomogło w jakiś sposób, jeśli coś podrobiłem, proszę daj mi znać.

~ ~ ~

Referencje

Dokument Yekutieli na temat pozytywnych zależności - http://www.math.tau.ac.il/~ybenja/MyPapers/benjamini_yekutieli_ANNSTAT2001.pdf

(patrz 1.3 - Problem.)

Wyjaśnienie Bonferroni i innych interesujących rzeczy - recenzje Nature Genetics. Moc statystyczna i testy istotności w dużych badaniach genetycznych - Pak C Sham i Shaun M Purcell

(patrz ramka 3.)

http://en.wikipedia.org/wiki/Familywise_error_rate

EDYTOWAĆ:

W mojej poprzedniej odpowiedzi nie zdefiniowałem bezpośrednio pozytywnej zależności, o którą pytano. W artykule Yekutieli sekcja 2.2zatytułowana jest Zależność pozytywna i sugeruję to, ponieważ jest bardzo szczegółowe. Uważam jednak, że możemy uczynić to nieco bardziej zwięzłym.

ja0ja0

PRDS

Xja0Xja0Xja0xX

P.

Podsumowując, właściwość dodatniej zależności jest tak naprawdę własnością dodatniej zależności od regresji całego naszego zestawu statystyk testowych od naszego zestawu prawdziwych zerowych statystyk testowych, a my kontrolujemy dla FDR równego 0,05; dlatego, gdy wartości P idą od dołu do góry (procedura step-up), zwiększają się prawdopodobieństwo bycia częścią zbioru zerowego.

Moja poprzednia odpowiedź w komentarzach na temat macierzy kowariancji była niepoprawna, tylko trochę niejasna. Mam nadzieję, że to pomoże trochę więcej.

Chris C.
źródło
6
Dzięki. Zapewniasz jasny przegląd kontroli rodzinnych wskaźników błędów (Bonferroni itp.) W porównaniu do kontrolowania FDR, ale nadal nie rozumiem, co oznacza „pozytywna zależność”. Rozważ, że mam 1000 wartości P, testując ekspresję 1000 różnych genów porównujących ludzi z pewną chorobą i bez niej. Używam metody BH, aby zdecydować, które z tych porównań jest „odkryciami”. Co w tym kontekście oznacza „pozytywna zależność”?
Harvey Motulsky
9
Mała, ale ważna uwaga: Bonferroni absolutnie nie przyjmuje żadnych założeń dotyczących niezależności. W rzeczywistości obejmie to poprawnie w wykluczającym się wzajemnie przypadku, który w pewnym sensie jest tak daleki od niezależności, jak to tylko możliwe. Nie jest to procedura korekcji (Sidak), który bierze na siebie niezależność i będzie silniej kontrolować FWER podstawie tego założenia. Inne aspekty tej odpowiedzi również mogą wymagać lekkich poprawek.
kardynał
2
@ChrisC Nadal nie rozumiem. „Macierz kowariancji między elementami”? Zaczynam od listy wartości P i chcę zdecydować, które są na tyle niskie, że można je nazwać „odkryciami”, które warto kontynuować (przy kontrolowanym FDR). Jakie są elementy macierzy kowariancji? Powiedzmy, że każda wartość P porównuje ekspresję określonego genu między grupami i istnieje wiele takich genów. Dla każdego genu, w teście porównuje grupy, w wyniku czego otrzymano wartość P. Co w tej sytuacji oznacza „elementy się różnią” lub „pozytywne korelacje między sobą”?
Harvey Motulsky
2
@ChrisC Dzięki. Stało się to bardziej jasne, ale nadal nie rozumiem, co to założenie oznacza. Chodzi o to, aby wiedzieć, jakie są założenia tej metody, aby wiedzieć, kiedy najprawdopodobniej ją naruszysz. Pomogłoby to wymienić niektóre scenariusze, w których założenie nie jest prawdziwe. Kiedy niższa wartość P nie byłaby powiązana z większym prawdopodobieństwem fałszywej hipotezy zerowej?
Harvey Motulsky
1
To nie odpowiada na pytanie.
Alexis
10

Uważam, że ten przedruk był pomocny w zrozumieniu znaczenia. Trzeba powiedzieć, że oferuję tę odpowiedź nie jako ekspert w temacie, ale jako próbę zrozumienia, aby zostać sprawdzonym i potwierdzonym przez społeczność.

Dzięki Amoebie za bardzo pomocne uwagi na temat różnicy między PRD a PRDS, patrz komentarze

pdopdo

  1. qdo
  2. rqrqrja<qjaja
  3. rdo

do

pp1...pn<b1...bnpdob1...bn

pjapjapjap1...pnp1...pnpja

p1...pn

pnpn<bbpn<bpn<bb

Edytowano, aby dodać:

Oto domniemany przykład systemu, który nie jest PRDS (kod R poniżej). Logika jest taka, że ​​gdy próbki aib są bardzo podobne, bardziej prawdopodobne jest, że ich produkt będzie nietypowy. Podejrzewam, że ten efekt (a nie nierównomierność wartości p poniżej zera dla (a*b), (c*d)porównania) napędza ujemną korelację wartości p, ale nie jestem pewien. Ten sam efekt pojawia się, jeśli wykonamy test t dla drugiego porównania (zamiast Wilcoxona), ale rozkład wartości p nadal nie jest jednolity, prawdopodobnie z powodu naruszenia założenia normalności.

ab <- rep(NA, 100000)  # We'll repeat the comparison many times to assess the relationships among p-values.
abcd <- rep(NA, 100000)

for(i in 1:100000){
  a <- rnorm(10)    # Draw 4 samples from identical populations.
  b <- rnorm(10)
  c <- rnorm(10)
  d <- rnorm(10)

  ab[i] <- t.test(a,b)$p.value          # We perform 2 comparisons and extract p-values
  abcd[i] <- wilcox.test((a*b),(c*d))$p.value
}

summary(lm(abcd ~ ab))    # The p-values are negatively correlated

ks.test(ab, punif)    # The p-values are uniform for the first test
ks.test(abcd, punif)   # but non-uniform for the second test.
hist(abcd)
Jacob Socolar
źródło
Przepraszam, ale tak naprawdę nie podążam za tym.
Harvey Motulsky
Czy nowy ostatni akapit w ogóle to wyjaśnia?
Jacob Socolar
@ Amoeba, tak, myślę, że masz rację. Artykuły Yekutieli połączone wcześniejszymi plakatami są traktowane z PRDS. O ile mogę stwierdzić, PRD jest tą samą właściwością, ale we wszystkich statystykach testowych (lub wartościach p), nie tylko podzbiór odpowiadający prawdziwym zerom.
Jacob Socolar
1
Tak, masz absolutną rację. Edycja teraz.
Jacob Socolar
1
Interesujący przykład, ale efekt jest bardzo słaby: otrzymuję współczynnik korelacji (między ab i abcd) wynoszący około -0,03 ... Ale nie rozumiem: dlaczego mówisz, że "gdy próbki a i b są bardzo podobne , jest bardziej prawdopodobne, że ich produkt będzie nietypowy ”?
ameba mówi Przywróć Monikę
4

W swoim artykule Benjamini i Yekutieli podają kilka przykładów tego, w jaki sposób pozytywna zależność od regresji (PRD) różni się od pozytywnego powiązania. Procedura kontroli FDR opiera się na słabszej formie PRD, którą nazywają PRDS (tj. PRD dla każdego z podzbioru zmiennych).

Pozytywna zależność została pierwotnie zaproponowana przez Lehmanna w ustawieniu dwuwymiarowym , ale wielowariantowa wersja tego pojęcia, znana jako zależność od regresji dodatniej, jest tym, co jest istotne w testach wielokrotnych.

Oto odpowiedni fragment str.6

X(X1,X2))Xh(X1)X2)h(X1)

użytkownik3303
źródło
2

Dodatnia zależność w tym przypadku oznacza, że ​​zestaw testów jest dodatnio skorelowany. Chodzi o to, że jeśli zmienne w zestawie testów, dla których masz wartości P, są dodatnio skorelowane, to każda ze zmiennych nie jest niezależna .

Jeśli na przykład pomyślisz o korekcie wartości p Bonferroniego, możesz zagwarantować, że poziom błędu typu 1 jest mniejszy niż 10% w porównaniu ze 100 statystycznie niezależnymi testami, ustawiając próg istotności na 0,1 / 100 = 0,001. Ale co jeśli każdy z tych 100 testów jest w jakiś sposób skorelowany? Zatem tak naprawdę nie wykonałeś 100 osobnych testów.

We FDR pomysł różni się nieco od korekty Bonferroniego. Chodzi o to, aby zagwarantować, że tylko pewien procent (powiedzmy 10%) rzeczy, które uznajesz za znaczące, są fałszywie uznane za znaczące. Jeśli masz skorelowane markery (zależność dodatnia) w zestawie danych, wartość FDR jest wybierana na podstawie całkowitej liczby przeprowadzanych testów (ale rzeczywista liczba statystycznie niezależnych testów jest mniejsza). W ten sposób bezpieczniej jest wnioskować, że odsetek fałszywych odkryć fałszywie deklaruje znaczące 10% lub mniej testów w twoim zestawie wartości P.

W tym rozdziale książki znajduje się dyskusja na temat pozytywnej zależności.

derrek
źródło
2
Wyjaśniasz FDR vs. Bonferroni, ale nie definiujesz „pozytywnej zależności”, ale po prostu przeformułowujesz to na „pozytywnie skorelowane”, ale nie rozumiem. Rozważ, że mam 1000 wartości P, testując ekspresję 1000 różnych genów porównujących ludzi z pewną chorobą i bez niej. Używam metody BH, aby zdecydować, które z tych porównań jest „odkryciami”. Co w tym kontekście oznacza „pozytywna zależność”?
Harvey Motulsky
5
Ta odpowiedź jest całkowicie błędna. Pozytywna regresja Zależność i pozytywne powiązania różnią się od siebie. Dokument Benjamini Yekutieli wyjaśnia to i zawiera również odniesienia. „Niemniej jednak PRDS i skojarzenie dodatnie nie implikują się nawzajem, a różnica ma pewne znaczenie. Na przykład, rozkład normalny wielowymiarowy jest pozytywnie powiązany, jeśli wszystkie korelacje są nieujemne. Nie wszystkie korelacje muszą być nieujemne, aby właściwość PRDS mogła zostać zachowana ( patrz sekcja 3.1, przypadek 1 poniżej). ” Patrz str. 6 artykułu.
user3303