Obliczanie prawdopodobieństwa nakładania się listy genów między sekwencją RNA a zestawem danych ChIP-chip

13

Mam nadzieję, że ktoś na tych forach pomoże mi rozwiązać ten podstawowy problem w badaniach nad ekspresją genów.

Przeprowadziłem głębokie sekwencjonowanie tkanki eksperymentalnej i kontrolnej. Następnie uzyskałem krotną wartość wzbogacenia genów w próbce eksperymentalnej nad kontrolą. Referencyjny genom ma około 15 000 genów. 3000 z 15 000 genów jest wzbogaconych powyżej pewnego poziomu granicznego w mojej interesującej próbce w porównaniu do kontroli.

A zatem: A = całkowita populacja genów = 15 000 B = subpopulacja wzbogacona w sekwencję RNA = 3000.

W poprzednim eksperymencie z chipem ChIP znalazłem 400 genów wzbogaconych przez chip ChIP. Z 400 genów chipów ChIP, 100 genów znajduje się w grupie 3000 wzbogaconych transkryptów RNA-Seq.

Zatem: C = całkowita liczba genów wzbogaconych w chip ChIP = 400.

Jakie jest prawdopodobieństwo, że moje 100 genów chipów ChIP zostanie wzbogaconych przez RNA-Seq przez przypadek? Innymi słowy, jaki jest najrozsądniejszy sposób obliczenia, czy moje zaobserwowane nakładanie się B i C (100 genów) jest lepsze niż to, które uzyskałem przypadkowo? Z tego, co przeczytałem do tej pory, najlepszym sposobem na przetestowanie tego jest użycie rozkładu hipergeometrycznego.

Użyłem kalkulatora internetowego (stattrek.com), aby skonfigurować test rozkładu hipergeometrycznego z następującymi parametrami: - wielkość pop = 15 000 - liczba sukcesów w populacji = 3000 - wielkość próby = 400, - liczba sukcesów w próbie = 100. Otrzymuję następujące dla prawdopodobieństwa hipergeometrycznego P (x = 100) = 0,00224050636447747

Rzeczywista liczba genów pokrywających się między B i C = 100. Czy to jest lepsze niż sam przypadek? Nie wygląda na to, że szansa na wzbogacenie jednego genu wynosi 1: 5 (3000 z 15 000). Dlatego nie rozumiem, dlaczego moje P (x = 100), które obliczyłem powyżej, wynosi 0,0022. Daje to 0,2% szansy na nakładanie się przypadkowo. Czy nie powinno to być znacznie wyższe?

Gdybym pobrał próbkę z 400 losowych genów z dużej listy 15 000, to można by oczekiwać, że dowolne 80 z tych genów zostanie wzbogacone przez sam przypadek (1: 5). Liczba genów, które się pokrywają, wynosi 100, więc jest to tylko trochę więcej niż przypadek.

Próbowałem również znaleźć rozwiązanie wykorzystujące funkcje dyszy lub phypera w R (używając tego, co widziałem w innym poście): A = wszystkie geny w genomie (15 000) B = Geny wzbogacone w sekwencję RNA (3000) C = ChIP -chip wzbogacone geny (400) Oto wejście / wyjście R (dostosowane z poprzedniego postu wymiany stosu):

> totalpop <- 15000    
> sample1 <- 3000    
> sample2 <- 400    
> dhyper(0:2, sample1, totalpop-sample1, sample2)    
[1] 4.431784e-40 4.584209e-38 2.364018e-36    
> phyper(-1:2, sample1, totalpop-sample1, sample2)    
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36    

Nie jestem pewien, jak interpretować te liczby. Uważam, że 2,36e-36 jest prawdopodobieństwem całkowitego pokrycia się B i C przez sam przypadek? Ale to nie ma sensu, ponieważ prawdopodobieństwo to jest znacznie bliższe 1: 5. Jeśli zacznę od 15 000 genów, 3000 zostanie wzbogaconych. Podobnie, jeśli zacznę od 400 genów chipów ChIP, 80 z nich powinno zostać wzbogaconych w samej sekwencji RNA-Seq ze względu na szanse wzbogacenia 1: 5 w tym zbiorze danych.

Jaki jest właściwy sposób obliczenia wartości p, zgodnie z rozkładem hipergeometrycznym, dla nakładania się B i C?

stlandroidfan
źródło

Odpowiedzi:

15

Jesteś blisko, używając dhyperi phyper, ale nie rozumiem, skąd 0:2i skąd -1:2pochodzą.

Wartość p, którą chcesz, to prawdopodobieństwo uzyskania 100 lub więcej białych kulek w próbce o wielkości 400 z urny z 3000 białymi kulkami i 12000 czarnymi kulkami. Oto cztery sposoby, aby to obliczyć.

sum(dhyper(100:400, 3000, 12000, 400))
1 - sum(dhyper(0:99, 3000, 12000, 400))
phyper(99, 3000, 12000, 400, lower.tail=FALSE)
1-phyper(99, 3000, 12000, 400)

Dają one 0,0078.

dhyper(x, m, n, k)daje prawdopodobieństwo dokładnego narysowania x. W pierwszym wierszu sumujemy prawdopodobieństwa dla 100 - 400; w drugim wierszu bierzemy 1 minus suma prawdopodobieństw 0–99.

phyper(x, m, n, k)daje prawdopodobieństwo otrzymania xlub mniej, więc phyper(x, m, n, k)jest to to samo co sum(dhyper(0:x, m, n, k)).

To lower.tail=FALSEjest trochę mylące. phyper(x, m, n, k, lower.tail=FALSE)jest takie samo, jak 1-phyper(x, m, n, k)prawdopodobieństwo prawdopodobieństwa x+1lub więcej. [Nigdy tego nie pamiętam i dlatego zawsze muszę to dwukrotnie sprawdzić.]

Na tej stronie stattrek.com chcesz spojrzeć na ostatni wiersz „Prawdopodobieństwo skumulowane: P (X 100)”, a nie na pierwszy wiersz „Prawdopodobieństwo hipergeometryczne: P (X = 100)”.

Wszelkie szczególności ilość, że można narysować będzie miał małą prawdopodobieństwo (w rzeczywistości max(dhyper(0:400, 3000, 12000, 400))daje 0,050), a uzyskanie 101 lub 102 lub dowolny większa liczba jest jeszcze bardziej interesujące, że 100, a wartość p jest prawdopodobieństwem, jeśli null hipoteza była prawdziwa, a wynik był tak interesujący, a nawet bardziej niż obserwowany.

Oto obraz rozkładu hipergeometrycznego w tym przypadku. Widać, że jest on wyśrodkowany na 80 (20% z 400) i że 100 jest dość daleko w prawym ogonie. wprowadź opis zdjęcia tutaj

Karl
źródło
Wielkie dzięki za pomoc. Rozumiem logikę twojej odpowiedzi. Ale jak wytłumaczyć grupie biologów, że jest to większe niż nakładanie się zaobserwowane z powodu samego przypadku? Powiedzą, że mam szansę na nakładanie się 1: 5. Czy moje nakładanie się jest znaczące, ponieważ w próbce o wielkości 400 kulek (z 15 000 wszystkich kulek) moja szansa na uzyskanie białej piłki jest w rzeczywistości mniejsza niż 1: 5, ponieważ próbuję mniejszej populacji (nie całej 15 000)? Nie ma to sensu, ponieważ nawet jeśli 400 <15 000, nadal istnieje stosunek bieli do czerni w stosunku 1: 5. Czy to ma sens?
stlandroidfan
@stlandroidfan - Nie rozumiem, co uważasz za mylące. Dodałem figurę; czy to pomaga?
Karl
0

Spójrz na to w ten sposób .. Jeśli przyjmujesz, że jest to dwumianowa, co może być niepoprawne, ale powinno być dość przybliżone .. twoja sigma ^ 2 wynosi .8 * .2 * 400 = 64, to sigma = 8. Więc od 80 do 100 przekroczyłeś 2,5 odchyleń standardowych. Jest to dość znaczące .. Powinien mieć małą wartość p.

Adam
źródło
Dzięki za odpowiedź. Rozkłady hipergeometryczne są częściej używane do nakładania się listy genów z tego, co widziałem w literaturze. Pytanie brzmi: jakie jest prawdopodobieństwo otrzymania 100 lub więcej białych kulek w próbce o wielkości 400 z urny z 3000 białymi kulkami i 12000 czarnymi kulkami? Myślę, że wciąż jestem zakłopotany tym, jak wytłumaczyć to grupie biologów? Sposób, w jaki widzą to 3000: 12000 to szansa 1: 5 bieli: czerni. Tak więc w próbce 400, 80 powinno być białe. Dlaczego więc prawdopodobieństwo uzyskania 100 lub więcej jest o wiele niższe niż 20% (1 na 5)?
stlandroidfan