Określenie negatywnego rozkładu dwumianowego do sekwencjonowania DNA

16

Ujemny rozkład dwumianowy stał się popularnym modelem do zliczania danych (w szczególności oczekiwanej liczby odczytów sekwencjonowania w danym regionie genomu z danego eksperymentu) w bioinformatyce. Wyjaśnienia różnią się:

  • Niektórzy tłumaczą to jako coś, co działa jak rozkład Poissona, ale ma dodatkowy parametr, pozwalający na większą swobodę modelowania rzeczywistego rozkładu, przy wariancji niekoniecznie równej średniej
  • Niektórzy tłumaczą to jako ważoną mieszaninę rozkładów Poissona (z rozkładem mieszania gamma na parametrze Poissona)

Czy istnieje sposób na zrównanie tych uzasadnień z tradycyjną definicją ujemnego rozkładu dwumianowego jako modelowania liczby sukcesów prób Bernoulliego przed zauważeniem pewnej liczby niepowodzeń? A może powinienem myśleć o tym jako o szczęśliwym zbiegu okoliczności, że ważona mieszanina rozkładów Poissona z rozkładem mieszania gamma ma taką samą funkcję masy prawdopodobieństwa, jak dwumian ujemny?

Michael Hoffman
źródło
2
Jest to również złożony rozkład Poissona, w którym sumuje się rozproszoną przez Poissona liczbę logarytmicznych zmiennych losowych.
Douglas Zare

Odpowiedzi:

8

IMOH, naprawdę uważam, że dla wygody zastosowano rozkład dwumianowy ujemny.

Tak więc w RNA Seq istnieje powszechne założenie, że jeśli weźmiesz nieskończoną liczbę pomiarów tego samego genu w nieskończonej liczbie powtórzeń, prawdziwy rozkład byłby logarytmiczny. Rozkład ten jest następnie próbkowany za pomocą procesu Poissona (z zliczeniem), więc rzeczywiste odczyty odczytów na gen między replikami byłyby rozkładem Poissona-Lognormala.

Ale w pakietach, których używamy, takich jak EdgeR i DESeq, ta dystrybucja jest modelowana jako ujemna dystrybucja dwumianowa. Nie dzieje się tak dlatego, że faceci, którzy to napisali, nie wiedzieli o rozkładzie Poissona Lognormala.

Dzieje się tak, ponieważ rozkład Poissona Lognormala jest okropną rzeczą do pracy, ponieważ wymaga integracji numerycznej w celu dopasowania itp., Więc kiedy faktycznie próbujesz go użyć, czasami wydajność jest naprawdę zła.

Ujemny rozkład dwumianowy ma postać zamkniętą, więc jest o wiele łatwiejszy w pracy, a rozkład gamma (rozkład leżący u podstaw) wygląda bardzo podobnie do rozkładu logarytmicznego, ponieważ czasami wygląda trochę normalnie, a czasem ma ogon.

Ale w tym przykładzie (jeśli uważasz, że założenie) nie może być teoretycznie poprawne, ponieważ teoretycznie poprawny rozkład jest logarytmiczny Poissona, a oba rozkłady są rozsądnymi przybliżeniami, ale nie są równoważne.

Ale nadal uważam, że „niewłaściwy” ujemny rozkład dwumianowy jest często lepszym wyborem, ponieważ empirycznie da lepsze wyniki, ponieważ integracja przebiega powoli, a dopasowania mogą być złe, szczególnie w przypadku rozkładów z długimi ogonami.

Michele
źródło
7

Przejrzałem kilka stron internetowych i nie mogłem znaleźć wyjaśnienia, ale wymyśliłem jedną dla wartości całkowitych . Załóżmy, że mamy dwa źródła radioaktywne niezależnie generujące cząstki alfa i beta odpowiednio z szybkością α i β .rαβ

Jaki jest rozkład liczby cząstek alfa przed tą cząstką beta?r

  1. Traktuj cząstki alfa jako sukcesy, a cząstki beta jako niepowodzenia. Po wykryciu cząstki prawdopodobieństwo, że jest to cząstka alfa, wynosi . Jest to więc ujemny rozkład dwumianowyNB(r,ααα+β.NB(r,αα+β)

  2. Rozważmy czasu o r -tego cząstek beta. Wynika to z rozkładu gamma Γ ( r , 1 / β ) . Jeśli warunkujesz na t r = λ / α , to liczba cząstek alfa przed czasem t r jest zgodna z rozkładem Poissona Pois ( λ ) . Tak więc rozkład liczby cząstek alfa przed r- tą cząstką beta jest mieszanym rozkładem gamma rozkładem Poissona.trrΓ(r,1/β).tr=λ/αtrPois(λ).r

To wyjaśnia, dlaczego te rozkłady są równe.

Douglas Zare
źródło
2

Mogę tylko zaoferować intuicję, ale sama dystrybucja gamma opisuje (ciągły) czas oczekiwania (jak długo zajmuje rzadkie zdarzenie). Zatem fakt, że rozproszona w gamie mieszanina dyskretnych rozkładów Poissona spowodowałaby dyskretny czas oczekiwania (próby aż do awarii N), nie wydaje się zbyt zaskakująca. Mam nadzieję, że ktoś ma bardziej formalną odpowiedź.

Edycja: Zawsze uzasadniłem ujemny dwumianowy dystans. do sekwencjonowania w następujący sposób: Rzeczywistym etapem sekwencjonowania jest po prostu próbkowanie odczytów z dużej biblioteki cząsteczek (poissona). Jednak ta biblioteka jest wykonana z oryginalnej próbki metodą PCR. Oznacza to, że oryginalne cząsteczki są amplifikowane wykładniczo. A rozkład gamma opisuje sumę k niezależnie losowych zmiennych wykładniczych rozmieszczonych wykładniczo, tj. Ile cząsteczek w bibliotece po amplifikacji k próbek cząsteczek dla tej samej liczby cykli PCR.

Stąd ujemne modele dwumianowe PCR, a następnie sekwencjonowanie.

Felix Schlesinger
źródło
Ma to sens, ale czy w kontekście pomiaru liczby odczytów sekwencjonowania w genomie istnieje intuicyjne wyjaśnienie tego, co reprezentuje okres oczekiwania w ujemnym rozkładzie dwumianowym? W tym przypadku nie ma okresu oczekiwania - po prostu mierzy liczbę odczytów sekwencji.
RobertF,
Zobacz moją edycję. Nie rozumiem, jak myślenie o tym w kategoriach czasów oczekiwania pasuje do ustawienia sekwencjonowania. Mieszanka Poissona gamma jest łatwiejsza do interpretacji. Ale ostatecznie są tym samym.
Felix Schlesinger
2
Ok - to może prawdziwe pytanie brzmi, jakim przypadkiem jest modelowanie k sukcesów + r niepowodzeń w próbach Bernoulliego po mieszance gamma Poissona? Być może ujemne modelowanie dwumianowe k sukcesów + r awarii można uznać za rozproszone dbn Poissona ze względu na wiele możliwych kombinacji prób sukcesów i awarii skutkujących dokładnie k obserwowanymi sukcesami i r zaobserwowanymi niepowodzeniami, które można opisać jako zbiór oddzielne dbns?
RobertF,
2

Spróbuję przedstawić uproszczoną mechanistyczną interpretację, która przydała mi się, gdy o tym pomyślałem.

μpμ1ppNB(μ1pp,p)

μ1ppp1p=μσ2=μ(1p)1

(1p)1

Części Leopolda
źródło