Ujemny rozkład dwumianowy stał się popularnym modelem do zliczania danych (w szczególności oczekiwanej liczby odczytów sekwencjonowania w danym regionie genomu z danego eksperymentu) w bioinformatyce. Wyjaśnienia różnią się:
- Niektórzy tłumaczą to jako coś, co działa jak rozkład Poissona, ale ma dodatkowy parametr, pozwalający na większą swobodę modelowania rzeczywistego rozkładu, przy wariancji niekoniecznie równej średniej
- Niektórzy tłumaczą to jako ważoną mieszaninę rozkładów Poissona (z rozkładem mieszania gamma na parametrze Poissona)
Czy istnieje sposób na zrównanie tych uzasadnień z tradycyjną definicją ujemnego rozkładu dwumianowego jako modelowania liczby sukcesów prób Bernoulliego przed zauważeniem pewnej liczby niepowodzeń? A może powinienem myśleć o tym jako o szczęśliwym zbiegu okoliczności, że ważona mieszanina rozkładów Poissona z rozkładem mieszania gamma ma taką samą funkcję masy prawdopodobieństwa, jak dwumian ujemny?
poisson-distribution
negative-binomial
bioinformatics
sequence-analysis
Michael Hoffman
źródło
źródło
Odpowiedzi:
IMOH, naprawdę uważam, że dla wygody zastosowano rozkład dwumianowy ujemny.
Tak więc w RNA Seq istnieje powszechne założenie, że jeśli weźmiesz nieskończoną liczbę pomiarów tego samego genu w nieskończonej liczbie powtórzeń, prawdziwy rozkład byłby logarytmiczny. Rozkład ten jest następnie próbkowany za pomocą procesu Poissona (z zliczeniem), więc rzeczywiste odczyty odczytów na gen między replikami byłyby rozkładem Poissona-Lognormala.
Ale w pakietach, których używamy, takich jak EdgeR i DESeq, ta dystrybucja jest modelowana jako ujemna dystrybucja dwumianowa. Nie dzieje się tak dlatego, że faceci, którzy to napisali, nie wiedzieli o rozkładzie Poissona Lognormala.
Dzieje się tak, ponieważ rozkład Poissona Lognormala jest okropną rzeczą do pracy, ponieważ wymaga integracji numerycznej w celu dopasowania itp., Więc kiedy faktycznie próbujesz go użyć, czasami wydajność jest naprawdę zła.
Ujemny rozkład dwumianowy ma postać zamkniętą, więc jest o wiele łatwiejszy w pracy, a rozkład gamma (rozkład leżący u podstaw) wygląda bardzo podobnie do rozkładu logarytmicznego, ponieważ czasami wygląda trochę normalnie, a czasem ma ogon.
Ale w tym przykładzie (jeśli uważasz, że założenie) nie może być teoretycznie poprawne, ponieważ teoretycznie poprawny rozkład jest logarytmiczny Poissona, a oba rozkłady są rozsądnymi przybliżeniami, ale nie są równoważne.
Ale nadal uważam, że „niewłaściwy” ujemny rozkład dwumianowy jest często lepszym wyborem, ponieważ empirycznie da lepsze wyniki, ponieważ integracja przebiega powoli, a dopasowania mogą być złe, szczególnie w przypadku rozkładów z długimi ogonami.
źródło
Przejrzałem kilka stron internetowych i nie mogłem znaleźć wyjaśnienia, ale wymyśliłem jedną dla wartości całkowitych . Załóżmy, że mamy dwa źródła radioaktywne niezależnie generujące cząstki alfa i beta odpowiednio z szybkością α i β .r α β
Jaki jest rozkład liczby cząstek alfa przed tą cząstką beta?r
Traktuj cząstki alfa jako sukcesy, a cząstki beta jako niepowodzenia. Po wykryciu cząstki prawdopodobieństwo, że jest to cząstka alfa, wynosi . Jest to więc ujemny rozkład dwumianowyNB(r,ααα+β .NB(r,αα+β)
Rozważmy czasu o r -tego cząstek beta. Wynika to z rozkładu gamma Γ ( r , 1 / β ) . Jeśli warunkujesz na t r = λ / α , to liczba cząstek alfa przed czasem t r jest zgodna z rozkładem Poissona Pois ( λ ) . Tak więc rozkład liczby cząstek alfa przed r- tą cząstką beta jest mieszanym rozkładem gamma rozkładem Poissona.tr r Γ(r,1/β). tr=λ/α tr Pois(λ). r
To wyjaśnia, dlaczego te rozkłady są równe.
źródło
Mogę tylko zaoferować intuicję, ale sama dystrybucja gamma opisuje (ciągły) czas oczekiwania (jak długo zajmuje rzadkie zdarzenie). Zatem fakt, że rozproszona w gamie mieszanina dyskretnych rozkładów Poissona spowodowałaby dyskretny czas oczekiwania (próby aż do awarii N), nie wydaje się zbyt zaskakująca. Mam nadzieję, że ktoś ma bardziej formalną odpowiedź.
Edycja: Zawsze uzasadniłem ujemny dwumianowy dystans. do sekwencjonowania w następujący sposób: Rzeczywistym etapem sekwencjonowania jest po prostu próbkowanie odczytów z dużej biblioteki cząsteczek (poissona). Jednak ta biblioteka jest wykonana z oryginalnej próbki metodą PCR. Oznacza to, że oryginalne cząsteczki są amplifikowane wykładniczo. A rozkład gamma opisuje sumę k niezależnie losowych zmiennych wykładniczych rozmieszczonych wykładniczo, tj. Ile cząsteczek w bibliotece po amplifikacji k próbek cząsteczek dla tej samej liczby cykli PCR.
Stąd ujemne modele dwumianowe PCR, a następnie sekwencjonowanie.
źródło
Spróbuję przedstawić uproszczoną mechanistyczną interpretację, która przydała mi się, gdy o tym pomyślałem.
źródło