Analiza wzbogacania według poziomu duplikacji genów

11

Tło biologiczne

Z czasem niektóre gatunki roślin mają tendencję do powielania całych genomów, uzyskując dodatkową kopię każdego genu. Z powodu niestabilności tej konfiguracji wiele z tych genów jest następnie usuwanych, a genom układa się ponownie i stabilizuje, gotowy do powtórzenia. Te zdarzenia duplikacji są powiązane ze specjacjami i inwazjami, a teoria mówi, że duplikacja pomaga roślinom szybciej przystosować się do nowego środowiska.

Lupinus, rodzaj rośliny kwitnącej, zaatakował Andy podczas jednego z najszybszych zdarzeń specjacyjnych, jakie kiedykolwiek wykryto, a ponadto wydaje się, że ma więcej duplikatów w swoim genomie niż najbardziej blisko spokrewniony rodzaj, Baptisia.

A teraz problem matematyczny:

Genomy członka Lupinus i członka Baptisia zostały zsekwencjonowane, dostarczając surowych danych na temat 25 000 genów każdego gatunku. Przeszukując bazę danych genów o znanej funkcji, mam teraz „najlepsze przypuszczenie”, jakie funkcje może wykonywać ten gen - tak więc na przykład Gene1298 może być związany z „metabolizmem fruktozy, reakcją na stres solny, reakcją na stres zimny”. Chcę wiedzieć, czy w przypadku Baptisia i Lupinus miało miejsce zduplikowanie, czy utrata genu miała miejsce losowo, czy też geny spełniające określone funkcje były bardziej prawdopodobne, że zostaną zachowane lub usunięte.

Mam skrypt, który wyświetli tabelę taką jak ta pokazana poniżej. L * jest liczbą wszystkich genów Lupinus związanych z funkcją. L 1+ to liczba genów tocznia związanych z funkcją, w której istnieje co najmniej jedna zduplikowana kopia. Mogę go zmusić do wyprodukowania L 2+, L 3+ itp., Chociaż L 1+ jest znacznie bardziej niezawodną grupą niż L 2+ ze względu na proces sekwencjonowania.

Function            | L *  | L 1+ | B *  | B 1+ |
fructose metabolism | 1000 | 994  | 1290 | 876  |
salt stress         | 56   | 45   | 90   | 54   |
etc.

Chciałbym przetestować, dla każdej funkcji genów, czy jest więcej lub mniej genów z duplikatami, niż można się spodziewać wyłącznie w przypadku Lupinus i Baptisia, oraz czy Lupinus różni się od Baptisia w stosunku obserwowanego do oczekiwanego.

Najlepsza rzecz, jaką mam do tej pory

Wcześniejsze badania na różnych gatunkach wykorzystywały analizę wzbogacania, z dokładnym testem Fishera i korektą FDR do wielokrotnego pobierania próbek, aby wykonać test awaryjny w każdym rzędzie.

Byłoby miło to poprawić; Nie jestem pewien, czy to brzmi jak najlepszy sposób na zrobienie tego.

Glen_b zasugerował użycie GLM do analizy danych; Grałem z GLM w JMP8, co było interesujące, ale przyznam, że tak naprawdę ich nie rozumiem.

To powiedziawszy, zamiast tego próbuję teraz użyć R.

Do czego tego używam?

To pierwotnie miało być częścią krótkiego projektu badawczego, który prowadzę na uniwersytecie, ale teraz przerodziło się w ogromny projekt adnotacji genomu. Czemu? Ponieważ bioinformatyka jest fajna. Zdolność do pobrania ciągu A, T, C i G i wykorzystania go do wnioskowania o zdarzeniach, które miały miejsce miliony lat temu, jest niesamowita.

Nie muszę dodawać, że nie zamierzam podawać żadnej uprzejmie udzielonej odpowiedzi jako mojej własnej pracy. Z przyjemnością dołączę potwierdzenie w artykule, jeśli użyję metody zaproponowanej tutaj w przesłanej pracy.

generalized-linear-model contingency-tables fishers-exact genetics bioinformatics TDN169
źródło

1

Zwróć uwagę na problem, o którym wspomniałem we wcześniejszej odpowiedzi na twoje inne pytanie - o testowanie tylko jednej zmiennej, gdy istnieją inne ważne zmienne (wskazałem na artykuł w Wikipedii na temat paradoksu Simpsona) - dokładny test Fishera tego nie obejdzie.

Glen_b

Bioinformatyka jest fajna !! Witamy na stronie!

Kyle.

Wrócę wkrótce i udzielę bardziej szczegółowych odpowiedzi, ale odpowiednimi funkcjami w R do obejrzenia będą loglin, loglm (w pakiecie MASS, który jest dostarczany z R, ale domyślnie nie jest zainstalowany) i sam glm. Zrozumienie tych modeli będzie miało wiele podobieństw do zrozumienia regresji wielokrotnej i ANOVA - z tymi wyjątkami, że rozkłady nie są normalne, a logarytmy średnich są

liniami

1

Chociaż zgadzam się, że test Fishera (lub coś podobnego) może być tutaj najbardziej naturalnym podejściem, co powiesz na to:

Dla każdego unikalnego genu określasz różnicę w liczbie duplikatów w L i B.
Sortuj geny według tej różnicy. Teraz geny wykazujące największe różnice między gatunkami będą na górze listy.
Zastosuj test wzbogacania zestawu genów do uporządkowanej listy genów. Na przykład możesz użyć zmodyfikowanej metody Fishera z mojego pakietu tmod , dla której musiałbyś zdefiniować swoje zestawy genów (powinno to być całkiem proste). Zauważ, że metoda Fishera nie jest związana z testem Fishera.

Zmodyfikowany test Fishera (nazwany CERNO przez autorów, którzy po raz pierwszy opisali go w tym kontekście) przyjmuje dowolną uporządkowaną listę genów jako dane wejściowe, o ile można je pogrupować w kilka użytecznych kategorii.

Zaletą tego podejścia jest to, że oprócz wartości p można łatwo obliczyć wielkość efektu wzbogacenia i wizualizować go (na przykład jako krzywa ROC nad uporządkowaną listą genów). To daje o wiele lepszy pomysł, jak bardzo to, co obserwujesz, ma znaczenie dla badanej biologii.

styczeń
źródło

0

Jak mówisz, zadajesz dwa różne pytania.

Pytanie 1 „czy stosunek L * / L1 + różni się od B * / B1 + dla danej funkcji genu”

najlepiej na to odpowiedzieć za pomocą dokładnego testu Fishera, wykorzystującego dane w wierszu, jak wcześniej.

Pytanie 2 „czy stosunek: geny, w których występuje jedna kopia / geny, w których występuje więcej niż jedna kopia, różni się między funkcjami genów?”

Myślę, że najlepiej na to również odpowiedzieć za pomocą dokładnego testu Fishera. Testowałbyś stosunek L * / L1 + dla funkcji genu 1 do L * / L1 + dla funkcji genu 2. Następnie funkcja genu 1 Vs funkcja genu 3 itd.

Żaden z tych zestawów pytań nie określa, czy są one utrzymywane / usuwane szybciej niż oczekiwano wyłącznie przypadkowo, tylko czy są one usuwane / utrzymywane w różnym tempie. Aby wiedzieć, czy były usuwane / utrzymywane w innym tempie niż przypadkowo, musisz znać stosunek liczby pojedynczych kopii / mnożników dla wielu regionów DNA, na które wpływa tylko przypadek. Gdybyś mógł znaleźć takie regiony, skończyłbyś z „Grupą funkcji”, gdzie funkcją jest „Brak”. Porównałbyś to z innymi grupami funkcji genów w taki sam sposób, jak opisałem w pytaniu 2.

Phil A.
źródło

Analiza wzbogacania według poziomu duplikacji genów

Odpowiedzi: