Jakie są główne elementy w badaniach asocjacyjnych całego genomu?

20

W badaniach asocjacyjnych całego genomu (GWAS):

  1. Jakie są główne elementy?
  2. Dlaczego są używane?
  3. Jak są obliczane?
  4. Czy można przeprowadzić badanie asocjacyjne obejmujące cały genom bez użycia PCA?
suprvisr
źródło
1
Czy przed zadaniem tych pytań przeszukałeś tę witrynę w poszukiwaniu hasła „PCA”, czy odkryłeś tag „PCA”? Odpowiedzi na większość pytań są już tam zawarte.
whuber
1
@ whuber Myślę, że OP szuka zastosowania PCA jako sposobu rozliczenia i dostosowania do stratyfikacji populacji podczas modelowania danego wyniku (ciągły fenotyp lub badania przypadków / kontroli) i markerów DNA (SNP). Podałem referencję tutaj: stats.stackexchange.com/questions/1708/variation-in-pca-weights/… .
chl
1
GWAS z pewnością można zrobić bez głównych komponentów. W przypadku braku stratyfikacji populacji potrzebujesz tylko tysięcy testów lub tysięcy testów chi-kwadrat. t
onestop
@onstop (+1) Rozważę, że odpowiedziałeś na drugie pytanie, którego nawet nie wziąłem pod uwagę we własnej odpowiedzi.
chl
@onstop, co jeśli tylko stratyfikować według płci / rasy? czy możesz rozwinąć swoją odpowiedź, proszę?
suprvisr 28.03.11

Odpowiedzi:

27

W tym szczególnym kontekście PCA stosuje się głównie do uwzględnienia specyficznych dla populacji zmian w rozkładzie alleli na SNP (lub innych markerach DNA, chociaż znam tylko przypadek SNP) w trakcie badania. Taka „podbudowa populacji” powstaje głównie w wyniku różnych częstości występowania mniejszych alleli w genetycznie odległych przodkach (np. Japońskim i czarno-afrykańskim lub europejsko-amerykańskim). Ogólny pomysł został dobrze wyjaśniony w Population Structure and Eigenanalysis , autorstwa Patterson i in. ( PLoS Genetics 2006, 2 (12)) lub specjalny numer Lancet dotyczący epidemiologii genetycznej (2005, 366; większość artykułów można znaleźć w Internecie, zaczynając od Cordell & Clayton, Genetic Association Studies ).

Konstrukcja głównych osi wynika z klasycznego podejścia do PCA, które stosuje się do skalowanej macierzy (osobniki według SNP) obserwowanych genotypów (AA, AB, BB; powiedzmy B jest allelem mniejszym we wszystkich przypadkach), z wyjątkiem tego, że można zastosować dodatkową normalizację w celu uwzględnienia dryfu populacji. To wszystko zakłada, że ​​częstotliwość mniejszego allelu (przyjmując wartość w {0,1,2}) można uznać za liczbową, to znaczy pracujemy w modelu addytywnym (zwanym także dawkowaniem allelicznym) lub dowolnym równoważnym, który miałby sens . Ponieważ kolejne ortogonalne komputery będą uwzględniać maksymalną wariancję, zapewnia to sposób na wyróżnienie grup osobników różniących się poziomem mniejszych alleli. Oprogramowanie używane do tego jest znane jako Eigenstrat . Jest również dostępny wegscore()funkcja z pakietu GenABEL R (patrz także GenABEL.org ). Warto zauważyć, że zaproponowano inne metody wykrywania podstruktury populacji, w szczególności opartą na modelach rekonstrukcję klastrów (patrz odnośniki na końcu). Więcej informacji można znaleźć przeglądając projekt Hapmap oraz dostępny samouczek pochodzący z projektu Bioconductor . (Wyszukaj fajne samouczki Vince'a J Careya lub Davida Claytona w Google).

±6Rozwarstwienie ludności w pomocy online.

Biorąc pod uwagę, że analiza własna pozwala odkryć pewną strukturę na poziomie osobników, możemy wykorzystać tę informację, próbując wyjaśnić obserwowane różnice w danym fenotypie (lub dowolnym rozkładzie, który można zdefiniować zgodnie z kryterium binarnym, np. Chorobą lub kontrolą przypadków sytuacja). W szczególności możemy dostosować naszą analizę do tych komputerów (tj. Oceny czynnikowej osobników), jak pokazano w analizie głównych składników koryguje stratyfikację w badaniach asocjacyjnych całego genomu , Price i in. ( Nature Genetics 2006, 38 (8)), a później praca (był ładny obraz pokazujący osie zmienności genetycznej w Europie w genach lustrzanej geografii w Europie; Natura 2008; Ryc. 1A przedstawiony poniżej). Należy również zauważyć, że innym rozwiązaniem jest przeprowadzenie analizy warstwowej (poprzez uwzględnienie pochodzenia etnicznego w GLM) - jest to na przykład łatwo dostępne w pakiecie snpMatrix .

geny odzwierciedlają geografię w Europie

Bibliografia

  1. Daniel Falush, Matthew Stephens i Jonathan K Pritchard (2003). Wnioskowania o strukturze, używając danych genotypów populacji wielu loci: połączenie skorelowane alleli loci i częstotliwości . Genetics , 164 (4): 1567–1587.
  2. B Devlin i K Roeder (1999). Kontrola genomowa dla badań asocjacyjnych . Biometrics , 55 (4): 997–1004.
  3. JK Pritchard, M Stephens i P Donnelly (2000). Wnioskowanie o strukturze populacji na podstawie danych genotypu wielopunktowego . Genetics , 155 (2): 945–959.
  4. Gang Zheng, Boris Freidlin, Zhaohai Li i Joseph L Gastwirth (2005). Kontrola genomowa dla badań asocjacyjnych w ramach różnych modeli genetycznych . Biometrics , 61 (1): 186–92.
  5. Chao Tian, ​​Peter K. Gregersen i Michael F. Seldin1 (2008). Uwzględnianie pochodzenia: badania dotyczące struktury populacji i asocjacji całego genomu . Human Molecular Genetics , 17 (R2): R143-R150.
  6. Kai Yu, Podstruktura populacji i selekcja kontrolna w badaniach asocjacyjnych całego genomu .
  7. Alkes L. Price, Noah A. Zaitlen, David Reich i Nick Patterson (2010). Nowe podejścia do stratyfikacji populacji w badaniach asocjacyjnych całego genomu , Nature Reviews Genetics
  8. Chao Tian i in. (2009). Podgrupa genetyczna populacji europejskiej: Dalsza definicja przodków Markery informacyjne do rozróżniania różnych europejskich grup etnicznych , Medycyna molekularna, 15 (11-12): 371–383.
chl
źródło
Dziękuję Ci bardzo. Oczywiście pojawia się wtedy więcej pytań: 1) Co się stanie, jeśli zignoruję PCA i rozwarstwię moją próbkę GWAS tylko według GENDER / RACE / AGE i zignoruję PCA. W jaki sposób odzwierciedli analizę mojej asocjacji i jej wynik? 2) Jeśli faktycznie chcę użyć PCA, ile SNPS muszę mieć genotypowany przynajmniej, aby mieć prawdziwą PCA? Czy 200 wystarczy? Czy muszą być równomiernie rozproszone na wszystkich chromosomach? 3) Które SNP są używane w PCA? Czy to jest predefiniowany zestaw, czy jakikolwiek?
suprvisr
@ suprvisr Mogę tam odpowiedzieć lub zaktualizować odpowiedź, ale myślę, że lepiej jest zadać nowe pytanie (zgodnie z ideą „plusów i minusów dostosowania za pomocą PCA vs. stratyfikacja”) i link do tego, aby ludzie potrafi wyraźnie wykonać niezbędne połączenia.
chl
@AndyFrost zasugerował, że poniższe oznaczenia mogą zawierać odnośniki: goo.gl/jNXx0x, a zdjęcie, które możesz polecić, może znajdować się w goo.gl/TcK3g8 .
Gung - Przywróć Monikę
@chl Czy możesz wyjaśnić, co masz na myśli przez to: „Zazwyczaj w tym przypadku stosuje się PCA w sposób iteracyjny i usuwa osoby, których wyniki są poniżej ± 6 ± 6 SD na co najmniej jednym z pierwszych 20 głównych osie ". Szukałem odpowiedzi na mój post tutaj: biostars.org/p/180336
MAPK