Robię badania stowarzyszenia GWAS SNP na temat chorób przy użyciu oprogramowania o nazwie plink ( http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml ).
Z wynikami asocjacji otrzymuję wartości p dla wszystkich analizowanych SNP. Teraz używam wykresu QQ tych wartości p, aby pokazać, czy bardzo niska wartość p różni się od oczekiwanego rozkładu wartości p (rozkład równomierny). Jeśli wartość p odbiega od oczekiwanego rozkładu, można „nazwać” tę wartość p dla statystycznej istotności.
Jak widać na wykresie QQ, w górnej części końca 4 ostatnie punkty są nieco trudne do interpretacji. Dwa ostatnie punkty na szaro sugerują, że te wartości p mieszczą się w oczekiwanym rozkładzie wartości p, podczas gdy pozostałe dwie nie.
Jak to interpretować, dwa ostatnie punkty mają niższe wartości p, ale nie są „znaczące” zgodnie z wykresem QQ, podczas gdy pozostałe dwa punkty z wyższymi wartościami p są „znaczące”? Jak to może być prawda?
Odpowiedzi:
Dobrym odniesieniem do analizy wykresów wartości p jest [1].
Wynik, który widzisz, może wynikać z faktu, że sygnał / efekty istnieją tylko w niektórych podzbiorach testów. Są one napędzane powyżej pasm akceptacji. Odrzucenie tylko wartości p poza zakresami może rzeczywiście być uzasadnione, ale być może, co ważniejsze, powinieneś zdecydować, jakie kryterium błędu chcesz kontrolować przy wyborze procedury wyboru (FWER, FDR). Możesz skonsultować się z [2] w sprawie tego wyboru i odnośników w nim dotyczących wyboru odpowiedniej procedury wielokrotnego testowania.
[1] Schweder, T. i E. Spjotvoll. „Wykresy wartości P do równoczesnej oceny wielu testów.” Biometrika 69, no. 3 (grudzień 1982 r.): 493–502. doi: 10.2307 / 2335984
[2] Rosenblatt, Jonathan. „Przewodnik dla praktyków dotyczący wielokrotnych poziomów błędu testowania”. ArXiv e-print. Uniwersytet Tel Aviv, 17 kwietnia 2013 r . Http://arxiv.org/abs/1304.4920 .
źródło
To jest starsze pytanie, ale przydało mi się, gdy próbowałem interpretować QQPlots po raz pierwszy. Pomyślałem, że dodam do tych odpowiedzi, na wypadek, gdyby więcej osób natknęło się na to w przyszłości.
Trudno mi zrozumieć, co to za punkty? Odkryłem, że przejście do kodu ułatwiło zrozumienie.
Oto część kodu R, który zaadaptowałem z
GWASTools::qqPlot
tego, który implementuje QQPlot w 3 liniach:Oto przykład. Masz 5 wartości p. simpleQQPlot wygeneruje 5 odpowiadających pvalu z jednolitego rozkładu między 0 a 1. Będą to: .2 .4 .6 .8 i 1. Tak więc simpleQQPlot oczekuje, że twoja najniższa wartość p wyniesie około .2, a najwyższa będzie w pobliżu 1. simpleQQPlot posortuje wartości pv i sparuje je z odpowiednią wygenerowaną wartością. Tak więc .2 zostanie sparowany z najniższą wartością, 1 z najwyższą itd. Następnie te sparowane wartości są wykreślane (po pobraniu logów ujemnych), przy czym X jest wygenerowaną wartością, a Y jest sparowaną obserwowaną wartością. Jeśli obserwowane wartości zostały również wyciągnięte z rozkładu normalnego, wówczas punkty powinny z grubsza leżeć na linii prostej. Z powodu sortowania punkty zawsze będą rosły monotonicznie. Zatem każdy kolejny punkt będzie miał większy X i większy lub równy Y.
Tak więc w powyższym oryginalnym przykładzie 9,997-ta posortowana wartość p wynosiła około 5,2, ale oczekiwano, że wyniesie około 4,1, jeśli będzie zgodna z rozkładem normalnym. (Uwaga: tak naprawdę nie jestem pewien, ile wartości p zostało wykreślonych powyżej - po prostu zgadłem 10k).
źródło