Moc w proteomice?

9

Dotacje często wymagają analizy mocy w celu obsługi proponowanej wielkości próby. W proteomice (i większości -omice) istnieje 100 do 1000 cech / zmiennych mierzonych w 10 próbkach (może 100, ale mało prawdopodobne). Wiadomo również, że niektóre z tych jednostek pomiarowych (np. Liczby spektralne białek) nie są normalnie rozłożone, więc do analizy wykorzystamy test nieparametryczny. Widziałem moc wielkości próbki ustaloną przy założeniu pojedynczego pomiaru i testu t, ale nie sądzę, aby było to całkowicie poprawne. Innym problemem związanym z liczeniem widm jest to, że każda ze 100 funkcji jest w bardzo różnych skalach z bardzo różnymi błędami (większe wartości mają mniej błędów). [Ten problem jest dobrze opisany w modelu zmiany krotności limitu, Mutch i in., 2002 ]

Jaki byłby właściwy sposób ustalenia mocy proponowanej wielkości próby, biorąc pod uwagę pewne założenia FDR i akceptowalną zmianę krotności? Korzystając z narzędzia tutaj, byłem w stanie ustalić, biorąc pod uwagę następujące kwestie:

  • 300 genów
  • 3 fałszywie pozytywne
  • 1.4 krotności różnic
  • 0,8 pożądanej mocy
  • 0,7 stdev

wymaga wielkości próby na grupę 49.

Było to przydatne, ponieważ proponuję projekt 50v50, wiedz, że 1,4-krotna zmiana jest dość akceptowana, 1% FDR jest w porządku i prawdopodobnie zmierzę 300 białek w tym eksperymencie. Ten problem obliczania mocy lub wielkości próby będzie nadal występował, więc dobrze byłoby zastosować podejście referencyjne.

EDYCJA: Przeczytałem, gdzie kolega zaproponował modelowanie liczby widm z ujemnych rozkładów dwumianowych za pomocą funkcji prawdopodobieństwa, a następnie testu Walda. Zasadniczo wykorzystuje dane z przedlimatu, aby uzyskać oszacowania wariancji białka, a następnie obliczyć wykrywalne krotnie zmiany między grupami dla każdego kwantyla. Istnieje również wejście FDR (alfa). Zatem, biorąc pod uwagę moc> 80% i ustawioną wielkość próbki, mogą określić wykrywalne zmiany krotnie dla 25% najniższej wariancji, 50% mniejszej wariancji i 25% najwyższej wariancji. Problem polega na tym, że nie wiem, jak to zrobili. Nie jestem pewien, czy podzielenie się tym podejściem pomoże każdemu z możliwą odpowiedzią.

Ben
źródło
Inne zasoby, które znalazłem na ten temat: Levin 2011 Dicker i in., 2010
Ben
1
Ten kalkulator MD Andersona wydaje mi się zbyt optymistyczny. Ile wykonano porównań? (Jestem zbyt zardzewiały na mikromacierzach: 300 genów w układzie 50v50 oznacza, że ​​dokonujesz ile porównań?) Kiedy ustawisz kalkulator FDR na 3 fałszywe alarmy, czy mówisz, że ustawiasz błąd fałszywie dodatni, tak że tylko 3 oczekuje się, że będą fałszywie dodatnie pod wartością zerową? To zbyt surowe jak na ponad 60 porównań.
AdamO
1
Mogę ci pokazać, jak można to zrobić w R, ale potrzebuję tylko trochę wiedzy na temat biologii.
AdamO

Odpowiedzi:

1

W aplikacjach (szczególnie w zastosowaniach etycznych, w których musisz przeprowadzić badanie mocy) lubię korzystać z tego odniesienia [Wang i Chen 2004], ponieważ to ładnie wyjaśnia koncepcję obliczania mocy dla danych o dużej przepustowości (niezależnie od tego, jakie są dane) .

Zasadniczo oprócz zwykłych parametrów (α, β, N, wielkość efektu) używasz dwóch dodatkowych parametrów, λ i η. Ta ostatnia, η, to zakładana liczba prawdziwie zmienionych genów, a λ to część naprawdę zmienionych genów, które chcesz być w stanie wykryć. Przy użyciu tego podejścia można dość łatwo rozszerzyć wszelkie znane obliczenia mocy na dane o wysokiej przepustowości.

Wang, Sue-Jane i James J. Chen. „Rozmiar próbki do identyfikacji genów o różnej ekspresji w eksperymentach z mikromacierzem”. Journal of Computational Biology 11.4 (2004): 714-726.

styczeń
źródło