W artykule, który ostatnio czytałem, w sekcji analizy danych natknąłem się na następujący fragment:
Tabela danych została następnie podzielona na tkanki i linie komórkowe, a dwie podtabele zostały oddzielnie wypolerowane mediany (wiersze i kolumny zostały iteracyjnie dostosowane do mediany 0) przed ponownym połączeniem w pojedynczą tabelę. W końcu wybraliśmy podzbiór genów, których ekspresja różniła się co najmniej 4-krotnie od mediany w tym zestawie próbek w co najmniej trzech testowanych próbkach
Muszę powiedzieć, że tak naprawdę tutaj nie rozumiem. Zastanawiałem się, czy możesz mi pomóc odpowiedzieć na dwa następujące pytania:
Dlaczego wskazane / pomocne jest dostosowanie mediany w zestawach danych? Dlaczego należy to robić osobno dla różnych rodzajów próbek?
Jak to nie modyfikuje danych eksperymentalnych? Czy jest to znany sposób wybierania wielu genów / zmiennych z dużego zestawu danych, czy raczej raczej doraźny?
Dzięki,
źródło
Odpowiedzi:
Tukey Median Polish, algorytm wykorzystywany jest w normalizacji RMA mikromacierzy. Jak być może wiesz, dane z mikromacierzy są dość hałaśliwe, dlatego potrzebują bardziej solidnego sposobu szacowania intensywności sond, biorąc pod uwagę obserwacje dla wszystkich sond i mikromacierzy. Jest to typowy model stosowany do normalizacji intensywności sond w różnych tablicach.
Gdzie jest przekształca PM intensywności dla sondy o tablicy. to szum tła i można założyć, że odpowiadają one hałasowi w normalnej regresji liniowej. Jednak dystrybucyjne założenie dotyczące może być restrykcyjne, dlatego używamy Tukey Median Polish, aby uzyskać oszacowania dla i . Jest to niezawodny sposób normalizacji w różnych tablicach, ponieważ chcemy oddzielić sygnał, natężenie wywołane przez sondę, od efektu tablicy, . Możemy uzyskać sygnał normalizując dla efektu tablicyYI j l o g jat godz jott godz ϵI j ϵ μja^ αjot^ α αjot^ dla wszystkich tablic. Tak więc pozostały nam tylko efekty sondy plus trochę losowego hałasu.
Link, który cytowałem wcześniej, wykorzystuje medianę Tukey do oszacowania genów o różnej ekspresji lub genów „interesujących” poprzez uszeregowanie według efektu sondy. Jednak papier jest dość stary i prawdopodobnie w tym czasie ludzie wciąż próbowali wymyślić, jak analizować dane z mikromacierzy. Nieparametryczny empiryczny dokument z Bayesowskich metod Efrona powstał w 2001 roku, ale prawdopodobnie nie był szeroko stosowany.
Jednak teraz rozumiemy wiele na temat mikromacierzy (statystycznie) i jesteśmy całkiem pewni ich analizy statystycznej.
Dane z mikromacierzy są dość hałaśliwe, a RMA (która wykorzystuje medianę polską) jest jedną z najpopularniejszych metod normalizacji, być może z powodu jej prostoty. Inne popularne i wyrafinowane metody to: GCRMA, VSN. Ważne jest znormalizowanie, ponieważ zainteresowanie jest efektem sondy, a nie efektem tablicy.
Jak można się spodziewać, analiza mogła skorzystać z niektórych metod, które wykorzystują pożyczanie informacji między genami. Mogą to być metody bayesowskie lub empiryczne metody bayesowskie. Być może papier, który czytasz, jest stary i do tego czasu te techniki nie były dostępne.
Jeśli chodzi o twój drugi punkt, tak, prawdopodobnie modyfikują one dane eksperymentalne. Myślę jednak, że ta modyfikacja ma lepszą przyczynę, dlatego jest uzasadniona. Powodem jest
a) Dane z mikromacierzy są dość hałaśliwe. Gdy przedmiotem zainteresowania jest efekt sondy, konieczna jest normalizacja danych za pomocą RMA, GCRMA, VSN itp. I może być korzystna dowolna specjalna struktura danych. Ale unikałbym wykonania drugiej części. Wynika to głównie z tego, że jeśli nie znamy struktury z wyprzedzeniem, lepiej nie narzucać wielu założeń.
b) Większość eksperymentów z mikromacierzami ma charakter eksploracyjny, to znaczy naukowcy starają się zawęzić do kilku zestawów „interesujących” genów do dalszej analizy lub eksperymentów. Jeśli geny te mają silny sygnał, modyfikacje takie jak normalizacje nie powinny (zasadniczo) wpływać na końcowe wyniki.
Dlatego modyfikacje mogą być uzasadnione. Ale muszę zauważyć, że przesadzenie z normalizacją może prowadzić do złych wyników.
źródło
Możesz znaleźć wskazówki na stronach 4 i 5 tego
Jest to metoda obliczania reszt dla modelu poprzez obliczenie wartości dla , i tak, że jeśli są zestawione w tabelach , mediana każdego wiersza i każdej kolumny wynosi 0.
Bardziej konwencjonalne podejście do obliczenia wartości , i tak że średnia (lub suma) każdego wiersza i każdej kolumny reszt wynosi 0.m ai bj
Zaletą stosowania mediany jest odporność na niewielką liczbę wartości odstających; wadą jest to, że wyrzucasz potencjalnie przydatne informacje, jeśli nie ma wartości odstających.
źródło
Wygląda na to, że czytasz artykuł z analizą ekspresji różnicowej genów. Po przeprowadzeniu badań dotyczących mikroukładów, mogę podzielić się niewielką wiedzą (mam nadzieję, że poprawną) na temat używania mediany polskiego.
Używanie środkowej wypolerowania podczas etapu podsumowania wstępnego przetwarzania mikromacierzy jest w pewnym sensie standardowym sposobem na usunięcie danych o wartościach odstających z idealnie dopasowanymi układami tylko dla sondy dopasowującej (przynajmniej dla RMA).
Mediana polerowania dla danych mikromacierzy to miejsce, w którym masz efekt mikroukładu i efekt sondy jako wiersze i kolumny:
dla każdego zestawu sond (złożonego z n liczby tej samej sondy) na x chipach:
gdzie iv są wartościami intensywności
Ze względu na zmienność intensywności sondy prawie wszystkie analizy danych z mikromacierzy są wstępnie przetwarzane przy użyciu pewnego rodzaju korekcji tła i normalizacji przed podsumowaniem.
oto kilka linków do wątków na liście mailingowej bioC, które mówią o użyciu mediany polskiego w porównaniu do innych metod:
https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html
https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html
Dane z tkanek i linii komórkowych są zwykle analizowane osobno, ponieważ podczas hodowli komórek ich profile ekspresji zmieniają się dramatycznie z pobranych próbek tkanek. Bez większej ilości papieru trudno jest stwierdzić, czy osobne przetwarzanie próbek było właściwe.
Etapy normalizacji, korekty tła i podsumowania w potoku analizy są modyfikacjami danych eksperymentalnych, ale w stanie nieprzetworzonym efekty mikroukładu, efekty wsadowe, efekty przetwarzania przesłaniają każdy sygnał do analizy. Te eksperymenty z mikromacierzami generują listy genów, które są kandydatami do dalszych eksperymentów (qPCR itp.) W celu potwierdzenia wyników.
Jeśli chodzi o kwestię ad hoc, zapytaj 5 osób, jaka różnica krotności jest wymagana, aby gen mógł być uważany za różnie wyrażany, a uzyskasz co najmniej 3 różne odpowiedzi.
źródło