Zastosowanie środkowej wypolerowanej do wyboru funkcji

W artykule, który ostatnio czytałem, w sekcji analizy danych natknąłem się na następujący fragment:

Tabela danych została następnie podzielona na tkanki i linie komórkowe, a dwie podtabele zostały oddzielnie wypolerowane mediany (wiersze i kolumny zostały iteracyjnie dostosowane do mediany 0) przed ponownym połączeniem w pojedynczą tabelę. W końcu wybraliśmy podzbiór genów, których ekspresja różniła się co najmniej 4-krotnie od mediany w tym zestawie próbek w co najmniej trzech testowanych próbkach

Muszę powiedzieć, że tak naprawdę tutaj nie rozumiem. Zastanawiałem się, czy możesz mi pomóc odpowiedzieć na dwa następujące pytania:

Dlaczego wskazane / pomocne jest dostosowanie mediany w zestawach danych? Dlaczego należy to robić osobno dla różnych rodzajów próbek?
Jak to nie modyfikuje danych eksperymentalnych? Czy jest to znany sposób wybierania wielu genów / zmiennych z dużego zestawu danych, czy raczej raczej doraźny?

Dzięki,

feature-selection median genetics posdef
źródło

Czy możesz wyjaśnić, jakiego rodzaju danych szukasz? Sądzę, że sądząc po tym, co zacytowałeś - dla mnie - metoda wydaje się bardzo doraźna.

suncoolsu

@ suncoolsu: to dane z mikromacierzy, jeśli znasz tę koncepcję. Jeśli nie, być może mógłbym to podsumować jako; jakie geny ulegają ekspresji, w jakim stopniu w badanych próbkach. Oto lepsze wyjaśnienie: en.wikipedia.org/wiki/Gene_expression_profiling

posdef

@ suncoolsu Prawie na pewno dane analizy ekspresji genów.

kriegar

Ok - nie byłem pewien, sekwencjonowanie nowej generacji również zyskuje na popularności.

suncoolsu

Odpowiedzi:

Tukey Median Polish, algorytm wykorzystywany jest w normalizacji RMA mikromacierzy. Jak być może wiesz, dane z mikromacierzy są dość hałaśliwe, dlatego potrzebują bardziej solidnego sposobu szacowania intensywności sond, biorąc pod uwagę obserwacje dla wszystkich sond i mikromacierzy. Jest to typowy model stosowany do normalizacji intensywności sond w różnych tablicach.

Y_{i j} = μ_{i} + α_{j} + ϵ_{i j}

$Y_{ij} = \mu_{i} + \alpha_{j} + \epsilon_{ij}$

i = 1, \dots, I j = 1, \dots, J

$i=1,\ldots,I \qquad j=1,\ldots, J$

Gdzie jest przekształca PM intensywności dla sondy o tablicy. to szum tła i można założyć, że odpowiadają one hałasowi w normalnej regresji liniowej. Jednak dystrybucyjne założenie dotyczące może być restrykcyjne, dlatego używamy Tukey Median Polish, aby uzyskać oszacowania dla i . Jest to niezawodny sposób normalizacji w różnych tablicach, ponieważ chcemy oddzielić sygnał, natężenie wywołane przez sondę, od efektu tablicy, . Możemy uzyskać sygnał normalizując dla efektu tablicy $Y_{ij}$ $log$ $i^{th}$ $j^{th}$ $\epsilon_{ij}$ $\epsilon$ $\hat{\mu_i}$ $\hat{\alpha_j}$ $\alpha$ $\hat{\alpha_j}$ dla wszystkich tablic. Tak więc pozostały nam tylko efekty sondy plus trochę losowego hałasu.

Link, który cytowałem wcześniej, wykorzystuje medianę Tukey do oszacowania genów o różnej ekspresji lub genów „interesujących” poprzez uszeregowanie według efektu sondy. Jednak papier jest dość stary i prawdopodobnie w tym czasie ludzie wciąż próbowali wymyślić, jak analizować dane z mikromacierzy. Nieparametryczny empiryczny dokument z Bayesowskich metod Efrona powstał w 2001 roku, ale prawdopodobnie nie był szeroko stosowany.

Jednak teraz rozumiemy wiele na temat mikromacierzy (statystycznie) i jesteśmy całkiem pewni ich analizy statystycznej.

Dane z mikromacierzy są dość hałaśliwe, a RMA (która wykorzystuje medianę polską) jest jedną z najpopularniejszych metod normalizacji, być może z powodu jej prostoty. Inne popularne i wyrafinowane metody to: GCRMA, VSN. Ważne jest znormalizowanie, ponieważ zainteresowanie jest efektem sondy, a nie efektem tablicy.

Jak można się spodziewać, analiza mogła skorzystać z niektórych metod, które wykorzystują pożyczanie informacji między genami. Mogą to być metody bayesowskie lub empiryczne metody bayesowskie. Być może papier, który czytasz, jest stary i do tego czasu te techniki nie były dostępne.

Jeśli chodzi o twój drugi punkt, tak, prawdopodobnie modyfikują one dane eksperymentalne. Myślę jednak, że ta modyfikacja ma lepszą przyczynę, dlatego jest uzasadniona. Powodem jest

a) Dane z mikromacierzy są dość hałaśliwe. Gdy przedmiotem zainteresowania jest efekt sondy, konieczna jest normalizacja danych za pomocą RMA, GCRMA, VSN itp. I może być korzystna dowolna specjalna struktura danych. Ale unikałbym wykonania drugiej części. Wynika to głównie z tego, że jeśli nie znamy struktury z wyprzedzeniem, lepiej nie narzucać wielu założeń.

b) Większość eksperymentów z mikromacierzami ma charakter eksploracyjny, to znaczy naukowcy starają się zawęzić do kilku zestawów „interesujących” genów do dalszej analizy lub eksperymentów. Jeśli geny te mają silny sygnał, modyfikacje takie jak normalizacje nie powinny (zasadniczo) wpływać na końcowe wyniki.

Dlatego modyfikacje mogą być uzasadnione. Ale muszę zauważyć, że przesadzenie z normalizacją może prowadzić do złych wyników.

suncoolsu
źródło

+1 To jest znacznie lepsza odpowiedź niż moja próba. Dzięki.

kriegar

@posdef. Zastanawiam się, czy w analizie statystycznej artykułu uczestniczył jakiś statystyk.

suncoolsu

dziękuję za dokładną odpowiedź. Myślę, że fakt, że jest to etap wstępnego przetwarzania, nie jest dobrze wyjaśniony (lub po prostu zakłada się, że jest dobrze znany) w pracy. Mówiąc o tym, artykuł został opublikowany w 2000 roku (w Nature), więc przypuszczam, że mieli przynajmniej trochę statystycznego spojrzenia na swoje metody, jeśli nie byli zaangażowani w pisanie. Ale oczywiście mogę tylko spekulować ... :)

posdef

@posdef. Ok- fajne odpowiedzi na wiele pytań. Rok 2000 był czasem, gdy ludzie wciąż zastanawiali się, jak analizować dane z mikromacierzy. FDR nie było wtedy fantazyjne :-)

suncoolsu

Możesz znaleźć wskazówki na stronach 4 i 5 tego

Jest to metoda obliczania reszt dla modelu poprzez obliczenie wartości dla , i tak, że jeśli są zestawione w tabelach , mediana każdego wiersza i każdej kolumny wynosi 0.

y_{i, j} = m + a_{i} + b_{j} + e_{i, j}

$y_{i,j} = m + a_i + b_j + e_{i,j}$

m

$m$

a_{i}

$a_i$

b_{j}

$b_j$

e_{i, j}

$e_{i,j}$

Bardziej konwencjonalne podejście do obliczenia wartości , i tak że średnia (lub suma) każdego wiersza i każdej kolumny reszt wynosi 0. $m$ $a_i$ $b_j$

Zaletą stosowania mediany jest odporność na niewielką liczbę wartości odstających; wadą jest to, że wyrzucasz potencjalnie przydatne informacje, jeśli nie ma wartości odstających.

Henz
źródło

dzięki za odpowiedź i link referencyjny. Nie widzę jednak, w jaki sposób ten model odnosi się do omawianego problemu. biorąc pod uwagę, że dane są porównawczymi wartościami wyrażeń (czytaj: obfitość), w jaki sposób można zdefiniować , i ??

a_{i}

$a_i$

b_{j}

$b_j$

e_{i, j}

$e_{i,j}$

posdef

Jeśli zamiast tego weźmiesz model obfitości, taki jak

n_{i, j} = n_{i} q_{j} + e_{i, j}

$n_{i,j} = n_i \,q_j + e_{i,j}$ lub jeden podobny

l o g (n_{i, j}) = l o g (n) + l o g (p_{i}) + l o g (q_{j}) + e_{i, j}

$log(n_{i,j}) = log(n) + log(p_i) + log(q_j) + e_{i,j}$ wtedy możesz zrobić zasadniczo to samo, ustawiając medianę każdego wiersza i każdej kolumny tabeli resztkowej na 0.

Henry

@Henry Jakie informacje są „wyrzucane” z medianą polerowaną, gdy nie ma „wartości odstających” (a co właściwie rozumiesz przez „wartość odstającą”)? W końcu możesz zrekonstruować dane dokładnie za pomocą wielkiej mediany, median wierszy i kolumn oraz reszt, z których wszystkie stanowią wynik mediany połysku. Jeśli masz na myśli, że resztki są odrzucane, to w jakim sensie „średni polski” (odpowiednik OLS) różni się pod tym względem?

whuber

@ whuber: Resztki są przechowywane w obu przypadkach. Średni połysk bierze pod uwagę to, jak daleko są obserwacje od centrum (w pewnym sensie równoważy wagi reszt), podczas gdy środkowy połysk sprawdza tylko, czy znajdują się powyżej, czy poniżej środka (w pewnym sensie równoważy liczba reszt). Dlatego informacja o wadze nie jest wykorzystywana, gdy używa się mediany jako centrum; może to być dobre, gdy niektóre znaczące wagi / pozostałości są tak wątpliwe, że wynik dla centrum nie może być zaufany, ale wymaga nieużywania informacji, jeśli nie.

Henry

@Henry Jeśli możesz odzyskać wszystkie oryginalne dane z polskiego, to jak „informacje” nie są „wykorzystywane”? BTW, mediana polski nie zachowuje się tak, jak się wydaje: resztki to różnice w wartościach , a nie w szeregach danych.

whuber

Wygląda na to, że czytasz artykuł z analizą ekspresji różnicowej genów. Po przeprowadzeniu badań dotyczących mikroukładów, mogę podzielić się niewielką wiedzą (mam nadzieję, że poprawną) na temat używania mediany polskiego.

Używanie środkowej wypolerowania podczas etapu podsumowania wstępnego przetwarzania mikromacierzy jest w pewnym sensie standardowym sposobem na usunięcie danych o wartościach odstających z idealnie dopasowanymi układami tylko dla sondy dopasowującej (przynajmniej dla RMA).

Mediana polerowania dla danych mikromacierzy to miejsce, w którym masz efekt mikroukładu i efekt sondy jako wiersze i kolumny:

dla każdego zestawu sond (złożonego z n liczby tej samej sondy) na x chipach:

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

gdzie iv są wartościami intensywności

Ze względu na zmienność intensywności sondy prawie wszystkie analizy danych z mikromacierzy są wstępnie przetwarzane przy użyciu pewnego rodzaju korekcji tła i normalizacji przed podsumowaniem.

oto kilka linków do wątków na liście mailingowej bioC, które mówią o użyciu mediany polskiego w porównaniu do innych metod:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

Dane z tkanek i linii komórkowych są zwykle analizowane osobno, ponieważ podczas hodowli komórek ich profile ekspresji zmieniają się dramatycznie z pobranych próbek tkanek. Bez większej ilości papieru trudno jest stwierdzić, czy osobne przetwarzanie próbek było właściwe.

Etapy normalizacji, korekty tła i podsumowania w potoku analizy są modyfikacjami danych eksperymentalnych, ale w stanie nieprzetworzonym efekty mikroukładu, efekty wsadowe, efekty przetwarzania przesłaniają każdy sygnał do analizy. Te eksperymenty z mikromacierzami generują listy genów, które są kandydatami do dalszych eksperymentów (qPCR itp.) W celu potwierdzenia wyników.

Jeśli chodzi o kwestię ad hoc, zapytaj 5 osób, jaka różnica krotności jest wymagana, aby gen mógł być uważany za różnie wyrażany, a uzyskasz co najmniej 3 różne odpowiedzi.

kriegar
źródło

Dziękuję za aktualizacje twojej odpowiedzi, myślę, że zaczynam wpadać na pomysł. Więc jeśli dobrze rozumiem, mediana polerowania służy do oceny technicznej zmienności w odniesieniu do sondy i układu? ... przed zsumowaniem eksperymentu do 1 matrycy przechowującej wartości ekspresji genów w różnych warunkach?

posdef

@posdef z mojego zrozumienia tak. Dla każdego zestawu sond na chipie (sondy o tej samej sekwencji) są rozrzucone sondy. plmimagegallery.bmbolstad.com dla niektórych pseudo obrazów żetonów. Oprócz zmienności w obrębie jednego układu, istnieje zmienność między układami. Ze względu na zmienność techniczną algorytmy są uruchamiane na surowych wartościach intensywności, aby uzyskać pojedynczą „wartość ekspresji” dla zestawu sond. Matryca tych wartości jest następnie dopasowywana, aby ustalić, czy geny ulegają ekspresji różnicowej w różnych warunkach.

kriegar