Właściwe stosowanie i interpretacja modeli nadmuchanych zerowo

11

Tło: Jestem obecnie biostatystą zmagającym się z zestawem danych dotyczących ekspresji komórkowej. W badaniu narażono wiele peptydów na wiele komórek zebranych w grupach od różnych dawców. Komórki albo wyrażają określone biomarkery w odpowiedzi, albo nie. Wskaźniki odpowiedzi są następnie rejestrowane dla każdej grupy dawcy. Wskaźniki odpowiedzi (wyrażone w procentach) są wynikiem zainteresowania, a ekspozycja na peptyd jest predyktorem.

Należy pamiętać, że obserwacje są skupione w obrębie dawców.

Ponieważ mam tylko dane podsumowujące, wskaźniki odpowiedzi od dawcy traktuję jako dane ciągłe (przynajmniej na razie).

Powikłanie wynika z faktu, że mam wiele zer w moich danych. Zbyt wiele, by je zignorować. Rozważam model nadmuchanego zera gamma, aby poradzić sobie z faktem, że wypaczyłem ciągłe dane w połączeniu z nadmiarem zer. Rozważyłem również model Tobita, ale wydaje się to gorsze, ponieważ zakłada cenzurę w dolnej granicy, w przeciwieństwie do prawdziwych zer (ekonometrycy mogliby powiedzieć, że rozróżnienie jest dyskusyjne).

Pytanie: Mówiąc ogólnie, kiedy właściwe jest zastosowanie modelu gamma z zerowym napełnieniem? To znaczy, jakie są założenia? A jak interpretuje się jego wnioski? Byłbym wdzięczny za linki do artykułów, które to omawiają, jeśli takie masz.

Znalazłem link na SAS-L, w którym Dale McLerran dostarcza kod NLMIXED dla modelu gamma z zerowym napełnieniem, więc wydaje się to możliwe. Niemniej jednak nie chciałbym szarżować na ślepo.

Brenden Dufault
źródło

Odpowiedzi:

5

Po pierwsze, nie widzisz prawdziwych zer w danych wyrażeń. Twój biolog mówi, że tak jak wszyscy biolodzy, ale kiedy biolog mówi „to zero”, to tak naprawdę oznacza „jest poniżej mojego progu wykrywalności, więc nie istnieje”. Jest to problem językowy z powodu braku matematycznego wyrafinowania w tej dziedzinie. Mówię tutaj z własnego doświadczenia.

Wyjaśnienie zerowej zawyżonej wartości gamma w podanym linku jest doskonałe. Fizycznym procesem prowadzącym do twoich danych jest, jeśli rozumiem, dawca jest wybierany, a następnie traktowany pewnym peptydem, a odpowiedź jest mierzona z komórek tego dawcy. Tutaj jest kilka warstw. Jednym z nich jest ogólna siła odpowiedzi dawcy, która wpływa na poziom ekspresji każdej konkretnej mierzonej komórki. Jeśli interpretujesz zmienną Bernoulliego w napompowanej zerowo gammie jako „reakcja dawcy jest wystarczająco silna do zmierzenia”, może być w porządku. Pamiętaj tylko, że w takim przypadku tłumisz hałas ekspresji pojedynczej komórki, różnicując się między silnie reagującymi dawcami. Ponieważ hałas w ekspresji w pojedynczej komórce jest z grubsza rozproszony gamma,

Jeśli dodatkowa odmiana od dawców przeciwko komórkom nie pogarsza dopasowania gamma, a ty po prostu próbujesz uzyskać ekspresję w porównaniu z zastosowanym peptydem, to nie ma powodu, dla którego to nie powinno być w porządku.

Jeśli konieczna jest bardziej szczegółowa analiza, zaleciłbym zbudowanie niestandardowego modelu hierarchicznego dopasowanego do procesu prowadzącego do twoich pomiarów.

użytkownik873
źródło
3

Znalazłem rozwiązanie, które uważam za dość eleganckie. W literaturze znajduje się doskonały artykuł zatytułowany „Analiza danych z powtarzanymi pomiarami ze zbijaniem zera”, który pokazuje model logarytmiczny z zawyżonym zerem dla skorelowanych danych. Autorzy udostępniają makro SAS oparte na PROC NLMIXED i dość łatwe do wdrożenia. Dobrą wiadomością jest to, że może to uprościć przypadki bez grupowania obserwacji poprzez pominięcie repeatedinstrukcji w makrze. Zła wiadomość jest taka, że ​​NLMIXED nie ma jeszcze wielu struktur korelacji, których często potrzebujemy, takich jak autoregresja.

Makro ma nazwę MIXCORR i zawiera bardzo przydatną stronę Wiki, którą można znaleźć tutaj . Samo makro można pobrać tutaj .

Gorąco polecam wszystkie te linki. Mam nadzieję, że okażą się przydatne.

Brenden Dufault
źródło