Porównanie podłużne dwóch rozkładów

Mam wyniki testu krwi przeprowadzonego 2500 osób cztery razy w odstępach sześciomiesięcznych. Wyniki składają się przede wszystkim z dwóch miar odpowiedzi immunologicznej - jednej w obecności niektórych antygenów gruźlicy, drugiej w nieobecności. Obecnie każdy test ocenia się pozytywnie lub negatywnie na podstawie różnicy między odpowiedzią na antygen a odpowiedzią zerową (przy założeniu, że jeśli układ odpornościowy reaguje na antygeny TB, prawdopodobnie w pewnym momencie byłeś narażony na bakterię) ). Zasadniczo test zakłada, że rozkłady nieeksponowanej odpowiedzi zerowej i gruźlicy u osobników nie powinny być zasadniczo identyczne, podczas gdy osoba z ekspozycją na gruźlicę będzie miała reakcje gruźlicy pochodzące z innego rozkładu (wyższych wartości). Zastrzeżenie: reakcje są bardzo, bardzo nienormalne, a wartości gromadzą się zarówno na naturalnej podłodze, jak i na suficie ściętym przez instrument.

Jednak wydaje się całkiem jasne w tym ustawieniu podłużnym, że otrzymujemy „fałszywie dodatnie” (obawiam się, że nie ma rzeczywistego złotego standardu utajonej gruźlicy), które są spowodowane (zwykle niewielkimi) wahaniami w antygenie i brakiem odpowiedzi. Chociaż w niektórych sytuacjach może to być trudne do uniknięcia (możesz mieć tylko jedną szansę na przetestowanie kogoś), istnieje wiele sytuacji, w których ludzie są rutynowo badani pod kątem gruźlicy co roku - w Stanach Zjednoczonych jest to powszechne wśród pracowników służby zdrowia, wojsko, bezdomni przebywający w schroniskach i tak dalej. Szkoda zignorować wcześniejsze wyniki testów, ponieważ istniejące kryteria są przekrojowe.

Myślę , że to, co chciałbym zrobić, to to, co z grubsza wyobrażam sobie jako analizę mieszanki podłużnej. Podobnie jak w przypadku kryteriów przekrojowych, chciałbym być w stanie oszacować prawdopodobieństwo, że TB i brak odpowiedzi danej osoby są pobierane z tego samego rozkładu - ale aby ta ocena zawierała wcześniejsze wyniki testu, a także informacje z próbki jako całość (np. czy mogę zastosować rozkład zmienności wewnątrzosobniczych dla całej próby, aby poprawić swoje oszacowania rozkładu zerowego lub TB u konkretnej osoby?). Szacowane prawdopodobieństwo musiałoby oczywiście ulec zmianie w czasie, aby uwzględnić możliwość nowej infekcji.

Całkowicie się przekręciłem, próbując myśleć o tym w nietypowy sposób, ale wydaje mi się, że ta konceptualizacja jest tak dobra, jak każda inna, którą wymyślę. Jeśli coś nie ma sensu, prosimy o wyjaśnienia. Jeśli moje zrozumienie sytuacji wydaje się błędne, proszę o informację. Dziękuję bardzo za Twoją pomoc.

W odpowiedzi na Srikant: Jest to przypadek utajonej klasyfikacji (zarażony TB lub nie) przy użyciu dwóch ciągłych (ale nienormalnych i skróconych) wyników testu. W tej chwili klasyfikacja odbywa się przy użyciu granicy (w uproszczonej formie TB - zero> .35 -> dodatnia). Z wynikami testu przedstawionymi jako (zero, TB, wynik), podstawowymi archetypami * są:

Prawdopodobny wynik ujemny: (0,06, 0,15, -) (0,24, 0,23, -) (0,09, 0,11, -) (0,16, 0,15, -)
Prawdopodobny wynik dodatni: (0,05, 3,75, +) (0,05, 1,56, +) (0,06 , 5,02, +) (0,08, 4,43, +)
Wobler: (0,05, 0,29, -) (0,09, 0,68, +) (0,08, 0,31, -) (0,07, 0,28, -)

Pozytywne w drugim teście dla Wobblera jest dość wyraźną aberracją, ale jak byś to modelował? Podczas gdy jedną z moich myśli jest oszacowanie „prawdziwej różnicy” między gruźlicą a zerem w każdym punkcie czasowym przy użyciu modelu wielopoziomowego z powtarzanymi pomiarami, przyszło mi do głowy, że tak naprawdę chcę wiedzieć, czy odpowiedź tej osoby na zero i TB są pobierane z tego samego rozkładu lub jeśli ich układ odpornościowy rozpoznaje antygeny TB i aktywuje się, wytwarzając zwiększoną odpowiedź.

Co do tego, co może spowodować pozytywny test inny niż infekcja: nie jestem pewien. Podejrzewam, że zazwyczaj jest to tylko zmienność wyników w obrębie osoby, ale z pewnością istnieje możliwość wystąpienia innych czynników. Mamy kwestionariusze z każdego punktu czasowego, ale nie analizowałem ich jeszcze zbyt wiele.

* Sfabrykowane, ale przykładowe dane

repeated-measures Matt Parker
źródło

Aha i nie wahaj się ponownie tagować - moja przeglądarka nie działa z automatycznym sugerowaniem, więc trudno mi zobaczyć, co tam jest.

Matt Parker,

Czy twoja zmienna zależna jest ciągła czy dyskretna? A może wynik testu jest ciągły i jest przekształcany w dyskretną odpowiedź (tj. „Pozytywną”, „negatywną”) w zależności od pewnego punktu odcięcia? Czy możesz również wyjaśnić, dlaczego dana osoba zmienia stan z negatywnego na pozytywny, mimo że nie jest narażona na gruźlicę? Pomocny może być konkretny przykład (z podaniem niektórych liczb) takiego przerzucenia.

Przykłady są bardzo pomocne w wizualizacji danych. Kolejne pytanie dotyczące twojego zastrzeżenia: „wartości zbijają się w podłogę i sufit i że dane nie są normalne”. Czy możesz mi powiedzieć, czy (a) dane na dolnym końcu skali wyglądają normalnie i (b) dane na górnym końcu skali wyglądają normalnie?

Uwaga: najwidoczniej nie dotrzymałem terminu na przyznanie nagrody, więc ustanawiam kolejną, aby móc odpowiednio wynagrodzić Srikant za jego pomoc. Więcej odpowiedzi jest zawsze mile widziane, ale nagroda jest za niego.

Matt Parker,

Odpowiedzi:

To nie jest pełna odpowiedź, ale mam nadzieję, że da ci kilka pomysłów, jak modelować sytuację w spójny sposób.

Założenia

Wartości w dolnym końcu skali są zgodne z rozkładem normalnym obciętym od dołu.
Wartości w górnym końcu skali są zgodne z rozkładem normalnym obciętym z góry.

(Uwaga: Wiem, że powiedziałeś, że dane nie są normalne, ale zakładam, że masz na myśli rozkład wszystkich wartości, podczas gdy powyższe założenia dotyczą wartości z dolnej i górnej części skali).
Stan podstawowy danej osoby (niezależnie od tego, czy ma gruźlicę, czy nie) przebiega według łańcucha markowa pierwszego rzędu.

Model

Pozwolić:

$D_i(t)$ wynosi 1, jeśli w momencie w osoba ma TB i 0 inaczej $t$ $i^\mbox{th}$
$RTB_i(t)$ jest odpowiedzią testową na test TB w czasie osoby , $t$ $i^\mbox{th}$
$RN_i(t)$ jest odpowiedzią testową na test NILL w czasie osoby , $t$ $i^\mbox{th}$
$f(RN_i(t) | D_i(t)=0) \sim N(\mu_l,\sigma_l^2) I(RN_i(t) > R_l)$
$f(RN_i(t) | D_i(t)=1) \sim N(\mu_l,\sigma_l^2) I(RN_i(t) > R_l)$

Punkty 4 i 5 przedstawiają pogląd, że odpowiedź osoby na test NILL nie zależy od statusu choroby.
$f(RTB_i(t) | D_i(t)=0) \sim N(\mu_l,\sigma_l^2) I(RTB_i(t) > R_l)$
$f(RTB_i(t) | D_i(t)=1) \sim N(\mu_u,\sigma_u^2) I(RTB_i(t) < R_u)$
$\mu_u > \mu_l$

Punkty 6, 7 i 8 przedstawiają pogląd, że odpowiedź danej osoby na test TB jest zależna od statusu choroby.
$p(t)$ oznacza prawdopodobieństwo, że dana osoba złapie TB w ciągu 6 miesięcy poprzedzających czas biorąc pod uwagę, że była wolna od choroby w poprzednim okresie testowym. Zatem macierz przejścia stanu powinna wyglądać następująco: $t$

$\begin{bmatrix} 1-p(t) & p(t) \\ 0 & 1 \end{bmatrix}$

Innymi słowy,

$Prob(D_i(t)=1 | D_i(t-1) = 0) = p(t)$

$Prob(D_i(t)=0 | D_i(t-1) = 0) = 1-p(t)$

$Prob(D_i(t)=1 | D_i(t-1) = 1) = 1$

$Prob(D_i(t)=0 | D_i(t-1) = 1) = 0$

Twoje kryteria testu mówią, że:

$\hat{D}_i(t) = \begin{cases} 1, & RTB_i(t) - RN_i(t) \ge 0.35 \\ 0, & otherwise \end{cases}$

Jednak, jak widać ze struktury modelu, można faktycznie sparametryzować wartości odcięcia i zmienić cały problem na taki, jaki powinien być poziom odcięcia, aby dokładnie zdiagnozować pacjentów. W związku z tym problem woblera wydaje się być bardziej problemem przy wyborze odcięć niż na czymkolwiek innym.

Aby wybrać „właściwe” wartości odcięcia, możesz wziąć dane historyczne dotyczące pacjentów ostatecznie zidentyfikowanych jako chorzy na gruźlicę i oszacować wynikające z nich parametry powyższej konfiguracji. Możesz użyć niektórych kryteriów, takich jak liczba pacjentów prawidłowo sklasyfikowanych jako chorzy na gruźlicę lub nie jako miernik, aby zidentyfikować „najlepszy” model. Dla uproszczenia można założyć, że jest parametrem niezmiennym w czasie, który wydaje się rozsądny w przypadku braku epidemii itp. $p(t)$

Mam nadzieję, że się przyda.

źródło

Dzięki, Srikant! Przepraszam, jakoś przegapiłem twój komentarz wcześniej. Górna gromada jest tak naprawdę tylko kolcem tuż przy suficie - nie ma tam żadnej zmienności, z wyjątkiem długiego odcinka jednorodności, który łączy ją z dolnym rozkładem, co jest w zasadzie jak opisujesz. Zajmie mi trochę czasu, aby przeanalizować twoją odpowiedź (zwłaszcza, że utknąłem w IE i nie mogę teraz właściwie zobaczyć LaTeXa), ale naprawdę doceniam twoje poświęcenie dla tego dziwnego małego pytania.

Matt Parker,

Tricky Matt, jak wiele problemów ze statystykami w świecie rzeczywistym!

Zacznę od zdefiniowania twoich celów / zadań.

Bez znajomości prawdziwego statusu badanych trudno będzie określić rozkłady prawdopodobieństwa dla testu TB + i TB-. Czy masz pytania dotyczące wcześniejszej infekcji gruźlicy (lub, lepiej, historii medycznej). Również nadal testuję TB + z powodu immunizacji w dzieciństwie - kilkadziesiąt lat temu - więc należy rozważyć wcześniejsze szczepienia.

Wydaje mi się, że twoim nieodłącznym pytaniem jest: czy powtarzane testy TB wpływają na wynik testu?

Warto byłoby otrzymać kopię Analizy danych podłużnych Petera Diggle'a .

Wykonaj analizę danych eksploracyjnych, w szczególności macierze wykresów punktowych wyników testu zerowego za każdym razem w stosunku do siebie, a wyniki testu TB za każdym razem w stosunku do siebie; oraz wykresy TB i zerowe (za każdym razem). Weź również różnice (test TB - test zerowy) i wykonaj macierze wykresów punktowych. Spróbuj przekształcić dane i powtórz je - Wyobrażam sobie log (TB) - log (zero) może pomóc, jeśli wyniki TB są bardzo duże w stosunku do zera. Poszukaj relacji liniowych w strukturze korelacji.

Innym podejściem byłoby wzięcie określonego wyniku testu (dodatni / ujemny) i modelowanie go logicznie przy użyciu nieliniowego modelu efektów mieszanych (link logit). Czy niektóre osoby przełączają się między testowaniem TB + na TB- i czy jest to związane z ich testem zerowym, testem TB, TB - zerowym lub jakąś transformacją wyników testu?

Thylacoleo
źródło

Dzięki za odpowiedź. Jeśli chodzi o nie znanie prawdziwego statusu: mamy obszerne kwestionariusze i doskonale zdajemy sobie sprawę z problemu szczepionki BCG w teście skórnym - w rzeczywistości te badania krwi powinny rozwiązać ten problem, ponieważ używają innego zestawu antygenów niż PPD są przyzwyczajeni. To jednak prawie osobne pytanie, nad którym będziemy pracować nieco później - w tej chwili moim zainteresowaniem jest uczynienie tego testu „długowiecznie świadomym”.

Matt Parker,

... zwłaszcza, że niektóre osoby zmieniają wartości z negatywnych na pozytywne, a to często jest wynikiem ich typowych wartości zero i TB powodujących niewielkie fluktuacje - zero w dół, TB trochę w górę, i nagle są pozytywne. W następnym teście wrócili do bycia negatywnymi. Widzę to, kiedy przeglądam poszczególne wyniki, ale nie jestem pewien, jak odpowiednio włączyć moją intuicję do modelu.

Matt Parker,

Wreszcie, chociaż próbowałem pobrać wyniki dziennika, nie wydaje się to wystarczające, aby zbliżyć je nawet do normalności. Są bardzo, bardzo wypaczone, a obcięcie w górnej części komplikuje to jeszcze bardziej, dodając zauważalną kroplę gęstości na suficie. Co ciekawe, rozkład wyników zero i TB w całej próbce jest dość podobny, z tą różnicą, że kropelka na suficie jest znacznie większa dla wyników TB.

Matt Parker,

Dzięki za poświęcenie czasu na przeczytanie i odpowiedź na to bestia pytania!

Matt Parker,