Mam wyniki testu krwi przeprowadzonego 2500 osób cztery razy w odstępach sześciomiesięcznych. Wyniki składają się przede wszystkim z dwóch miar odpowiedzi immunologicznej - jednej w obecności niektórych antygenów gruźlicy, drugiej w nieobecności. Obecnie każdy test ocenia się pozytywnie lub negatywnie na podstawie różnicy między odpowiedzią na antygen a odpowiedzią zerową (przy założeniu, że jeśli układ odpornościowy reaguje na antygeny TB, prawdopodobnie w pewnym momencie byłeś narażony na bakterię) ). Zasadniczo test zakłada, że rozkłady nieeksponowanej odpowiedzi zerowej i gruźlicy u osobników nie powinny być zasadniczo identyczne, podczas gdy osoba z ekspozycją na gruźlicę będzie miała reakcje gruźlicy pochodzące z innego rozkładu (wyższych wartości). Zastrzeżenie: reakcje są bardzo, bardzo nienormalne, a wartości gromadzą się zarówno na naturalnej podłodze, jak i na suficie ściętym przez instrument.
Jednak wydaje się całkiem jasne w tym ustawieniu podłużnym, że otrzymujemy „fałszywie dodatnie” (obawiam się, że nie ma rzeczywistego złotego standardu utajonej gruźlicy), które są spowodowane (zwykle niewielkimi) wahaniami w antygenie i brakiem odpowiedzi. Chociaż w niektórych sytuacjach może to być trudne do uniknięcia (możesz mieć tylko jedną szansę na przetestowanie kogoś), istnieje wiele sytuacji, w których ludzie są rutynowo badani pod kątem gruźlicy co roku - w Stanach Zjednoczonych jest to powszechne wśród pracowników służby zdrowia, wojsko, bezdomni przebywający w schroniskach i tak dalej. Szkoda zignorować wcześniejsze wyniki testów, ponieważ istniejące kryteria są przekrojowe.
Myślę , że to, co chciałbym zrobić, to to, co z grubsza wyobrażam sobie jako analizę mieszanki podłużnej. Podobnie jak w przypadku kryteriów przekrojowych, chciałbym być w stanie oszacować prawdopodobieństwo, że TB i brak odpowiedzi danej osoby są pobierane z tego samego rozkładu - ale aby ta ocena zawierała wcześniejsze wyniki testu, a także informacje z próbki jako całość (np. czy mogę zastosować rozkład zmienności wewnątrzosobniczych dla całej próby, aby poprawić swoje oszacowania rozkładu zerowego lub TB u konkretnej osoby?). Szacowane prawdopodobieństwo musiałoby oczywiście ulec zmianie w czasie, aby uwzględnić możliwość nowej infekcji.
Całkowicie się przekręciłem, próbując myśleć o tym w nietypowy sposób, ale wydaje mi się, że ta konceptualizacja jest tak dobra, jak każda inna, którą wymyślę. Jeśli coś nie ma sensu, prosimy o wyjaśnienia. Jeśli moje zrozumienie sytuacji wydaje się błędne, proszę o informację. Dziękuję bardzo za Twoją pomoc.
W odpowiedzi na Srikant: Jest to przypadek utajonej klasyfikacji (zarażony TB lub nie) przy użyciu dwóch ciągłych (ale nienormalnych i skróconych) wyników testu. W tej chwili klasyfikacja odbywa się przy użyciu granicy (w uproszczonej formie TB - zero> .35 -> dodatnia). Z wynikami testu przedstawionymi jako (zero, TB, wynik), podstawowymi archetypami * są:
Prawdopodobny wynik ujemny: (0,06, 0,15, -) (0,24, 0,23, -) (0,09, 0,11, -) (0,16, 0,15, -)
Prawdopodobny wynik dodatni: (0,05, 3,75, +) (0,05, 1,56, +) (0,06 , 5,02, +) (0,08, 4,43, +)
Wobler: (0,05, 0,29, -) (0,09, 0,68, +) (0,08, 0,31, -) (0,07, 0,28, -)
Pozytywne w drugim teście dla Wobblera jest dość wyraźną aberracją, ale jak byś to modelował? Podczas gdy jedną z moich myśli jest oszacowanie „prawdziwej różnicy” między gruźlicą a zerem w każdym punkcie czasowym przy użyciu modelu wielopoziomowego z powtarzanymi pomiarami, przyszło mi do głowy, że tak naprawdę chcę wiedzieć, czy odpowiedź tej osoby na zero i TB są pobierane z tego samego rozkładu lub jeśli ich układ odpornościowy rozpoznaje antygeny TB i aktywuje się, wytwarzając zwiększoną odpowiedź.
Co do tego, co może spowodować pozytywny test inny niż infekcja: nie jestem pewien. Podejrzewam, że zazwyczaj jest to tylko zmienność wyników w obrębie osoby, ale z pewnością istnieje możliwość wystąpienia innych czynników. Mamy kwestionariusze z każdego punktu czasowego, ale nie analizowałem ich jeszcze zbyt wiele.
* Sfabrykowane, ale przykładowe dane
źródło
Odpowiedzi:
To nie jest pełna odpowiedź, ale mam nadzieję, że da ci kilka pomysłów, jak modelować sytuację w spójny sposób.
Założenia
Wartości w dolnym końcu skali są zgodne z rozkładem normalnym obciętym od dołu.
Wartości w górnym końcu skali są zgodne z rozkładem normalnym obciętym z góry.
(Uwaga: Wiem, że powiedziałeś, że dane nie są normalne, ale zakładam, że masz na myśli rozkład wszystkich wartości, podczas gdy powyższe założenia dotyczą wartości z dolnej i górnej części skali).
Stan podstawowy danej osoby (niezależnie od tego, czy ma gruźlicę, czy nie) przebiega według łańcucha markowa pierwszego rzędu.
Model
Pozwolić:
Punkty 4 i 5 przedstawiają pogląd, że odpowiedź osoby na test NILL nie zależy od statusu choroby.
Punkty 6, 7 i 8 przedstawiają pogląd, że odpowiedź danej osoby na test TB jest zależna od statusu choroby.
Innymi słowy,
Twoje kryteria testu mówią, że:
Jednak, jak widać ze struktury modelu, można faktycznie sparametryzować wartości odcięcia i zmienić cały problem na taki, jaki powinien być poziom odcięcia, aby dokładnie zdiagnozować pacjentów. W związku z tym problem woblera wydaje się być bardziej problemem przy wyborze odcięć niż na czymkolwiek innym.
Aby wybrać „właściwe” wartości odcięcia, możesz wziąć dane historyczne dotyczące pacjentów ostatecznie zidentyfikowanych jako chorzy na gruźlicę i oszacować wynikające z nich parametry powyższej konfiguracji. Możesz użyć niektórych kryteriów, takich jak liczba pacjentów prawidłowo sklasyfikowanych jako chorzy na gruźlicę lub nie jako miernik, aby zidentyfikować „najlepszy” model. Dla uproszczenia można założyć, że jest parametrem niezmiennym w czasie, który wydaje się rozsądny w przypadku braku epidemii itp.p(t)
Mam nadzieję, że się przyda.
źródło
Tricky Matt, jak wiele problemów ze statystykami w świecie rzeczywistym!
Zacznę od zdefiniowania twoich celów / zadań.
Bez znajomości prawdziwego statusu badanych trudno będzie określić rozkłady prawdopodobieństwa dla testu TB + i TB-. Czy masz pytania dotyczące wcześniejszej infekcji gruźlicy (lub, lepiej, historii medycznej). Również nadal testuję TB + z powodu immunizacji w dzieciństwie - kilkadziesiąt lat temu - więc należy rozważyć wcześniejsze szczepienia.
Wydaje mi się, że twoim nieodłącznym pytaniem jest: czy powtarzane testy TB wpływają na wynik testu?
Warto byłoby otrzymać kopię Analizy danych podłużnych Petera Diggle'a .
Wykonaj analizę danych eksploracyjnych, w szczególności macierze wykresów punktowych wyników testu zerowego za każdym razem w stosunku do siebie, a wyniki testu TB za każdym razem w stosunku do siebie; oraz wykresy TB i zerowe (za każdym razem). Weź również różnice (test TB - test zerowy) i wykonaj macierze wykresów punktowych. Spróbuj przekształcić dane i powtórz je - Wyobrażam sobie log (TB) - log (zero) może pomóc, jeśli wyniki TB są bardzo duże w stosunku do zera. Poszukaj relacji liniowych w strukturze korelacji.
Innym podejściem byłoby wzięcie określonego wyniku testu (dodatni / ujemny) i modelowanie go logicznie przy użyciu nieliniowego modelu efektów mieszanych (link logit). Czy niektóre osoby przełączają się między testowaniem TB + na TB- i czy jest to związane z ich testem zerowym, testem TB, TB - zerowym lub jakąś transformacją wyników testu?
źródło