Mam zestaw danych, który zawiera ~ 7500 badań krwi od ~ 2500 osób. Próbuję dowiedzieć się, czy zmienność wyników badań krwi wzrasta, czy maleje wraz z upływem czasu między dwoma badaniami. Na przykład - pobieram twoją krew do testu podstawowego, a następnie natychmiast pobieram drugą próbkę. Sześć miesięcy później rysuję kolejną próbkę. Można oczekiwać, że różnica między testem początkowym a natychmiastowym powtórzeniem testu będzie mniejsza niż różnica między testem początkowym a testem sześciomiesięcznym.
Każdy punkt na wykresie poniżej odzwierciedla różnicę między dwoma testami. X oznacza liczbę dni między dwoma testami; Y jest wielkością różnicy między dwoma testami. Jak widać, testy nie są równomiernie rozmieszczone wzdłuż X - badanie nie zostało zaprojektowane, aby odpowiedzieć na to pytanie, naprawdę. Ponieważ punkty są tak mocno ułożone w środku, zawarłem 95% (niebieskie) i 99% (czerwone) linie kwantylowe, oparte na 28-dniowych oknach. Są one oczywiście przyciągane przez bardziej ekstremalne punkty, ale masz pomysł.
alt text http://a.imageshack.us/img175/6595/diffsbydays.png
Wydaje mi się, że zmienność jest dość stabilna. Jeśli już, to jest wyższy, gdy test powtarza się w krótkim czasie - to jest strasznie sprzeczne z intuicją. Jak mogę rozwiązać ten problem w sposób systematyczny, uwzględniając różne wartości n w każdym punkcie czasowym (i niektóre okresy bez testów w ogóle)? Twoje pomysły są bardzo mile widziane.
Dla porównania, jest to rozkład liczby dni między testem a ponownym testem:
alt text http://a.imageshack.us/img697/6572/testsateachtimepoint.png
źródło
Odpowiedzi:
Z twojego opisu nie widzę żadnego powodu, aby odróżniać „test podstawowy” od natychmiastowej „drugiej próbki”. Są to po prostu 2 pomiary podstawowe i na tej podstawie można obliczyć wariancję (na początku). Lepiej byłoby wykreślić średnią z dwóch pomiarów wyjściowych w porównaniu z trzecią próbką „sześciomiesięczną”.
Problem dotyczy próbki 6-miesięcznej. Ponieważ w tym momencie pobierana jest tylko jedna próbka, nie ma możliwości oszacowania „zmienności” w tym punkcie, a raczej oddzielenia zmienności próbkowania od podłużnej (rzeczywistej) zmiany odczytu TB.
Jeśli uznamy to za problem z analizą danych podłużnych, prawdopodobnie wybralibyśmy losowy punkt przecięcia (linia bazowa TB) i losowe nachylenie (w celu dopasowania do 6-miesięcznej TB). Zmienność próbkowania zostałaby oszacowana na podstawie dwóch pomiarów bazowych, a nachylenie na podstawie trzeciej 6-miesięcznej miary. Nie możemy oszacować zmienności po 6 miesiącach bez silnych założeń dotyczących dystrybucji w ciągu tych sześciu miesięcy, takich jak zakładanie braku zmian.
źródło