Chciałbym wiedzieć, która literatura statystyczna jest istotna dla następującego problemu, a może nawet pomysł, jak go rozwiązać.
Wyobraź sobie następujący problem:
Mamy 4 możliwe sposoby leczenia niektórych chorób. Aby sprawdzić, które leczenie jest lepsze, przeprowadzamy specjalną próbę. W rozprawie zaczynamy od braku podmiotów, a następnie, jeden po drugim, kolejnych uczestników jest włączanych do badania. Każdy pacjent jest losowo przydzielany do jednego z 4 możliwych zabiegów. Końcowy wynik leczenia jest „zdrowy” lub „nadal chory” i powiedzmy, że możemy natychmiast poznać ten wynik. Oznacza to, że w dowolnym momencie możemy stworzyć tabelę awaryjną dwa na cztery, mówiąc, ilu naszych pacjentów wpadło do którego leczenia / wyniku końcowego.
W dowolnym momencie możemy sprawdzić tabelę nieprzewidzianych zdarzeń (na przykład za pomocą testu chi-kwadrat), aby sprawdzić, czy istnieje statystycznie różne leczenie między 4 możliwymi zabiegami. Jeśli jeden z nich jest lepszy niż cała reszta - zatrzymujemy próbę i wybieramy ją jako „zwycięzcę”. Jeśli okaże się, że niektóre badania są gorsze niż wszystkie pozostałe trzy, usuniemy go z badania i przestaniemy przekazywać go przyszłym pacjentom.
Problem polega jednak na tym, jak dostosować wartość p dla faktu, że test można wykonać w dowolnym punkcie, że istnieje korelacja między testami, a także, że adaptacyjny charakter procesu manipuluje procesem (dla na przykład, jeśli okaże się, że pewne leczenie jest „złe”)?
Odpowiedzi:
Ten obszar kolejnych badań klinicznych został zasadniczo zbadany w literaturze. Niektórzy z wybitnych badaczy to między innymi Scott Emerson, Tom Flemming, David DeMets, Stephen Senn i Stuart Pocock.
Możliwe jest określenie „reguły wydatkowania alfa”. Termin ten ma swoje źródło w charakterze testów częstych (niefisheryjskich), w których każde działanie, które zwiększa ryzyko fałszywie dodatniego wyniku, musi koniecznie zmniejszyć moc, aby utrzymać prawidłowy rozmiar testu. Jednak większość takich testów wymaga, aby „reguły zatrzymywania” były wstępnie określone w oparciu o granice informacyjne badania. (dla przypomnienia, więcej informacji oznacza większą moc, gdy wartość null jest fałszywa).
Wygląda na to, że to, co Cię interesuje, to ciągły proces monitorowania, w którym każde wydarzenie gwarantuje „spojrzenie” na dane. Według mojej najlepszej wiedzy taki test nie ma mocy. Można tego dokonać za pomocą analizy bayesowskiej, w której tylna część ciała jest stale aktualizowana w funkcji czasu, a współczynniki Bayesa służą raczej do podsumowania dowodów niż wartości .p
Widzieć
[1] www.rctdesign.org/
źródło
To brzmi jak symulacja jest w porządku.
Więc symulowałem twoją procedurę w następujący sposób: osób jest dodawanych do badania jeden po drugim, losowo przypisywanych do jednej z grup. Wynik leczenia tej osoby jest wybierany losowo (tzn. Symuluję zerową hipotezę wszystkich zabiegów o zerowym efekcie). Po dodaniu każdej osoby wykonuję test chi kwadrat na tabeli nieprzewidzianych zdarzeń i sprawdzam, czy . Jeśli tak, to (i tylko wtedy) wykonuję dodatkowo testy chi-kwadrat na zredukowanych tabelach kontyngencji aby przetestować każdą grupę względem pozostałych trzech grup zebranych razem. Jeśli jeden z tych czterech kolejnych testów okaże się znaczący (z tym samymN=1000 4 4×2 p≤α 2×2 α ), a następnie sprawdzam, czy to leczenie działa lepiej czy gorzej niż pozostałe trzy połączone razem. Jeśli gorzej, wyrzucam to leczenie i kontynuuję dodawanie ludzi. Jeśli lepiej, zatrzymam proces. Jeśli wszystkie osób zostanie dodanych bez zwycięskiego leczenia, próba zostanie zakończona (zauważ, że wyniki mojej analizy będą silnie zależeć od ).N N
Teraz możemy uruchomić to wiele razy i dowiedzieć się, w jakim ułamku serii jeden z zabiegów wychodzi jako zwycięzca - byłyby to wyniki fałszywie pozytywne. Jeśli uruchomię go 1000 razy dla nominalnego , otrzymam 282 fałszywie dodatnie, tj . Współczynnik błędu typu II.α=0.05 0.28
Możemy powtórzyć całą analizę dla kilku nominalnych i zobaczyć, jaki rzeczywisty poziom błędu otrzymujemy: Więc jeśli chcesz utrzymać rzeczywisty poziom błędu, powiedzmy na poziomie , powinieneś wybrać nominalny około - ale oczywiście lepiej jest uruchomić dłuższa symulacja w celu dokładniejszego oszacowania.α
Mój szybki i brudny kod w Matlabie znajduje się poniżej. Należy pamiętać, że ten kod jest mózgowy i w ogóle nie zoptymalizowany; wszystko działa w pętli i jest strasznie wolne. Prawdopodobnie można to znacznie przyspieszyć.
źródło