Patrzę na medianę przeżycia za pomocą Kaplana-Meiera w różnych stanach dla danego rodzaju raka. Istnieją dość duże różnice między stanami. Jak mogę porównać medianę przeżycia we wszystkich stanach i ustalić, które z nich znacznie różnią się od średniej mediany przeżycia w całym kraju?
12
Odpowiedzi:
Krzywą przeżycia Kaplana-Meiera należy pamiętać o tym, że jest ona zasadniczo opisowa, a nie wnioskowania . To tylko funkcja danych, za którą kryje się niezwykle elastyczny model. Jest to siła, ponieważ oznacza to, że nie ma praktycznie żadnych założeń, które mogłyby zostać złamane, ale słabość, ponieważ trudno jest ją uogólnić, i że pasuje ona zarówno do „szumu”, jak i do „sygnału”. Jeśli chcesz wyciągnąć wnioski, to w zasadzie musisz przedstawić coś, co jest nieznane, co chcesz wiedzieć.
Jednym ze sposobów porównania mediany czasów przeżycia jest przyjęcie następujących założeń:
Teraz „najbardziej konserwatywnym” sposobem wykorzystania tych założeń jest zasada maksymalnej entropii, więc otrzymujesz:
Gdzie i są wybrane tak, że PDF jest znormalizowany, a oczekiwana wartość to . Teraz mamy:λ t iK. λ tja
= K [ - e x p ( - λ T i )
I tak masz zestaw rozkładów prawdopodobieństwa dla każdego stanu.
Które dają łączny rozkład prawdopodobieństwa:
Teraz wygląda na to, że chcesz przetestować hipotezę , gdzie to średnia mediana czasu przeżycia. Surową alternatywną hipotezą do przetestowania jest hipoteza „każdy stan jest unikalnym i pięknym śniegu” ponieważ jest to najbardziej prawdopodobna alternatywa, a zatem reprezentuje informacje utracone podczas przechodzenia do prostszej hipotezy (test „minimax”). Miarę dowodów przeciwko prostszej hipotezie podaje iloraz szans:¯ t = 1H.0: T1= T2)= ⋯ = T.N.= t¯ HA:T1=t1,…,TN=tNt¯= 1N.∑N.i = 1tja H.ZA: T1= t1, … , TN.= tN.
Gdzie
jest średnią harmoniczną. Pamiętaj, że szanse zawsze będą sprzyjać doskonałemu dopasowaniu, ale nie za bardzo, jeśli mediana czasów przeżycia jest dość zbliżona. Ponadto daje to bezpośredni sposób na przedstawienie dowodów tego konkretnego testu hipotez:
założenia 1-3 dają maksymalne szanse na stosunku do równych mediany czasów przeżycia we wszystkich stanachO ( HZA| H.0) : 1
Połącz to z regułą decyzyjną, funkcją utraty, funkcją użyteczności itp., Która mówi, jak korzystne jest zaakceptowanie prostszej hipotezy, i masz już swój wniosek!
Nie ma ograniczenia co do liczby hipotez, które można przetestować i dać podobne szanse. Wystarczy zmienić aby określić inny zestaw możliwych „prawdziwych wartości”. Możesz wykonać „test istotności”, wybierając hipotezę jako:H.0
Tak więc hipoteza jest werbalna: „stan ma inną medianę przeżycia, ale wszystkie pozostałe stany są takie same”. A następnie ponownie wykonaj obliczenia ilorazu szans, które wykonałem powyżej. Chociaż powinieneś uważać na alternatywną hipotezę. Każde z poniższych jest „rozsądne” w tym sensie, że mogą to być pytania, na które chcesz odpowiedzieć (i na ogół będą mieć różne odpowiedzi)ja
Teraz jedną rzeczą, która została tutaj przeoczona, są korelacje między stanami - ta struktura zakłada, że znajomość mediany współczynnika przeżycia w jednym stanie nie mówi nic o medianie współczynnika przeżycia w innym stanie. Chociaż może się to wydawać „złe”, nie jest trudno poprawić, a powyższe obliczenia są dobrymi wynikami początkowymi, które są łatwe do obliczenia.
Dodanie połączeń między stanami zmieni modele prawdopodobieństwa i skutecznie zobaczysz pewne „połączenie” mediany czasów przeżycia. Jednym ze sposobów włączenia korelacji do analizy jest podzielenie prawdziwych czasów przeżycia na dwa składniki, „część wspólną” lub „trend” i „część indywidualną”:
A następnie ogranicz indywidualną część aby miała średnie zero we wszystkich jednostkach i nieznaną wariancję należy zintegrować, używając wcześniejszego opisu posiadanej wiedzy na temat indywidualnej zmienności, przed zaobserwowaniem danych (lub Jeffreyem wcześniej, jeśli nic nie wiem i pół cauchy, jeśli jeffreys powoduje problemy). σUja σ
źródło
Pomyślałem tylko, że dodam do tego tematu, że być może zainteresuje cię regresja kwantowa z cenzurą. Bottai i Zhang 2010 zaproponowali „regresję Laplace'a”, która może wykonać tylko to zadanie, plik PDF na ten temat można znaleźć tutaj . Istnieje pakiet dla Stata, który nie został jeszcze przetłumaczony na R, chociaż pakiet quantreg w R ma funkcję cenzurowanej regresji kwantyli, crq , która może być opcją.
Myślę, że to podejście jest bardzo interesujące i może być znacznie bardziej intuicyjne dla pacjentów, którzy ryzykują stosunki. Świadomość, że na przykład 50% leku przeżywa 2 miesiące więcej niż te, które go nie przyjmują, a działania niepożądane zmuszają cię do pozostania w szpitalu przez 1-2 miesiące, może znacznie ułatwić wybór leczenia.
źródło
Najpierw wizualizuję dane: obliczam przedziały ufności i standardowe błędy dla mediany przeżyć w każdym stanie i pokazuję CI na działce leśnej, mediany i ich SE za pomocą wykresu lejkowego.
„Średnia mediana przeżycia w całym kraju” to wielkość szacowana na podstawie danych, a zatem niepewna, dlatego nie można jej traktować jako ostrej wartości odniesienia podczas testowania istotności. Inną trudnością związaną z podejściem średniej dla wszystkich jest to, że porównując medianę stanu z nią, porównujesz medianę z wielkością, która już zawiera tę ilość jako składnik. Łatwiej więc porównać każdy stan ze wszystkimi innymi stanami łącznie. Można to zrobić, wykonując test rang dziennika (lub jego alternatyw) dla każdego stanu.
(Edytuj po przeczytaniu odpowiedzi na prawdopodobieństwo prawdopodobieństwa: test rang logarytmicznych porównuje przeżycie w dwóch (lub więcej) grupach, ale nie jest to mediana, którą porównuje. Jeśli masz pewność, że to mediana, którą chcesz porównać, możesz polegać na jego równaniach lub tutaj również zastosować ponowne próbkowanie)
Oznaczyłeś swoje pytanie [wiele porównań], więc zakładam, że chcesz również dostosować (zwiększyć) swoje wartości p w taki sposób, że jeśli zobaczysz co najmniej jedną skorygowaną wartość p mniejszą niż 5%, możesz stwierdzić, że „mediana przeżycia w poszczególnych stanach jest nie równe ”na poziomie istotności 5%. Możesz użyć ogólnych i zbyt konserwatywnych metod, takich jak Bonferroni, ale optymalny schemat korekcji uwzględni korelacje wartości p. Zakładam, że nie chcesz budować żadnej wiedzy a priori w schemacie korekcji, więc omówię schemat, w którym dopasowanie pomnoży każdą wartość p przez tę samą stałą C.
Ponieważ nie wiem, jak wyprowadzić formułę w celu uzyskania optymalnego mnożnika C, użyłbym ponownego próbkowania . Zgodnie z hipotezą zerową, że cechy przeżycia są takie same we wszystkich stanach, można więc permutować etykiety stanu przypadków raka i ponownie obliczyć mediany. Po uzyskaniu wielu wektorów o ponownie próbkowanych wartościach stanu p znajdowałbym liczbowo mnożnik C, poniżej którego mniej niż 95% wektorów nie zawiera istotnych wartości p, a powyżej których ponad 95%. Podczas gdy zakres wygląda na szeroki, wielokrotnie zwiększałbym liczbę próbek o rząd wielkości.
źródło