Jak porównać medianę przeżycia między grupami?

12

Patrzę na medianę przeżycia za pomocą Kaplana-Meiera w różnych stanach dla danego rodzaju raka. Istnieją dość duże różnice między stanami. Jak mogę porównać medianę przeżycia we wszystkich stanach i ustalić, które z nich znacznie różnią się od średniej mediany przeżycia w całym kraju?

Misza
źródło
Czy możesz podać jakieś wskazówki dotyczące wielkości próby, przedziału czasowego,% przeżycia itp., Abyśmy mogli lepiej zrozumieć projekt twojego badania?
chl
czy w danych są cenzurowane wartości - inne niż dla największych?
ronaf,
Dane rzeczywiście są cenzurowane, a całkowita populacja wynosi około 1500, mediana całkowitego przeżycia wynosi 18 miesięcy (zakres 300-600 dni) ... przedział czasowy to okres 2000-2007.
Misha,

Odpowiedzi:

6

Krzywą przeżycia Kaplana-Meiera należy pamiętać o tym, że jest ona zasadniczo opisowa, a nie wnioskowania . To tylko funkcja danych, za którą kryje się niezwykle elastyczny model. Jest to siła, ponieważ oznacza to, że nie ma praktycznie żadnych założeń, które mogłyby zostać złamane, ale słabość, ponieważ trudno jest ją uogólnić, i że pasuje ona zarówno do „szumu”, jak i do „sygnału”. Jeśli chcesz wyciągnąć wnioski, to w zasadzie musisz przedstawić coś, co jest nieznane, co chcesz wiedzieć.

Jednym ze sposobów porównania mediany czasów przeżycia jest przyjęcie następujących założeń:

  1. Mam szacunkową medianę czasu przeżycia dla każdego ze stanów , podaną za pomocą krzywej Kaplana Meiera. itii
  2. Oczekuję, że prawdziwa mediana czasu przeżycia będzie równa tej wartości szacunkowej. E ( T i | t i ) = t iTiE(Ti|ti)=ti
  3. Jestem w 100% pewien, że prawdziwa mediana czasu przeżycia jest dodatnia. Pr(Ti>0)=1

Teraz „najbardziej konserwatywnym” sposobem wykorzystania tych założeń jest zasada maksymalnej entropii, więc otrzymujesz:

p(Ti|ti)=Kexp(λTi)

Gdzie i są wybrane tak, że PDF jest znormalizowany, a oczekiwana wartość to . Teraz mamy:λ t iKλti

= K [ - e x p ( - λ T i )

1=0p(Ti|ti)dTi=K0exp(λTi)dTi
E ( T i ) = 1
=K[exp(λTi)λ]Ti=0Ti==KλK=λ
a teraz mamyE(Ti)=1λλ=ti1

I tak masz zestaw rozkładów prawdopodobieństwa dla każdego stanu.

p(Ti|ti)=1tiexp(Titi)(i=1,,N)

Które dają łączny rozkład prawdopodobieństwa:

p(T1,T2,,TN|t1,t2,,tN)=i=1N1tiexp(Titi)

Teraz wygląda na to, że chcesz przetestować hipotezę , gdzie to średnia mediana czasu przeżycia. Surową alternatywną hipotezą do przetestowania jest hipoteza „każdy stan jest unikalnym i pięknym śniegu” ponieważ jest to najbardziej prawdopodobna alternatywa, a zatem reprezentuje informacje utracone podczas przechodzenia do prostszej hipotezy (test „minimax”). Miarę dowodów przeciwko prostszej hipotezie podaje iloraz szans:¯ t = 1H0:T1=T2==TN=t¯HA:T1=t1,,TN=tNt¯=1Ni=1NtiHA:T1=t1,,TN=tN

O(HA|H0)=p(T1=t1,T2=t2,,TN=tN|t1,t2,,tN)p(T1=t¯,T2=t¯,,TN=t¯|t1,t2,,tN)
=[i=1N1ti]exp(i=1Ntiti)[i=1N1ti]exp(i=1Nt¯ti)=exp(N[t¯tharm1])

Gdzie

tharm=[1Ni=1Nti1]1t¯

jest średnią harmoniczną. Pamiętaj, że szanse zawsze będą sprzyjać doskonałemu dopasowaniu, ale nie za bardzo, jeśli mediana czasów przeżycia jest dość zbliżona. Ponadto daje to bezpośredni sposób na przedstawienie dowodów tego konkretnego testu hipotez:

założenia 1-3 dają maksymalne szanse na stosunku do równych mediany czasów przeżycia we wszystkich stanachO(HA|H0):1

Połącz to z regułą decyzyjną, funkcją utraty, funkcją użyteczności itp., Która mówi, jak korzystne jest zaakceptowanie prostszej hipotezy, i masz już swój wniosek!

Nie ma ograniczenia co do liczby hipotez, które można przetestować i dać podobne szanse. Wystarczy zmienić aby określić inny zestaw możliwych „prawdziwych wartości”. Możesz wykonać „test istotności”, wybierając hipotezę jako:H0

HS,i:Ti=ti,Tj=T=t¯(i)=1N1jitj

Tak więc hipoteza jest werbalna: „stan ma inną medianę przeżycia, ale wszystkie pozostałe stany są takie same”. A następnie ponownie wykonaj obliczenia ilorazu szans, które wykonałem powyżej. Chociaż powinieneś uważać na alternatywną hipotezę. Każde z poniższych jest „rozsądne” w tym sensie, że mogą to być pytania, na które chcesz odpowiedzieć (i na ogół będą mieć różne odpowiedzi)i

  • mój zdefiniowany powyżej - o ile gorzej jest porównaniu do idealnego dopasowania? H S , iHAHS,i
  • mój zdefiniowany powyżej - o ile lepszy jest porównaniu do przeciętnego dopasowania? H S , iH0HS,i
  • inny - o ile stan „bardziej odmienny” w porównaniu do stanu ? k iHS,kki

Teraz jedną rzeczą, która została tutaj przeoczona,korelacje między stanami - ta struktura zakłada, że ​​znajomość mediany współczynnika przeżycia w jednym stanie nie mówi nic o medianie współczynnika przeżycia w innym stanie. Chociaż może się to wydawać „złe”, nie jest trudno poprawić, a powyższe obliczenia są dobrymi wynikami początkowymi, które są łatwe do obliczenia.

Dodanie połączeń między stanami zmieni modele prawdopodobieństwa i skutecznie zobaczysz pewne „połączenie” mediany czasów przeżycia. Jednym ze sposobów włączenia korelacji do analizy jest podzielenie prawdziwych czasów przeżycia na dwa składniki, „część wspólną” lub „trend” i „część indywidualną”:

Ti=T+Ui

A następnie ogranicz indywidualną część aby miała średnie zero we wszystkich jednostkach i nieznaną wariancję należy zintegrować, używając wcześniejszego opisu posiadanej wiedzy na temat indywidualnej zmienności, przed zaobserwowaniem danych (lub Jeffreyem wcześniej, jeśli nic nie wiem i pół cauchy, jeśli jeffreys powoduje problemy). σUiσ

prawdopodobieństwo prawdopodobieństwa
źródło
(+1) Bardzo interesujące. Twój post zmusił mnie również do wstawienia komentarza do mojej odpowiedzi.
GaBorgulya,
Może mi tego brakowało, ale gdzie jest zdefiniowane ? M1
kardynał
@cardinal, przepraszam - to literówka. zostanie usunięty
prawdopodobieństwo jest
przeprosiny nie są konieczne. Po prostu nie byłem pewien, czy pominąłem to podczas czytania, czy po prostu brakowało mi czegoś oczywistego.
kardynał
4

Pomyślałem tylko, że dodam do tego tematu, że być może zainteresuje cię regresja kwantowa z cenzurą. Bottai i Zhang 2010 zaproponowali „regresję Laplace'a”, która może wykonać tylko to zadanie, plik PDF na ten temat można znaleźć tutaj . Istnieje pakiet dla Stata, który nie został jeszcze przetłumaczony na R, chociaż pakiet quantreg w R ma funkcję cenzurowanej regresji kwantyli, crq , która może być opcją.

Myślę, że to podejście jest bardzo interesujące i może być znacznie bardziej intuicyjne dla pacjentów, którzy ryzykują stosunki. Świadomość, że na przykład 50% leku przeżywa 2 miesiące więcej niż te, które go nie przyjmują, a działania niepożądane zmuszają cię do pozostania w szpitalu przez 1-2 miesiące, może znacznie ułatwić wybór leczenia.

Max Gordon
źródło
Nie znam „regresji Laplace'a”, ale jeśli chodzi o twój drugi akapit, zastanawiam się, czy dobrze go rozumiem. Zwykle w analizie przeżycia (myślenie w kategoriach przyspieszonego czasu awarii) powiedzielibyśmy coś w stylu „50 percentyl dla grupy leków pojawia się 2 miesiące później niż 50% dla grupy kontrolnej”. Czy to masz na myśli, czy wyjście LR daje inną interpretację?
Gung - Przywróć Monikę
@gung: Myślę, że masz rację w swojej interpretacji - zmieniłeś tekst, lepiej? Sam nie korzystałem z modeli regresji, chociaż ostatnio spotkałem je na kursie. To interesująca alternatywa dla zwykłych modeli Coxa, z których często korzystałem. Chociaż prawdopodobnie potrzebuję poświęcić więcej czasu na zastanowienie się nad tym pomysłem, wydaje mi się, że prawdopodobnie łatwiej jest mi wytłumaczyć moim pacjentom, ponieważ często używam krzywych KM podczas wyjaśniania moim pacjentom. HR żąda, abyś naprawdę zrozumiał różnicę między względnym a bezwzględnym ryzykiem - koncepcja, której wyjaśnienie może zająć trochę czasu ...
Max Gordon
Dziękuję @Misha za link. Autor ma tutaj odpowiedź: onlinelibrary.wiley.com/doi/10.1002/bimj.201100103/abstract
Max Gordon
3

Najpierw wizualizuję dane: obliczam przedziały ufności i standardowe błędy dla mediany przeżyć w każdym stanie i pokazuję CI na działce leśnej, mediany i ich SE za pomocą wykresu lejkowego.

„Średnia mediana przeżycia w całym kraju” to wielkość szacowana na podstawie danych, a zatem niepewna, dlatego nie można jej traktować jako ostrej wartości odniesienia podczas testowania istotności. Inną trudnością związaną z podejściem średniej dla wszystkich jest to, że porównując medianę stanu z nią, porównujesz medianę z wielkością, która już zawiera tę ilość jako składnik. Łatwiej więc porównać każdy stan ze wszystkimi innymi stanami łącznie. Można to zrobić, wykonując test rang dziennika (lub jego alternatyw) dla każdego stanu.
(Edytuj po przeczytaniu odpowiedzi na prawdopodobieństwo prawdopodobieństwa: test rang logarytmicznych porównuje przeżycie w dwóch (lub więcej) grupach, ale nie jest to mediana, którą porównuje. Jeśli masz pewność, że to mediana, którą chcesz porównać, możesz polegać na jego równaniach lub tutaj również zastosować ponowne próbkowanie)

Oznaczyłeś swoje pytanie [wiele porównań], więc zakładam, że chcesz również dostosować (zwiększyć) swoje wartości p w taki sposób, że jeśli zobaczysz co najmniej jedną skorygowaną wartość p mniejszą niż 5%, możesz stwierdzić, że „mediana przeżycia w poszczególnych stanach jest nie równe ”na poziomie istotności 5%. Możesz użyć ogólnych i zbyt konserwatywnych metod, takich jak Bonferroni, ale optymalny schemat korekcji uwzględni korelacje wartości p. Zakładam, że nie chcesz budować żadnej wiedzy a priori w schemacie korekcji, więc omówię schemat, w którym dopasowanie pomnoży każdą wartość p przez tę samą stałą C.

Ponieważ nie wiem, jak wyprowadzić formułę w celu uzyskania optymalnego mnożnika C, użyłbym ponownego próbkowania . Zgodnie z hipotezą zerową, że cechy przeżycia są takie same we wszystkich stanach, można więc permutować etykiety stanu przypadków raka i ponownie obliczyć mediany. Po uzyskaniu wielu wektorów o ponownie próbkowanych wartościach stanu p znajdowałbym liczbowo mnożnik C, poniżej którego mniej niż 95% wektorów nie zawiera istotnych wartości p, a powyżej których ponad 95%. Podczas gdy zakres wygląda na szeroki, wielokrotnie zwiększałbym liczbę próbek o rząd wielkości.

GaBorgulya
źródło
Dobra rada na temat wizualizacji danych. (+1)
prawdopodobieństwo
@probabilityislogic Dzięki! Z zadowoleniem przyjmuję także krytykę, szczególnie jeśli jest konstruktywna.
GaBorgulya,
jedyną krytyką, którą mam, jest użycie wartości p, ale jest to bardziej „czip na moim ramieniu” niż cokolwiek innego w twojej odpowiedzi - wydaje się, że jeśli zamierzasz użyć wartości p, to co polecasz, jest dobre. Po prostu nie sądzę, aby stosowanie wartości p było dobre. zobacz tutaj moją wymianę z @eduardo w komentarzach na temat wartości p.
prawdopodobieństwo