Jakie są zalety i wady korzystania z metody logrank vs. Mantel-Haenszel do obliczania współczynnika ryzyka w analizie przeżycia?

17

Jednym ze sposobów podsumowania porównania dwóch krzywych przeżycia jest obliczenie współczynnika ryzyka (HR). Istnieją (co najmniej) dwie metody obliczenia tej wartości.

  • Metoda logrank. W ramach obliczeń Kaplana-Meiera oblicz liczbę zaobserwowanych zdarzeń (zwykle zgonów) w każdej grupie ( i O b ) oraz liczbę oczekiwanych zdarzeń przy założeniu zerowej hipotezy o braku różnicy w przeżyciu ( E a i E b ). Współczynnik ryzyka wynosi zatem: H R = ( O a / E a )OaObEaEb
    HR=(Oa/Ea)(Ob/Eb)
  • Metoda Mantela-Haenszela. Najpierw oblicz V, które jest sumą wariancji hipergeometrycznych w każdym punkcie czasowym. Następnie oblicz współczynnik ryzyka jako: Mam oba te równania z rozdziału 3 Machin, Cheung i Parmar,Analiza przeżycia. Ta książka stwierdza, że ​​te dwie metody zwykle dają bardzo podobne metody i tak właśnie jest w przypadku przykładu w książce.
    HR=exp((OaEa)V)

Ktoś przysłał mi przykład, w którym dwie metody różnią się trzykrotnie. W tym konkretnym przykładzie oczywiste jest, że oszacowanie logranku jest rozsądne, a oszacowanie Mantela-Haenszela jest dalekie. Moje pytanie brzmi, czy ktoś ma jakieś ogólne porady dotyczące tego, kiedy najlepiej wybrać logrank oszacowania współczynnika ryzyka, a kiedy najlepiej wybrać szacunek Mantel-Haenszel? Czy ma to związek z rozmiarem próbki? Liczba remisów? Stosunek wielkości próbek?

Harvey Motulsky
źródło
Jak te szacunki odnoszą się do tej podanej przez regresję Coxa? To musi być złoty standard szacowania HR.
Aniko
Model Coxa zawiera zmienne towarzyszące. Metody Kaplana-Meiera, Nelsona-Aalena, Mantela-Haenszela modelują zagrożenie jako funkcję tylko wieku.
shabbychef,
@shabbychef: w przypadku Cox PH użyj pojedynczej zmiennej binarnej, tj. kodowanej 0/1 dla grup odniesienia / porównania, a następnie exp (beta) = HR.
ars
Log-rank jest bardziej zaawansowanym testem niż PH Coxa, gdy spełnione jest założenie proporcjonalnego hazardu. Tak więc w przypadku pojedynczej zmiennej dwupoziomowej preferowany jest test log-rank lub test Mantela-Haenszela.
Thylacoleo,
odpowiedź znajduje się poniżej ...
Thylacoleo,

Odpowiedzi:

11

Myślę, że wymyśliłem odpowiedź (na własne pytanie). Jeżeli założenie o proporcjonalnych zagrożeniach jest prawdziwe, obie metody dają podobne oszacowania współczynnika ryzyka. Rozbieżność, którą znalazłem w jednym konkretnym przykładzie, myślę teraz, wynika z faktu, że założenie to jest wątpliwe.

Jeśli założenie o proporcjonalnych zagrożeniach jest prawdziwe, wówczas wykres log (czas) vs log (-log (St)) (gdzie St jest proporcjonalnym przeżyciem w czasie t) powinien pokazywać dwie równoległe linie. Poniżej znajduje się wykres utworzony z zestawu danych problemów. Wydaje się dalekie od liniowego. Jeśli założenie o proporcjonalnych zagrożeniach jest nieważne, wówczas koncepcja współczynnika ryzyka jest bez znaczenia, a zatem nie ma znaczenia, która metoda zostanie zastosowana do obliczenia współczynnika ryzyka.

alternatywny tekst

Zastanawiam się, czy rozbieżność między oszacowaniami logrank a Mantel-Haenszel współczynnika ryzyka może być wykorzystana jako metoda do testowania założenia proporcjonalnych zagrożeń?

Harvey Motulsky
źródło
7

Jeśli się nie mylę, estymator rang logu, o którym mówisz, jest również znany jako estymator szczupaka. Uważam, że jest ogólnie zalecane dla HR <3, ponieważ wykazuje mniejszą tendencję w tym zakresie. Interesujący może być następujący artykuł (zwróć uwagę, że w dokumencie określa się go jako O / E):

[...] Metoda O / E jest stronnicza, ale w zakresie wartości współczynnika hazardu będącego przedmiotem zainteresowania w badaniach klinicznych jest bardziej skuteczna pod względem średniego błędu kwadratowego niż CML lub Mantel-Haenszel metoda dla wszystkich prócz największych prób. Metoda Mantela-Haenszela jest minimalnie stronnicza, daje odpowiedzi bardzo zbliżone do uzyskanych przy użyciu CML i może być stosowana do zapewnienia zadowalających przybliżonych przedziałów ufności.

ars
źródło
Po krótkim spojrzeniu na ten artykuł nie jestem pewien, czy szacunki, które uważają, są takie same jak te w równaniach pytającego. Zgadzam się z komentarzami do pytania - być może w 1981 r. Przydatne były metody przybliżone, ale obecnie nie ma oczywistego powodu, aby nie stosować regresji Coxa.
onestop
@onstop: hmm, pomyśl definicję O / E == LR z zapisem zapomnianym powyżej? Zgadzam się z tym, co mówisz o Cox PH - nie na to pytanie starałem się odpowiedzieć, ale twoja rada jest lepsza w szerszym kontekście.
ars
Bernstein i in. glin. pokaż niektóre powody (małe n, powiązania), które powodują, że obie metody są niedokładne lub różne. Ale wszystkie pokazane rozbieżności są niewielkie. Nie sądzę więc, aby cokolwiek w tym artykule wyjaśniało trzykrotną rozbieżność, która doprowadziła do tego pytania. Zobacz odpowiedź, na którą wpadłem.
Harvey Motulsky
7

W rzeczywistości istnieje kilka innych metod, a wybór często zależy od tego, czy najbardziej interesuje Cię szukanie wczesnych różnic, późniejszych różnic lub - jak w przypadku testu log-rank i testu Mantela-Haenszela - przypisać jednakową wagę wszystkim punktom czasowym.

Na pytanie. Test log-rank jest w rzeczywistości formą testu Mantela-Haenszela zastosowanego do danych dotyczących przeżycia. Test Mantela-Haenszela jest zwykle używany do testowania niezależności w warstwowych tabelach kontyngencji.

Jeśli spróbujemy zastosować test MH do danych dotyczących przeżycia, możemy zacząć od założenia, że ​​zdarzenia w każdym czasie awarii są niezależne. Następnie stratyfikujemy według czasu awarii. Używamy metod MH do tworzenia warstw każdego czasu awarii. Nic dziwnego, że często dają ten sam rezultat.

Wyjątek występuje, gdy jednocześnie występuje więcej niż jedno zdarzenie - wiele zgonów dokładnie w tym samym punkcie czasowym. Nie pamiętam, jak różni się leczenie. Myślę, że średnia logarytmiczna testu rangi dla możliwych kolejności powiązanych czasów awarii.

Więc test log-rank jest testem MH dla danych o przeżyciu i może poradzić sobie z więzami. Nigdy nie korzystałem z testu MH dla danych o przeżyciu.

Thylacoleo
źródło
3

Myślałem, że natknąłem się na stronę internetową i odnośniki, które dotyczą dokładnie tego pytania:

http://www.graphpad.com/faq/viewfaq.cfm?faq=1226 Zacznij od „Dwie porównywane metody”.

Witryna odwołuje się do ars Berste link link (powyżej):

http://www.jstor.org/stable/2530564?seq=1

Strona ładnie podsumowuje wyniki Bersteina i in., Dlatego zacytuję:

Oba zwykle dają identyczne (lub prawie identyczne) wyniki. Ale wyniki mogą się różnić, gdy kilka osób umiera w tym samym czasie lub gdy współczynnik ryzyka jest daleki od 1,0.

Bernsetin i współpracownicy przeanalizowali symulowane dane za pomocą obu metod (1). We wszystkich ich symulacjach założenie o proporcjonalnych zagrożeniach było prawdziwe. Dwie metody dały bardzo podobne wartości. Metoda logrank (którą nazywają metodą O / E) zgłasza wartości, które są bliższe 1,0 niż rzeczywisty współczynnik ryzyka, szczególnie gdy współczynnik ryzyka jest duży lub próbka jest duża.

W przypadku powiązań obie metody są mniej dokładne. Metody logrank mają tendencję do zgłaszania współczynników ryzyka, które są jeszcze bliższe 1,0 (więc zgłaszany współczynnik ryzyka jest zbyt mały, gdy współczynnik ryzyka jest większy niż 1,0, i zbyt duży, gdy współczynnik ryzyka jest mniejszy niż 1,0). Natomiast metoda Mantela-Haenszela zgłasza współczynniki ryzyka, które są dalej od 1,0 (więc zgłaszany współczynnik ryzyka jest zbyt duży, gdy współczynnik ryzyka jest większy niż 1,0, i zbyt mały, gdy współczynnik ryzyka jest mniejszy niż 1,0).

Nie przetestowali dwóch metod z symulowanymi danymi, w których założenie proporcjonalnych zagrożeń nie jest prawdziwe. Widziałem jeden zestaw danych, w którym dwa oszacowania HR były bardzo różne (trzykrotnie), a założenie o proporcjonalnych zagrożeniach było wątpliwe dla tych danych. Wydaje się, że metoda Mantela-Haenszela przywiązuje większą wagę do różnic w zagrożeniach w późnych punktach czasowych, podczas gdy metoda logrank nadaje równą wagę wszędzie (ale nie badałem tego szczegółowo). Jeśli widzisz bardzo różne wartości HR za pomocą dwóch metod, zastanów się, czy założenie proporcjonalnych zagrożeń jest uzasadnione. Jeśli to założenie nie jest rozsądne, to oczywiście cała koncepcja pojedynczego współczynnika ryzyka opisująca całą krzywą nie ma znaczenia

Witryna odwołuje się również do zestawu danych, w którym „dwa szacunki HR były bardzo różne (trzykrotnie)” i sugerują, że założenie PH jest kluczową kwestią.

Potem pomyślałem: „Kto jest autorem strony?” Po krótkich poszukiwaniach odkryłem, że to Harvey Motulsky. Więc Harveyowi udało mi się odesłać cię w odpowiedzi na twoje pytanie. Stałeś się autorytetem!

Czy „problematyczny zestaw danych” jest publicznie dostępnym zestawem danych?

Thylacoleo
źródło
Znalazłem odpowiedź dwa dni temu i zamieściłem ją tutaj jako nową odpowiedź. Następnie rozwinąłem i zaktualizowałem znalezioną stronę internetową graphpad.com. Właśnie edytowałem tę stronę ponownie, aby dołączyć link do pliku Excel z danymi problemu ( graphpad.com/faq/file/1226.xls ). Nie mogłem tego zrobić, dopóki nie otrzymałem pozwolenia od faceta, który wygenerował dane (chce być anonimowy, a dane są niejasno oznaczone).
Harvey Motulsky