Dostosowanie do zmiennych towarzyszących w analizie krzywej ROC

20

To pytanie dotyczy oceny wyników granicznych w wielowymiarowym kwestionariuszu przesiewowym w celu przewidzenia binarnego punktu końcowego w obecności skorelowanych skal.

Zapytano mnie o zainteresowanie kontrolowaniem powiązanych wyników przy opracowywaniu punktów odcięcia dla każdego wymiaru skali pomiarowej (cechy osobowości), które mogłyby być wykorzystane do badań alkoholizmu. Oznacza to, że w tym konkretnym przypadku dana osoba nie była zainteresowana dostosowywaniem zewnętrznych zmiennych towarzyszących (predyktorów) - co prowadzi do (częściowego) obszaru pod krzywą ROC skorygowaną współzmiennie, np. (1-2) - ale zasadniczo na innych wynikach z tego samego kwestionariusza, ponieważ korelują ze sobą (np. „impulsywność” z „szukaniem wrażeń”). Sprowadza się to do zbudowania GLM, który zawiera po lewej stronie interesujący wynik (dla którego szukamy granicy) i inny wynik obliczony na podstawie tego samego kwestionariusza, podczas gdy po prawej stronie wynikiem może być stan picia.

Aby wyjaśnić (na żądanie @robin), załóżmy, że mamy wyniki, powiedzmy (np. Lęk, impulsywność, neurotyzm, poszukiwanie wrażeń) i chcemy znaleźć wartość (tj. „Przypadek dodatni” , w przeciwnym razie „przypadek ujemny”) dla każdego z nich. Zwykle dostosowujemy się do innych czynników ryzyka, takich jak płeć lub wiek, przy opracowywaniu takiego punktu odcięcia (za pomocą analizy krzywej ROC). A co z dostosowaniem impulsywności (IMP) do płci, wieku i poszukiwania wrażeń (SS), ponieważ wiadomo, że SS koreluje z IMP? Innymi słowy, mielibyśmy wartość odcięcia dla IMP, w której usunięto by wpływ wieku, płci i poziomu lęku.jot=4xjottjotxjot>tjot

Oprócz stwierdzenia, że ​​granica musi pozostać tak prosta, jak to możliwe, moja odpowiedź brzmiała:

Jeśli chodzi o zmienne towarzyszące, zaleciłbym oszacowanie AUC z korektą i bez korekty, aby sprawdzić, czy wydajność predykcyjna wzrośnie. Tutaj, twoje zmienne towarzyszące są jedynie innymi wynikami dodatkowymi zdefiniowanymi z tego samego przyrządu pomiarowego i nigdy nie spotkałem się z taką sytuacją (zwykle dostosowuję się do znanych czynników ryzyka, takich jak Wiek lub Płeć). [...] Ponadto, ponieważ interesują Cię kwestie prognostyczne (tj. Skuteczność badania przesiewowego kwestionariusza), możesz być również zainteresowany oszacowaniem dodatniej wartości predykcyjnej (PPV, prawdopodobieństwo pacjentów z pozytywnymi wynikami testu, którzy są prawidłowo sklasyfikowani), pod warunkiem jesteś w stanie klasyfikować przedmioty jako „pozytywne” lub „negatywne” w zależności od ich wyników w kwestionariuszu. Uwaga jednak

Czy lepiej rozumiesz tę konkretną sytuację, w miarę możliwości z linkami do odpowiednich dokumentów?

Bibliografia

  1. Janes, H and Pepe, MS (2008). Dostosowanie do zmiennych towarzyszących w badaniach markerów diagnostycznych, badań przesiewowych lub prognostycznych: stara koncepcja w nowym otoczeniu . American Journal of Epidemiology , 168 (1): 89–97.
  2. Janes, H and Pepe, MS (2008). Uwzględnianie zmiennych towarzyszących w analizie ROC . UW Biostatistics Working Paper Series , Paper 322.
chl
źródło
Nie jestem ekspertem, ale stwierdzenie „kontrolowanie powiązanych wyników przy opracowywaniu punktów odcięcia dla każdego wymiaru skali pomiarowej” jest nieco ezoteryczne. Czy możesz podać mi jeszcze jedną linię wyjaśnień (w przeciwnym razie trudno mi zrozumieć pytanie)?
robin girard
@robin Tak, w zasadzie miałem na myśli: mamy wyniki (np. lęk, impulsywność, neurotyzm, poszukiwanie wrażeń) i chcemy znaleźć wartość (tj. „przypadek dodatni” jeśli ”, przypadek ujemny „w przeciwnym razie) dla każdego z nich. Zwykle dostosowujemy się do innych czynników ryzyka, takich jak płeć lub wiek, przy opracowywaniu takiego punktu odcięcia (za pomocą analizy krzywej ROC). A co z dostosowaniem impulsywności (IMP) do płci, wieku i poszukiwania wrażeń (SS), ponieważ wiadomo, że SS koreluje z IMP? Innymi słowy, mielibyśmy wartość odcięcia dla IMP, w której usunięto by wpływ wieku, płci i poziomu lęku. jot=4tjotxjot>tjot
chl
Jeśli celem końcowym jest przewidzenie wartości binarnej, biorąc pod uwagę [skorelowane] odpowiedzi na pytania ankietowe, brzmi to jak standardowy problem z klasyfikacją binarną. Czy byłoby właściwe myśleć o tym w ten sposób? Czy też bardzo ważne jest wymyślenie „wartości odcięcia” (o których nic nie wiem)?
DavidR
@DavidR Cóż, chodzi o to, aby zdecydować o wartości granicznej (czytaj: „temat narażony na ryzyko powyżej określonej wartości”), co wiąże się z wieloma zastrzeżeniami z statystycznego punktu widzenia, ale większość klinicystów jest przyzwyczajona lub woli pracować tą drogą. (Przepraszam, że nie zauważyłem wcześniej komentarza!)
chl.

Odpowiedzi:

7

Sposób, w jaki przewidziałeś analizę, tak naprawdę nie jest taki, jak sugerowałbym, abyś zaczął o tym myśleć. Przede wszystkim łatwo jest wykazać, że w przypadku konieczności zastosowania wartości odcięcia, wartości odcięcia nie są stosowane do poszczególnych cech, ale do ogólnego przewidywanego prawdopodobieństwa. Optymalna wartość odcięcia dla jednego współzmiennego zależy od wszystkich poziomów pozostałych współzmiennych; to nie może być stałe. Po drugie, krzywe ROC nie odgrywają żadnej roli w osiąganiu celu, jakim jest podejmowanie optymalnych decyzji dla konkretnego pacjenta.

Do obsługi skorelowanych skal istnieje wiele technik redukcji danych, które mogą pomóc. Jedną z nich jest formalna analiza redundancji, w której każdy predyktor jest z kolei nieliniowo prognozowany na podstawie wszystkich innych predyktorów. Jest to zaimplementowane w redunfunkcji w Hmiscpakiecie R. Zmienne grupowanie, analiza głównych składników i analiza czynnikowa to inne możliwości. Ale moim zdaniem główną częścią analizy powinno być zbudowanie dobrego modelu prawdopodobieństwa (np. Binarny model logistyczny).

Frank Harrell
źródło
1
+1 za ważne rozróżnienie dotyczące decyzji indywidualnej vs. grupowej. Powinienem był przewidzieć twoją odpowiedź, biorąc pod uwagę twoją odpowiedź tutaj lub inną twoją odpowiedź na liście mailingowej medstats . Uważam również, że Twój wykład na temat bezpośrednich pomiarów narzędzia diagnostycznego opartego na modelach ryzyka diagnostycznego jest szczególnie pouczający w tym względzie.
chl
Dyskusję na temat bezpośrednich miar narzędzia diagnostycznego opartego na diagnostycznych modelach ryzyka można teraz znaleźć tutaj kc.vanderbilt.edu/quant/Seminar/HarrellPresentMay12.pdf
Epifunky
3

Punkt artykułu Janesa, Pepe'a na temat krzywych ROC skorygowanych o współzmienne pozwala na bardziej elastyczną interpretację szacowanych wartości krzywych ROC. Jest to metoda stratyfikacji krzywych ROC wśród określonych grup w populacji będącej przedmiotem zainteresowania. Oszacowana prawdziwie dodatnia frakcja (TPF; ekwiwalent czułości) i prawdziwie ujemna frakcja (TNF; ekwiwalent swoistości) są interpretowane jako „prawdopodobieństwo prawidłowego wyniku badania przesiewowego, biorąc pod uwagę, że stan choroby wynosi Y / N wśród osób o tej samej [skorygowanej zmiennej lista]". Na pierwszy rzut oka wydaje się, że to, co próbujesz zrobić, to ulepszyć test diagnostyczny, wprowadzając więcej markerów do panelu.

Dobrym tłem dla lepszego zrozumienia tych metod może być przeczytanie o modelu proporcjonalnych zagrożeń Coxa i przyjrzenie się książce Pepe'a „Statystyczna ocena badań medycznych do celów klasyfikacji i ...”. Zauważysz, że miary niezawodności przesiewania mają wiele podobnych właściwości z krzywą przeżycia, myśląc o dopasowanym wyniku jako czasie przeżycia. Podobnie jak model Coxa pozwala na rozwarstwienie krzywej przeżycia, tak samo proponowane są stratyfikowane miary niezawodności.

Powód, dla którego jest to dla nas ważne, może być uzasadniony w kontekście binarnego modelu mieszanych efektów: załóżmy, że jesteś zainteresowany przewidywaniem ryzyka uzależnienia od met. SES ma tak oczywisty dominujący wpływ na to, że głupotą wydaje się ocena testu diagnostycznego, który może być oparty na osobistych zachowaniach, bez jakiejkolwiek stratyfikacji. Wynika to z faktu, że [wystarczy rzucić na to], nawet jeśli bogata osoba wykazała objawy maniakalne i depresyjne, prawdopodobnie nigdy nie spróbuje met. Jednak biedna osoba wykazałaby znacznie większe ryzyko wystąpienia takich objawów psychicznych (i wyższy wynik ryzyka). Surowa analiza ryzyka wykazałaby bardzo słabą wydajność twojego modelu predykcyjnego, ponieważ te same różnice w dwóch grupach nie były wiarygodne. Jeśli jednak stratyfikujesz (bogaty kontra biedny),

Celem korekty współzmiennej jest rozważenie różnych grup jednorodnych ze względu na niższą częstość występowania i interakcję w modelu ryzyka między różnymi warstwami.

AdamO
źródło
(+1) To interesująca odpowiedź, bardzo dziękuję. Moją główną troską w momencie pisania tego tekstu było to, że wartości odcięcia będą nieco „współzależne”. Ale sprawdzę książkę Pepe'a ( w międzyczasie znalazłem tutaj materiały informacyjne ).
chl
Występują problemy z wykorzystaniem tych samych danych do opracowania i oceny testu medycznego, ale naprawa jest łatwa. Powinieneś rozważyć pewnego rodzaju weryfikację krzyżową lub podzielenie danych na podzbiory „szkoleniowe” i „weryfikacyjne”. Jest to zazwyczaj prawidłowe podejście do opracowania modelu diagnostycznego / prognostycznego / przewidywania ryzyka.
AdamO,