Analiza ROC i multiROC: jak obliczyć optymalny punkt odcięcia?

14

Próbuję zrozumieć, jak obliczyć optymalny punkt odcięcia dla krzywej ROC (wartość, przy której czułość i swoistość są zmaksymalizowane). Korzystam z zestawu danych aSAHz pakietu pROC.

outcomeZmienna może być wyjaśnione przez dwóch niezależnych zmiennych: s100ba ndka. Korzystając ze składni Epipakietu, stworzyłem dwa modele:

library(pROC)
library(Epi)
ROC(form=outcome~s100b, data=aSAH)
ROC(form=outcome~ndka, data=aSAH)

Dane wyjściowe są zilustrowane na następujących dwóch wykresach:

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj

Na pierwszym wykresie ( s100b) funkcja mówi, że optymalny punkt odcięcia jest zlokalizowany na wartości odpowiadającej lr.eta=0.304. Na drugim wykresie ( ndka) optymalny punkt odcięcia jest zlokalizowany na odpowiadającej wartości lr.eta=0.335(co oznacza lr.eta). Moje pierwsze pytanie brzmi:

  • jakie są odpowiednie s100bi ndkawartości dla lr.etawskazanych wartości (jaki jest optymalny punkt odcięcia pod względem s100bi ndka)?

DRUGIE PYTANIE:

Załóżmy teraz, że tworzę model uwzględniający obie zmienne:

ROC(form=outcome~ndka+s100b, data=aSAH)

Otrzymany wykres to:

wprowadź opis zdjęcia tutaj

Chcę wiedzieć, jakie są wartości ndkaAND, s100bprzy których wrażliwość i swoistość są maksymalizowane przez funkcję. Innymi słowy: jakie są wartości ndkai s100bdla których mamy Se = 68,3% i Sp = 76,4% (wartości uzyskane z wykresu)?

Przypuszczam, że to drugie pytanie jest związane z analizą multiROC, ale dokumentacja Epipakietu nie wyjaśnia, jak obliczyć optymalny punkt odcięcia dla obu zmiennych użytych w modelu.

Moje pytanie wydaje się bardzo podobne do tego z reasearchGate , które mówi w skrócie:

Określenie wyniku granicznego, który reprezentuje lepszy kompromis między czułością a swoistością miary, jest proste. Jednak w przypadku wielowymiarowej analizy krzywej ROC zauważyłem, że większość badaczy skupiła się na algorytmach w celu określenia ogólnej dokładności liniowej kombinacji kilku wskaźników (zmiennych) pod względem AUC. [...]

Jednak metody te nie wspominają o tym, jak wybrać kombinację wyników odcięcia związanych z wieloma wskaźnikami, które zapewniają najlepszą dokładność diagnostyczną.

Możliwym rozwiązaniem jest to, które zaproponował Shultz w swoim artykule , ale z tego artykułu nie jestem w stanie zrozumieć, jak obliczyć optymalny punkt odcięcia dla wielowymiarowej krzywej ROC.

Być może rozwiązanie z Epipakietu nie jest idealne, więc wszelkie inne pomocne linki będą mile widziane.

Tommaso
źródło

Odpowiedzi:

10

Aby rozwinąć odpowiedź Franka Harrella, Epipakiet polegał na dopasowaniu regresji logistycznej i stworzeniu krzywej ROC z przewidywanymi wynikami w następującej formie:

outcome=11+e(β0+β1s100b+β2ndka)

β0β1β2

0.312=11+e(2.379+5.334s100b+0.031ndka)
1.588214=5.334s100b+0.031ndka
s100b=1.5882140.031ndka5.334

Każda para (s100b, ndka) wartości, które spełniają tę równość, jest „optymalna”. Nieszczęście dla ciebie, istnieje nieskończoność tych par. Na przykład (0,29, 1), (0, 51,2) itd. Co gorsza, większość z nich nie ma żadnego sensu. Co oznacza para (-580, 10000)? Nic!

Innymi słowy, nie możesz ustalić wartości odcięcia na wejściach - musisz to zrobić na wyjściach, i to jest sedno modelu.

Calimo
źródło
8

Y^

Frank Harrell
źródło
Rozumiem problem, który wyjaśniłeś. Nawiasem mówiąc, zastanawiam się, czy istnieje metoda obliczania punktów odcięcia dla dwóch (lub więcej) równoległych testów, w celu zwiększenia Sens i Spec identyfikacji określonego statusu (choroby / wyniku / itp.). ). Z góry dziękuję.
Tommaso,
1
Ponieważ „optymalny” punkt odcięcia dla x1 zależałby od ciągłej wartości x2, a „optymalny” punkt odcięcia dla x2 zależałby od ciągłej wartości x1, nie ma sposobu, aby to zrobić i zachować wystarczającą ilość informacji, aby nie była nieszczęście.
Frank Harrell,
Więc nie ma sposobu na znalezienie punktów odcięcia dla dwóch lub więcej testów, aby zmaksymalizować czułość i swoistość? Oczywiście metoda, która nie jest analizą multiROC. Dzięki jeszcze raz.
Tommaso,
2
Po prostu nie należy szukać ograniczeń w nakładach. Optymalne decyzje są podejmowane bez żadnych wartości odcięcia lub, w razie potrzeby, przed podjęciem decyzji, poprzez odcięcie przewidywanych prawdopodobieństw. Narzędzia (strata / koszt) są potrzebne do rozwiązania w celu optymalnego odcięcia przewidywanego ryzyka.
Frank Harrell,
1
Krzywe ROC nie mają nic wspólnego z osiągnięciem tego celu. Aby to zrobić, musisz powiązać SCr z wynikiem lub po prostu obliczyć prawdopodobieństwo uzyskania bardziej ekstremalnego SCr niż w normalnej populacji.
Frank Harrell,
3

lr.etaηROC

Twoje pierwsze zdanie powinno powiedzieć (o czym świadczą wykresy), że szukasz, gdzie zmaksymalizowana jest suma czułości i swoistości. Ale dlaczego to „optymalne”? Czy wynik fałszywie dodatni ma taki sam import jak wynik fałszywie ujemny? Zobacz tutaj .

Scortchi - Przywróć Monikę
źródło
To prawda, mogę obliczyć punkt odcięcia na podstawie dopasowanego modelu (dla jednej niezależnej zmiennej) lub alternatywnie, używając coordsfunkcji z pROCpakietu, jak później odkryłem. Optymalnym punktem odcięcia była w moim przypadku najlepsza kombinacja Sens i Spec; Przeczytałem powiązaną odpowiedź, ale nie dbam (przynajmniej na razie) o wyniki fałszywie dodatnie i fałszywie ujemne, ponieważ (jeśli dobrze rozumiem) analizuję grupę zebranych danych do badań.
Tommaso,
Co nie dbasz o czym? Co robisz z punktem odcięcia, który nie wymaga uwzględnienia konsekwencji? A to co to jest „optymalny” lub „najlepsze” dla ?
Scortchi - Przywróć Monikę
Tommaso zdefiniował „optymalny” jako „wartość, przy której czułość i swoistość są zmaksymalizowane” (cytując pierwsze zdanie pytania), domyślnie oznaczając maksimum (czułość + specyficzność). Czy ma to sens, czy nie (a kiedy czytam, że go to nie obchodzi, jestem skłonny myśleć, że to nie ma znaczenia) to inna kwestia.
Calimo
1
Takie podejście jest sprzeczne z podejmowaniem decyzji.
Frank Harrell,
1
Myślę, że jeśli poprawnie czytam twój post, lr.etato jest dokładnie ta druga opcja, o której wspominasz: prawdopodobieństwo z dopasowanego modelu: . Sprawdź to, jeśli masz minutę. E[Yi|Xi]=11+e(β0+β1×s100b)
Antoni Parellada,
0

Możesz znaleźć próg, przy którym prawdziwa dodatnia częstość (tpr) przecina prawdziwą ujemną (tnr), będzie to punkt, w którym suma fałszywie dodatnich i fałszywych ujemnych jest minimalna.

użytkownik69641
źródło
Odpowiedź w jednym zdaniu jest zwykle uważana za krótką w stosunku do naszego formatu. Czy możesz rozszerzyć swoją odpowiedź, aby zawierała krótkie wyjaśnienie tego, skąd wiesz, że to musi być minimum?
Glen_b
1
Taka strategia stoi w obliczu optymalnego podejmowania decyzji.
Frank Harrell,