Próbuję zrozumieć, jak obliczyć optymalny punkt odcięcia dla krzywej ROC (wartość, przy której czułość i swoistość są zmaksymalizowane). Korzystam z zestawu danych aSAH
z pakietu pROC
.
outcome
Zmienna może być wyjaśnione przez dwóch niezależnych zmiennych: s100b
a ndka
. Korzystając ze składni Epi
pakietu, stworzyłem dwa modele:
library(pROC)
library(Epi)
ROC(form=outcome~s100b, data=aSAH)
ROC(form=outcome~ndka, data=aSAH)
Dane wyjściowe są zilustrowane na następujących dwóch wykresach:
Na pierwszym wykresie ( s100b
) funkcja mówi, że optymalny punkt odcięcia jest zlokalizowany na wartości odpowiadającej lr.eta=0.304
. Na drugim wykresie ( ndka
) optymalny punkt odcięcia jest zlokalizowany na odpowiadającej wartości lr.eta=0.335
(co oznacza lr.eta
). Moje pierwsze pytanie brzmi:
- jakie są odpowiednie
s100b
indka
wartości dlalr.eta
wskazanych wartości (jaki jest optymalny punkt odcięcia pod względems100b
indka
)?
DRUGIE PYTANIE:
Załóżmy teraz, że tworzę model uwzględniający obie zmienne:
ROC(form=outcome~ndka+s100b, data=aSAH)
Otrzymany wykres to:
Chcę wiedzieć, jakie są wartości ndka
AND, s100b
przy których wrażliwość i swoistość są maksymalizowane przez funkcję. Innymi słowy: jakie są wartości ndka
i s100b
dla których mamy Se = 68,3% i Sp = 76,4% (wartości uzyskane z wykresu)?
Przypuszczam, że to drugie pytanie jest związane z analizą multiROC, ale dokumentacja Epi
pakietu nie wyjaśnia, jak obliczyć optymalny punkt odcięcia dla obu zmiennych użytych w modelu.
Moje pytanie wydaje się bardzo podobne do tego z reasearchGate , które mówi w skrócie:
Określenie wyniku granicznego, który reprezentuje lepszy kompromis między czułością a swoistością miary, jest proste. Jednak w przypadku wielowymiarowej analizy krzywej ROC zauważyłem, że większość badaczy skupiła się na algorytmach w celu określenia ogólnej dokładności liniowej kombinacji kilku wskaźników (zmiennych) pod względem AUC. [...]
Jednak metody te nie wspominają o tym, jak wybrać kombinację wyników odcięcia związanych z wieloma wskaźnikami, które zapewniają najlepszą dokładność diagnostyczną.
Możliwym rozwiązaniem jest to, które zaproponował Shultz w swoim artykule , ale z tego artykułu nie jestem w stanie zrozumieć, jak obliczyć optymalny punkt odcięcia dla wielowymiarowej krzywej ROC.
Być może rozwiązanie z Epi
pakietu nie jest idealne, więc wszelkie inne pomocne linki będą mile widziane.
lr.eta
ROC
Twoje pierwsze zdanie powinno powiedzieć (o czym świadczą wykresy), że szukasz, gdzie zmaksymalizowana jest suma czułości i swoistości. Ale dlaczego to „optymalne”? Czy wynik fałszywie dodatni ma taki sam import jak wynik fałszywie ujemny? Zobacz tutaj .
źródło
coords
funkcji zpROC
pakietu, jak później odkryłem. Optymalnym punktem odcięcia była w moim przypadku najlepsza kombinacja Sens i Spec; Przeczytałem powiązaną odpowiedź, ale nie dbam (przynajmniej na razie) o wyniki fałszywie dodatnie i fałszywie ujemne, ponieważ (jeśli dobrze rozumiem) analizuję grupę zebranych danych do badań.lr.eta
to jest dokładnie ta druga opcja, o której wspominasz: prawdopodobieństwo z dopasowanego modelu: . Sprawdź to, jeśli masz minutę.Możesz znaleźć próg, przy którym prawdziwa dodatnia częstość (tpr) przecina prawdziwą ujemną (tnr), będzie to punkt, w którym suma fałszywie dodatnich i fałszywych ujemnych jest minimalna.
źródło