10

Standardowe nauczanie mówi, że czułość i swoistość są właściwościami testu i są niezależne od rozpowszechnienia. Ale czy to nie tylko założenie?

Zasady Harrisona dotyczące medycyny wewnętrznej, 19 edycja, mówią

Od dawna twierdzono, że czułość i swoistość są parametrami dokładności testu niezależnymi od rozpowszechnienia, a wiele tekstów wciąż zawiera takie stwierdzenie. To statystycznie użyteczne założenie jest jednak klinicznie uproszczone. ... czułość testu prawdopodobnie będzie wyższa u pacjentów hospitalizowanych, a swoistość testu wyższa u pacjentów ambulatoryjnych.

(Częstość występowania jest zwykle wyższa u pacjentów hospitalizowanych niż u pacjentów ambulatoryjnych)

Czy istnieje matematyczna lub przybliżona zależność graficzna między tymi parametrami?

Nawet ten link nazywa to „uproszczeniem”. Dlaczego?

Edycja: Wiem, jak definiowana jest czułość. Jak wspomniano w odpowiedziach, nie ma tu mowy o rozpowszechnieniu. Ja sam utrzymywałem, że są to właściwości testu, na które nie ma wpływu zastosowana populacja, dopóki nie natknąłem się na to stwierdzenie, stąd pytanie. Ale zakładam, że zamieszanie to nie wynika z definicji, ale z praktycznego obliczenia tych wartości. Swoistość i czułość są obliczane przy użyciu tabel 2x2, czy przewaga populacji odniesienia ma tutaj znaczenie? Czy do tego się odnoszą? Jeśli tak, jaka jest funkcja?

bayesian epidemiology diagnostic sensitivity-specificity Polisetty
źródło

4

Chociaż odpowiedzi @ Tim ♦ i @ gung ♦ dotyczą w zasadzie wszystkiego, postaram się je zsyntetyzować w jedno i przedstawię dalsze wyjaśnienia.

Kontekst cytowanych wierszy może w większości dotyczyć testów klinicznych w postaci pewnego progu, co jest najbardziej powszechne. Wyobraź sobie chorobę i wszystko oprócz tym stan zdrowia określany jako . W naszym teście chcielibyśmy znaleźć pewien pomiar proxy, który pozwala nam uzyskać dobrą prognozę dla (1) Powodem, dla którego nie otrzymujemy absolutnej specyficzności / czułości jest to, że wartości naszej wielkości proxy nie są idealnie skorelowane z stan chorobowy, ale tylko ogólnie się z nim kojarzy, a zatem w indywidualnych pomiarach możemy mieć szansę, że ta ilość przekroczy nasz próg dla $D$ $D$ $D^c$ $D$ $D^c$ jednostki i odwrotnie. Dla jasności załóżmy model Gaussa dla zmienności.

Powiedzmy, że używamy jako liczby zastępczej. Jeśli został dobrze wybrany, to musi być wyższe niż ( jest operatorem wartości oczekiwanej). Teraz problem pojawia się, gdy uświadomimy sobie, że jest sytuacją złożoną (podobnie jak ), faktycznie złożoną z 3 stopni nasilenia , , , z których każdy ma stopniowo rosnącą wartość oczekiwaną dla . Dla jednej osoby wybranej z kategorii lub z $x$ $x$ $E[x_D]$ $E[x_{Dc}]$ $E$ $D$ $D^c$ $D_1$ $D_2$ $D_3$ $x$ $D$ $D^c$ W przypadku kategorii „prawdopodobieństwo” dodatniego lub ujemnego „testu” będzie zależeć od wybranej przez nas wartości progowej. Powiedzmy, że wybraliśmy oparciu o badanie prawdziwie losowej próbki posiadającej zarówno jednostki jak i . Nasz spowoduje fałszywe pozytywne i negatywne wyniki. Jeśli losowo wybieramy osobę , prawdopodobieństwo rządzące jej wartością jeśli jest podane na zielonym wykresie, a prawdopodobieństwo losowo wybranej osoby na czerwonym wykresie. $x_T$ $D$ $D^c$ $x_T$ $D$ $x$ $D_c$

Rzeczywiste uzyskane liczby będą zależeć od rzeczywistej liczby osobników i ale wynikowa specyficzność i czułość nie będą. Niech będzie skumulowaną funkcją prawdopodobieństwa. Następnie, dla rozpowszechnienia choroby , oto tabela 2x2, jak można się spodziewać w ogólnym przypadku, gdy próbujemy faktycznie zobaczyć, jak nasz test działa w połączonej populacji. $D$ $D^c$ $F()$ $p$ $D$

(D, +) = p (1 - F_{D} (x_{T}))

$(D,+) = p(1-F_D(x_T))$

(D c, -) = (1 - p) (1 - F_{D c} (x_{T}))

$(Dc,-) = (1-p)(1-F_{Dc}(x_T))$

(D, -) = p (F_{D} (x_{T}))

$(D,-) = p(F_D(x_T))$

(D c, +) = (1 - p) * F_{D c} (x_{T})

$(Dc,+) = (1-p)*F_{Dc}(x_T)$

Rzeczywiste liczby są zależne od , ale czułość i swoistość są niezależne od . Ale oba są zależne od i . Dlatego wszystkie czynniki, które na nie wpływają, na pewno zmienią te wskaźniki. Gdybyśmy na przykład pracowali na oddziale intensywnej terapii, nasz zostałby zastąpiony przez , a jeśli mówimy o pacjentach ambulatoryjnych, zastąpiony przez . Osobną sprawą jest to, że w szpitalu częstość występowania jest również inna, $p$ $p$ $F_D$ $F_{Dc}$ $F_D$ $F_{D3}$ $F_{D1}$ ale to nie różna częstość występowania różni się wrażliwością i specyficznością, ale odmienny rozkład, ponieważ model, na podstawie którego ustalono próg, nie miał zastosowania do populacji występującej jako ambulatoryjne lub szpitalne . Możesz iść dalej i rozkładać w wielu subpopulacjach, ponieważ podokienna część również będzie miała podwyższone z innych powodów (ponieważ większość proxy jest również „podwyższona” w innych poważnych warunkach). Podział populacji na subpopulację wyjaśnia zmianę wrażliwości, podczas gdy populacji wyjaśnia zmianę specyficzności (poprzez odpowiednie zmiany i $D^c$ $D^c$ $x$ $D$ $D^c$ $F_D$ $F_{Dc}$ ). Z tego właśnie składa się złożony wykresKażdy z kolorów będzie miał swój własny , a zatem, o ile różni się on od na podstawie którego obliczono oryginalną czułość i swoistość, wskaźniki te będą się zmieniać. $D$ $F$ $F$

Przykład

Załóżmy, że populacja wynosi 11550 z odpowiednio 10000 Dc, 500,750,300 D1, D2, D3. Skomentowana część to kod użyty do powyższych wykresów.

set.seed(12345)
dc<-rnorm(10000,mean = 9, sd = 3)
d1<-rnorm(500,mean = 15,sd=2)
d2<-rnorm(750,mean=17,sd=2)
d3<-rnorm(300,mean=20,sd=2)
d<-cbind(c(d1,d2,d3),c(rep('1',500),rep('2',750),rep('3',300)))
library(ggplot2)
#ggplot(data.frame(dc))+geom_density(aes(x=dc),alpha=0.5,fill='green')+geom_density(data=data.frame(c(d1,d2,d3)),aes(x=c(d1,d2,d3)),alpha=0.5, fill='red')+geom_vline(xintercept = 13.5,color='black',size=2)+scale_x_continuous(name='Values for x',breaks=c(mean(dc),mean(as.numeric(d[,1])),13.5),labels=c('x_dc','x_d','x_T'))

#ggplot(data.frame(d))+geom_density(aes(x=as.numeric(d[,1]),..count..,fill=d[,2]),position='stack',alpha=0.5)+xlab('x-values')

Możemy łatwo obliczyć średnie x dla różnych populacji, w tym Dc, D1, D2, D3 i kompozyt D.

mean(dc) 
mean(d1) 
mean(d2) 
mean(d3) 
mean(as.numeric(d[,1]))

> mean(dc) [1] 8.997931
> mean(d1) [1] 14.95559
> mean(d2) [1] 17.01523
> mean(d3) [1] 19.76903
> mean(as.numeric(d[,1])) [1] 16.88382

Aby uzyskać tabelę 2x2 dla naszego oryginalnego przypadku testowego, najpierw ustalamy próg na podstawie danych (który w prawdziwym przypadku zostałby ustawiony po uruchomieniu testu, jak pokazuje @gung). W każdym razie, zakładając próg 13,5, otrzymujemy następującą czułość i swoistość obliczoną dla całej populacji.

sdc<-sample(dc,0.1*length(dc)) 
sdcomposite<-sample(c(d1,d2,d3),0.1*length(c(d1,d2,d3))) 
threshold<-13.5 
truepositive<-sum(sdcomposite>13.5) 
truenegative<-sum(sdc<=13.5) 
falsepositive<-sum(sdc>13.5) 
falsenegative<-sum(sdcomposite<=13.5) 
print(c(truepositive,truenegative,falsepositive,falsenegative)) 
sensitivity<-truepositive/length(sdcomposite) 
specificity<-truenegative/length(sdc) 
print(c(sensitivity,specificity))

> print(c(truepositive,truenegative,falsepositive,falsenegative)) [1]139 928  72  16
> print(c(sensitivity,specificity)) [1] 0.8967742 0.9280000

Załóżmy, że pracujemy z pacjentami ambulatoryjnymi i chorujemy tylko od proporcji D1 lub pracujemy na OIOM, gdzie otrzymujemy tylko D3. (w bardziej ogólnym przypadku musimy również podzielić komponent Dc) Jak zmienia się nasza wrażliwość i swoistość? Zmieniając częstość występowania (tj. Zmieniając względny odsetek pacjentów należących do obu przypadków, wcale nie zmieniamy swoistości i wrażliwości. Zdarza się tak, że częstość ta zmienia się również wraz ze zmianą rozkładu)

sdc<-sample(dc,0.1*length(dc)) 
sd1<-sample(d1,0.1*length(d1)) 
truepositive<-sum(sd1>13.5) 
truenegative<-sum(sdc<=13.5) 
falsepositive<-sum(sdc>13.5) 
falsenegative<-sum(sd1<=13.5) 
print(c(truepositive,truenegative,falsepositive,falsenegative)) 
sensitivity1<-truepositive/length(sd1) 
specificity1<-truenegative/length(sdc) 
print(c(sensitivity1,specificity1)) 
sdc<-sample(dc,0.1*length(dc)) 
sd3<-sample(d3,0.1*length(d3)) 
truepositive<-sum(sd3>13.5) 
truenegative<-sum(sdc<=13.5) 
falsepositive<-sum(sdc>13.5) 
falsenegative<-sum(sd3<=13.5) 
print(c(truepositive,truenegative,falsepositive,falsenegative)) 
sensitivity3<-truepositive/length(sd3) 
specificity3<-truenegative/length(sdc) 
print(c(sensitivity3,specificity3))

> print(c(truepositive,truenegative,falsepositive,falsenegative)) [1]  38 931  69  12
> print(c(sensitivity1,specificity1)) [1] 0.760 0.931
> print(c(truepositive,truenegative,falsepositive,falsenegative)) [1]  30 944  56   0
> print(c(sensitivity3,specificity3)) [1] 1.000 0.944

Podsumowując, wykres pokazujący zmianę wrażliwości (swoistość podążałaby za podobną tendencją, gdybyśmy również skomponowali populację Dc z subpopulacji) ze zmienną średnią x dla populacji, oto wykres

df<-data.frame(V1=c(sensitivity,sensitivity1,sensitivity3),V2=c(mean(c(d1,d2,d3)),mean(d1),mean(d3))) 
ggplot(df)+geom_point(aes(x=V2,y=V1),size=2)+geom_line(aes(x=V2,y=V1))

Jeśli nie jest to proxy, technicznie mielibyśmy 100% specyficzność i czułość. Powiedzmy na przykład, że definiujemy jako mający konkretnie obiektywnie zdefiniowany obraz patologiczny powiedzmy na przykład Biopsja Wątroby, wtedy test Biopsji Wątroby stanie się złotym standardem, a nasza czułość będzie mierzona względem siebie, a zatem da 100% $D$

Satwik Pasani
źródło

9

Po pierwsze, warto zauważyć, że zazwyczaj nie można zmienić czułości niezależnie od swoistości i odwrotnie. To jest punkt krzywej ROC. Biorąc pod uwagę charakter procesu generowania danych oraz określone dane i model, zawsze utkniesz w kompromisie między wrażliwością a swoistością. Oczywiście wolisz mieć jednocześnie 100% czułość i 100% swoistość, ale zazwyczaj nie możesz. Możesz uzyskać lepszą czułość, ale kosztem gorszej specyficzności lub lepszej specyficzności, ale kosztem najgorszej czułości. Krzywa ROC pokazuje zestaw kompromisów, które musisz wybrać. (Kilka uwag: 1. czasami możesz zyskać na jednym wymiarze, nie tracąc niczego na drugim, ponieważ w twoim zbiorze danych jest luka, ale jest to w większości iluzoryczne; 2.Krzywa ROC to czułość jako funkcja 1-specyficzności, wykreślanie czułości w stosunku do samej specyficzności byłoby odzwierciedloną krzywą ROC.)

W każdym razie, w jaki sposób pozorna czułość i swoistość mogą się zmieniać wraz z rozpowszechnieniem? Jest to problem polegający na tym, że pomaga symulować i bawić się niektórymi danymi, aby zobaczyć, jak to może działać w praktyce. Wyobraźmy sobie, że model pasuje do dość dużego zestawu danych, który ma szczególne rozpowszechnienie, a próg jest ustawiony na osi x ¹ . Później wydajność tego testu jest obliczana na próbkach, które mają zasadniczo różne rozpowszechnienia (a zatem różne wartości x). Rezultat jest taki, że ten sam model, przy użyciu tego samego progu, będzie działał inaczej, gdy zostanie zastosowany do zbiorów danych o różnych rozpowszechnieniach.

library(caret)  # we'll use these packages
library(binom)
  # we'll use this function to convert log odds to probabilities
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }

##### training dataset for original model
set.seed(734)                     # these make the examples exactly reproducible
Nt = 1000
xt = rnorm(Nt, mean=5, sd=1)      # this is the distribution of X
lo = -1.386 + .308*xt             # this is the data generating process
pt = lo2p(lo)
yt = rbinom(Nt, size=1, prob=pt)
mt = glm(yt~xt, family=binomial)
summary(mt)
# ...
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)    
# (Intercept) -1.16736    0.32794  -3.560 0.000371 ***
# xt           0.24980    0.06429   3.886 0.000102 ***
# ...
#     Null deviance: 1384.5  on 999  degrees of freedom
# Residual deviance: 1369.1  on 998  degrees of freedom
# AIC: 1373.1

## determine threshold
# prob(Y) = 50%, where log odds = 0, so:
-coef(mt)[1]/coef(mt)[2]  # 4.673159
threshold = 4.7  # a simple round number
classt    = ifelse(xt>threshold, 1, 0)
tabt      = table(classt, yt)[2:1,2:1]

confusionMatrix(tabt)
#       yt
# classt   1   0
#      1 346 279
#      0 175 200
#                                           
#                Accuracy : 0.546           
#                     ...                                          
#             Sensitivity : 0.6641          
#             Specificity : 0.4175          
#          Pos Pred Value : 0.5536          
#          Neg Pred Value : 0.5333          
#              Prevalence : 0.5210          


##### high prevalence dataset from hospital
set.seed(4528)
Nh = 500
xh = rnorm(Nh, mean=6, sd=1)  # a different distribution of X
lo = -1.386 + .308*xh         # but the same data generating process
ph = lo2p(lo)
yh = rbinom(Nh, size=1, prob=ph)
classh = ifelse(xh>threshold, 1, 0)  # the same threshold is used
tabh   = table(classh, yh)[2:1,2:1]

confusionMatrix(tabh)
#       yh
# classh   1   0
#      1 284 163
#      0  20  33
#                                           
#                Accuracy : 0.634           
#                     ...
#             Sensitivity : 0.9342          
#             Specificity : 0.1684          
#          Pos Pred Value : 0.6353          
#          Neg Pred Value : 0.6226          
#              Prevalence : 0.6080          


##### low prevalence dataset from outpatients
set.seed(1027)
Nl = 500
xl = rnorm(Nl, mean=3, sd=1)
lo = -1.386 + .308*xl
pl = lo2p(lo)
yl = rbinom(Nl, size=1, prob=pl)
classl = ifelse(xl>threshold, 1, 0)
tabl   = table(classl, yl)[2:1,2:1]

confusionMatrix(tabl)
#       yl
# classl   1   0
#      1   9  14
#      0 190 287
#                                           
#                Accuracy : 0.592           
#                     ...
#             Sensitivity : 0.04523         
#             Specificity : 0.95349         
#          Pos Pred Value : 0.39130         
#          Neg Pred Value : 0.60168         
#              Prevalence : 0.39800         


##### sensitivities
binom.confint(346, 521, method="e")
#   method   x   n      mean     lower    upper
# 1  exact 346 521 0.6641075 0.6217484 0.704592
binom.confint(284, 304, method="e")
#   method   x   n      mean   lower     upper
# 1  exact 284 304 0.9342105 0.90022 0.9593543
binom.confint(  9, 199, method="e")
#   method x   n       mean      lower      upper
# 1  exact 9 199 0.04522613 0.02088589 0.08411464

##### specificities
binom.confint(200, 479, method="e")
#   method   x   n      mean     lower     upper
# 1  exact 200 479 0.4175365 0.3729575 0.4631398
binom.confint( 33, 196, method="e")
#   method  x   n      mean     lower     upper
# 1  exact 33 196 0.1683673 0.1188206 0.2282441
binom.confint(287, 301, method="e")
#   method   x   n      mean     lower     upper
# 1  exact 287 301 0.9534884 0.9231921 0.9743417

Oto wrażliwości i swoistości w zależności od częstości występowania, z dokładnymi 95% przedziałami ufności:

Co się tu dzieje? Weź pod uwagę, że prototypowa regresja logistyczna może wyglądać podobnie do poniższego rysunku. Zauważ, że cała „akcja” ma miejsce w przedziale [4, 6] na osi x. Poniższe dane będą miały bardzo niską częstość występowania, a model wykaże słabą dyskryminację i wrażliwość. Dane powyżej tego przedziału będą miały bardzo wysoką częstość występowania, ale model ponownie nie będzie dobrze dyskryminował i będzie miał słabą swoistość.

Aby zrozumieć, jak to się mogło zdarzyć, rozważ badanie transaminazy alaninowej w celu ustalenia, czy wątroba pacjenta nie działa ². Chodzi o to, że wątroba zwykle używa ALT, ale jeśli wątroba przestanie działać, ALT zostanie zrzucona do krwioobiegu. Więc jeśli poziom ALT we krwi pacjenta przekracza pewien próg, oznacza to, że wątroba nie działa. Jeśli narysujesz próbkę z wysoką częstością niewydolności wątroby, pobierzesz próbkę z wysokim poziomem ALT we krwi. W ten sposób będziesz mieć więcej pacjentów powyżej progu. Nie każdy z wysokim poziomem ALT we krwi cierpi na niewydolność wątroby - u niektórych pacjentów może być inna przyczyna. Ale osoby z niewydolnością wątroby powinny zostać złapane. Prowadzi to do wyższej czułości. Podobnie, nie wszyscy pacjenci z prawidłowym poziomem ALT mają zdrowe wątroby, ale próbka o niskim rozpowszechnieniu będzie miała niższe poziomy ALT i więcej pacjentów przejdzie test. Ci, których wątroby nie są t zawodzi, ale którzy mają normalne poziomy ALT, zostaną pominięte. Prowadzi to do niższej czułości, ale wyższej specyficzności.

Mówiąc bardziej ogólnie, cała idea badania medycznego polega na tym, że coś takiego jest korelacją ze stanem chorobowym, który możesz chcieć mierzyć bezpośrednio, ale nie możesz. Uzyskanie miary korelacji daje wgląd w stan chorobowy. Test (potencjalny), w którym nie jest to prawdą, nie miałby żadnej wartości i nie byłby stosowany. Tak więc w praktyce próbki o wyższym rozpowszechnieniu powinny mieć rozkład korelacji z bardziej nienormalnymi wartościami prowadzącymi do wyższej czułości i odwrotnie. (Należy zauważyć, że korelacja nie musi być przyczyną choroby; w przykładzie ALT jest to efekt, w innych przykładach zarówno choroba, jak i korelacja mogą być skutkami wspólnej przyczyny itp.)

_{1. Jest to w rzeczywistości dość powszechne w medycynie. Weź pod uwagę, że cholesterol powinien wynosić <200, skurczowe ciśnienie krwi powinno wynosić <140 itd. To nie są tak naprawdę „testy” per se, ale istnieje wiele testów, które działają w ten sposób. W przypadku niektórych (być może odległych) dyskusji na temat progów pomocne może być przeczytanie moich odpowiedzi na Czy progi 0-1 są zawsze równoważne progom osi X? i Dlaczego liczba fałszywych trafień jest niezależna od wielkości próbki, jeśli używamy wartości p do porównania dwóch niezależnych zestawów danych?

2. Należy pamiętać, że nie jestem lekarzem, a ten przykład może być bardzo nieuczciwy. Zapytaj lekarza, czy potrzebujesz dokładnych informacji na temat czynności wątroby, jej badań i powiązanych kwestii.}

gung - Przywróć Monikę
źródło

Dzięki! Za pokazanie, że tak naprawdę się zmienia. Ale jak to się bierze pod uwagę odpowiedź @Tim? Czy to nie jest sprzeczne?

Polisetty

1

@Polisetty, Tim stwierdza, że „pacjenci hospitalizowani i ambulatoryjni mogą różnić się pod wieloma względami, nie tylko pod względem rozpowszechnienia, więc niektóre inne czynniki mogą wpływać na wrażliwość”. Jeśli test jest funkcją pewnej właściwości pacjentów (powiedzmy cholesterolu), a choroba jest również silnie skorelowana z tą właściwością (co jest zasadniczo całym punktem), wówczas „inne czynniki” muszą poruszać się w połączeniu z rozpowszechnienie. Zatem, gdy zmienia się rozpowszechnienie, inne korelacje się zmieniają, a test ma mniej więcej czułość w / i dla tej konkretnej grupy.

Gung - Przywróć Monikę

7

Jak już powiedzieli inni, wrażliwość i swoistość nie zależą od rozpowszechnienia. Czułość to proporcja prawdziwych pozytywów wśród wszystkich pozytywów, a swoistość to proporcja prawdziwych negatywów wśród wszystkich negatywów. Więc jeśli czułość wynosi 90%, test będzie poprawny dla 90% przypadków, które są pozytywne. Oczywiście 90% czegoś mniejszego i 90% czegoś większego to nadal 90% ...

Biorąc pod uwagę wspomniane dane tabelaryczne,

\begin{array}{cc} \begin{matrix} positive \\ condition \end{matrix} & \begin{matrix} negative \\ condition \end{matrix} \\ \begin{matrix} positive \\ test \end{matrix} & a & c \\ \begin{matrix} negative \\ test \end{matrix} & b & d \end{array}

$\begin{array}{cc} & \substack{\text{positive} \\ \text{condition}} & \substack{\text{negative} \\ \text{condition}}\\ \substack{\text{positive} \\ \text{test}} & a & c \\ \substack{\text{negative} \\ \text{test}} & b & d \\ \end{array}$

czułość (z definicja prawdopodobieństwa warunkowego ), a specyfika to . W przypadku każdej metryki w danym momencie patrzysz tylko na jedną z kolumn, więc częstość występowania (względne rozmiary kolumn) nie ma znaczenia dla tych metryk. Rozpowszechnienie nie wchodzi w zakres równań. Byłoby również dziwne, gdyby „praktyczna” wrażliwość została zdefiniowana inaczej niż teoretycznie i prowadziła do różnych wniosków. $\tfrac{a}{a+b+c+d} \,/\, \tfrac{a+b}{a+b+c+d} = \tfrac{a}{a+b}$ $p(Y \mid X) = \tfrac{p(Y \cap X)}{p(X)}$ $\tfrac{d}{a+b+c+d} \,/\, \tfrac{c+d}{a+b+c+d} = \tfrac{d}{c+d}$

Ale wydaje się, że cytat mówi coś jeszcze

czułość testu będzie prawdopodobnie wyższa u pacjentów hospitalizowanych, a specyficzność testu u pacjentów ambulatoryjnych

więc autorzy twierdzą, że wrażliwość różni się w różnych grupach. Myślę, że pacjenci hospitalizowani i ambulatoryjni mogą różnić się pod wieloma względami, nie tylko pod względem rozpowszechnienia, więc niektóre inne czynniki mogą wpływać na wrażliwość. Zgadzam się więc, że mogą się one zmieniać między różnymi zestawami danych, które różnią się rozpowszechnieniem, ale zmiana nie będzie funkcją samej prewalencji (jak pokazuje @gung w swojej odpowiedzi).

Z drugiej strony, gdybym musiał zgadywać, być może autorzy mylą wrażliwość z prawdopodobieństwem późniejszym . Czułość wynosi , natomiast prawdopodobieństwo tylne wynosi $p(\text{positive test}\mid\text{condition})$

p (condition ∣ positive test) \propto p (positive test ∣ condition) \times p (condition)

$p(\text{condition}\mid\text{positive test}) \propto p(\text{positive test}\mid\text{condition})\times p(\text{condition})$

w wielu przypadkach jest to prawdopodobieństwo, że ludzie są zainteresowani („jak prawdopodobne jest, że pacjent z pozytywnym wynikiem testu rzeczywiście choruje?”) i zależy to od rozpowszechnienia. Zauważ, że również twój link omawia wpływ rozpowszechnienia na pozytywną wartość predykcyjną, tj. Prawdopodobieństwo późniejsze, a nie na wrażliwość.

Tim
źródło

Jak wspomniałem w jednej z poprzednich odpowiedzi, jestem całkiem pewien, że autorzy nie pomylili tego z prawdopodobieństwem późniejszym, ponieważ wyraźnie wspominają, że „wiele tekstów wciąż zawiera to stwierdzenie”. Cytuję też inne źródło, choć nie tak wiarygodne jak Harrison, które mówi, że jest to bezpieczne „założenie”. Chcę tylko zapytać, jakie jest „założenie”?

Polisetty

2

@Polisetty Nie mogę powiedzieć o autorach, ale z cytatu wydają się nazywać niezależność pod względem rozpowszechnienia „założeniem”, ale jest to raczej matematyczny fakt niż założenie. Gdyby się nie utrzymywał, oznaczałoby to, że teoria prawdopodobieństwa jest zepsuta i tak nie jest.

Tim

Czułość i swoistość można uznać za ustalone właściwości testu diagnostycznego. [To niewielkie uproszczenie, ale wystarczające do naszych celów]. - tak to mówi

Polisetty

3

Zobacz moją odpowiedź tutaj na temat prawdziwych / fałszywie dodatnich / ujemnych stóp.

Czułość to po prostu inna nazwa prawdziwej wartości dodatniej, a swoistość jest taka sama jak prawdziwa wartość ujemna. Zarówno czułość, jak i swoistość są warunkowymi prawdopodobieństwami; warunkują stan chorobowy pacjenta. Zatem częstość występowania choroby (tj. Prawdopodobieństwo a priori, że pacjent cierpi na tę chorobę) jest nieistotna, ponieważ zakłada się szczególny stan chorobowy.

Nie mogę komentować, dlaczego autor podręcznika twierdzi, że wrażliwość i swoistość zależą od kontekstu klinicznego. Czy to są obserwacje empiryczne?

tddevlin
źródło

Dokładnie. Stąd pytanie. Czułość testu zależy od populacji, w której jest stosowany. Założenie, że jest on niezależny, nie zawsze jest prawdziwe. Pytam jak i dlaczego. Książka później podaje również wartości

Polisetty

Mogą istnieć czynniki specyficzne dla populacji, które wpływają na wrażliwość i swoistość. Jednak z matematycznych definicji wrażliwości i swoistości wynika, że rozpowszechnienie nie może być jednym z tych czynników, a przynajmniej nie bezpośrednio. (Nawiasem mówiąc, nie krępuj się przyjąć moją odpowiedź, jeśli jesteś zadowolony z mojego wyjaśnienia definicji matematycznych.)

tddevlin

Przepraszam, chyba nie było jasne. Chciałem poznać matematycznie związek między wrażliwością a rozpowszechnieniem. Wiem, jak są zdefiniowane. Myślę, że relacja pojawia się ze względu na sposób ich obliczania. Czułość jest TP / (TP + FN), a częstość występowania jest TP + fn / (TP + fn + FP + TN)

Polisetty

Jak wspomniałem w mojej odpowiedzi, nie ma związku między wrażliwością a rozpowszechnieniem. Częstość występowania to natomiast czułość to . Nie możesz nic powiedzieć o wartości jednego na podstawie wartości drugiego.

P (Disease)

$P(\text{Disease})$

P (+ | disease)

$P(+|\text{disease})$

tddevlin

Harrison nie pomyliłby się. Nawet ten link nazywa to uproszczeniem. med.uottawa.ca/sim/data/Sensitivity_and_Prevalence_e.htm

Polisetty

1

Nie mogę oczywiście mówić o intencjach autora, ale oto moje uzasadnienie tego stwierdzenia:

Rozważ kontekst kliniczny jako sam test diagnostyczny. Jeden z bardzo słabą czułością i swoistością, ale test jednak. Jeśli jesteś w szpitalu, prawdopodobnie zachorujesz. Jeśli nie jesteś w szpitalu, prawdopodobnie nie zachorujesz.

Z tej perspektywy faktyczny test diagnostyczny, który przeprowadzasz, jest właściwie drugą częścią dwóch testów wykonanych szeregowo.

Fomite
źródło

W twoim wyjaśnieniu a priori zmienia się, prowadząc do większego prawdopodobieństwa z tyłu. To prawda. Ale jak zmienia się sama wrażliwość jest pytaniem.

Polisetty

@Polisetty Co się stanie, jeśli nazywasz badanie z wysokim wynikiem pozytywnym? „Kontekst kliniczny sam w sobie jest testem”. Myślę, że każdy arbitralnie ustalony test może być uzależniony od rozpowszechnienia w ten sposób, więc „test” musi być bardziej szczegółowo zdefiniowany. Myślę, że to stwierdzenie dotyczy zwykłej różnorodności testów opartych na progu pewnego pomiaru proxy.

Satwik Pasani

1

To musi być błąd. Myślę, że być może autor próbuje zasugerować, że dodatnia i ujemna wartość predykcyjna (PPV i NPV) zależy od rozpowszechnienia (a także wrażliwości i swoistości). Są one często omawiane za pomocą testów diagnostycznych, a dla klinicystów być może bardziej cenne niż surowa interpretacja czułości i swoistości.

Ten wykres pokazuje zależność między PPV i NPV z rozpowszechnieniem, dla testu z 95% czułością i 85% swoistością.

Od Mausner JS, Kramer S: Mausner i Bahn Epidemiology: An Introductory Text. Philadelphia, WB Saunders, 1985, s. 1 221

prince_of_pears
źródło

1

@Satwik, @gung i @Tim podały już wiele szczegółów, ale postaram się dodać mały przykład tego, jak przypadek czynników leżących u podstaw może powodować taki efekt.

Kluczowa zasada: stronniczość

Czułość / swoistość i WSZYSTKIE testy statystyczne dzielą to samo zastrzeżenie: dotyczy to tylko powtórzenia tej samej procedury pobierania próbek jak poprzednio w sposób bezstronny.

Szpitale to działające organizacje, których zadaniem jest przeprowadzanie stronniczego pobierania próbek, przy użyciu polityk przyjęć w celu przefiltrowania ogólnej populacji do osób wymagających przyjęcia i leczenia. To bardzo antyteza procedury naukowej. Jeśli chcesz wiedzieć, jak wykonuje się test w różnych populacjach, należy go przetestować w różnych populacjach.

Efekt utajony: korelacja

Jest rzadkie (lub niemożliwe w prawdziwym świecie, jeśli chcesz być ścisły), aby diagnostyka była niezależna / prostopadła do wszystkich innych czynników ryzyka choroby, więc istnieje pewien stopień korelacji.

Jeśli ekran przyjęć do szpitala jest pozytywnie skorelowany z diagnostyką, to zobaczysz, że osoby, które przejdą test przyjęć, są korzystnie predysponowane do pozytywnych wyników diagnostycznych, proporcjonalnie do korelacji. Zatem prawdziwe pozytywy są wzbogacane, a fałszywe negatywy są zmniejszane o kwoty proporcjonalne do korelacji.

To sprawia, że czułość wydaje się większa.

Wyjaśnienie tego zjawiska

Obserwacja, że wrażliwość może być wyższa w kontekście szpitalnym, nie jest zatem nierealna. W rzeczywistości, jeśli polityka przyjęć jest dobrze przemyślana i dostosowana do celu, można by się tego spodziewać.

Nie jest to dowód na załamanie założenia, że czułość i swoistość są niezależne od rozpowszechnienia, a raczej jest to stronnicze próbkowanie oparte na polityce przyjęć do szpitala.

Co, biorąc pod uwagę, że szpital ma leczyć ludzi i nie przeprowadzać eksperymentów naukowych, jest zdecydowanie dobrą rzeczą.

Ale sprawia to naukowcom ból głowy.

ReneBt
źródło

Czy czułość lub swoistość jest funkcją rozpowszechnienia?

Odpowiedzi:

Przykład

Kluczowa zasada: stronniczość

Efekt utajony: korelacja

Wyjaśnienie tego zjawiska