Chociaż odpowiedzi @ Tim ♦ i @ gung ♦ dotyczą w zasadzie wszystkiego, postaram się je zsyntetyzować w jedno i przedstawię dalsze wyjaśnienia.
Kontekst cytowanych wierszy może w większości dotyczyć testów klinicznych w postaci pewnego progu, co jest najbardziej powszechne. Wyobraź sobie chorobę i wszystko oprócz tym stan zdrowia określany jako . W naszym teście chcielibyśmy znaleźć pewien pomiar proxy, który pozwala nam uzyskać dobrą prognozę dla (1) Powodem, dla którego nie otrzymujemy absolutnej specyficzności / czułości jest to, że wartości naszej wielkości proxy nie są idealnie skorelowane z stan chorobowy, ale tylko ogólnie się z nim kojarzy, a zatem w indywidualnych pomiarach możemy mieć szansę, że ta ilość przekroczy nasz próg dlaD D c D D crereredoreredojednostki i odwrotnie. Dla jasności załóżmy model Gaussa dla zmienności.
Powiedzmy, że używamy jako liczby zastępczej. Jeśli został dobrze wybrany, to musi być wyższe niż ( jest operatorem wartości oczekiwanej). Teraz problem pojawia się, gdy uświadomimy sobie, że jest sytuacją złożoną (podobnie jak ), faktycznie złożoną z 3 stopni nasilenia , , , z których każdy ma stopniowo rosnącą wartość oczekiwaną dla . Dla jednej osoby wybranej z kategorii lub zx E [ x D ] E [ x D c ] E D D c D 1 D 2 D 3 xxxmi[ xre]mi[ xD c]mireredore1re2)re3)xD c x T D D c x T D x D cDDcW przypadku kategorii „prawdopodobieństwo” dodatniego lub ujemnego „testu” będzie zależeć od wybranej przez nas wartości progowej. Powiedzmy, że wybraliśmy oparciu o badanie prawdziwie losowej próbki posiadającej zarówno jednostki jak i . Nasz spowoduje fałszywe pozytywne i negatywne wyniki. Jeśli losowo wybieramy osobę , prawdopodobieństwo rządzące jej wartością jeśli jest podane na zielonym wykresie, a prawdopodobieństwo losowo wybranej osoby na czerwonym wykresie.xTDDcxTDxDc
Rzeczywiste uzyskane liczby będą zależeć od rzeczywistej liczby osobników i ale wynikowa specyficzność i czułość nie będą. Niech będzie skumulowaną funkcją prawdopodobieństwa. Następnie, dla rozpowszechnienia choroby , oto tabela 2x2, jak można się spodziewać w ogólnym przypadku, gdy próbujemy faktycznie zobaczyć, jak nasz test działa w połączonej populacji.D c F ( ) p DDDcF()pD
(D,+)=p(1−FD(xT))
(Dc,−)=(1−p)(1−FDc(xT))
(D,−)=p(FD(xT))
(Dc,+)=(1−p)∗FDc(xT)
Rzeczywiste liczby są zależne od , ale czułość i swoistość są niezależne od . Ale oba są zależne od i . Dlatego wszystkie czynniki, które na nie wpływają, na pewno zmienią te wskaźniki. Gdybyśmy na przykład pracowali na oddziale intensywnej terapii, nasz zostałby zastąpiony przez , a jeśli mówimy o pacjentach ambulatoryjnych, zastąpiony przez . Osobną sprawą jest to, że w szpitalu częstość występowania jest również inna,ppFDFDcFDFD3FD1ale to nie różna częstość występowania różni się wrażliwością i specyficznością, ale odmienny rozkład, ponieważ model, na podstawie którego ustalono próg, nie miał zastosowania do populacji występującej jako ambulatoryjne lub szpitalne . Możesz iść dalej i rozkładać w wielu subpopulacjach, ponieważ podokienna część również będzie miała podwyższone z innych powodów (ponieważ większość proxy jest również „podwyższona” w innych poważnych warunkach). Podział populacji na subpopulację wyjaśnia zmianę wrażliwości, podczas gdy populacji wyjaśnia zmianę specyficzności (poprzez odpowiednie zmiany iDcDcxDDcFDFDc ). Z tego właśnie składa się złożony wykresKażdy z kolorów będzie miał swój własny , a zatem, o ile różni się on od na podstawie którego obliczono oryginalną czułość i swoistość, wskaźniki te będą się zmieniać.DFF
Przykład
Załóżmy, że populacja wynosi 11550 z odpowiednio 10000 Dc, 500,750,300 D1, D2, D3. Skomentowana część to kod użyty do powyższych wykresów.
set.seed(12345)
dc<-rnorm(10000,mean = 9, sd = 3)
d1<-rnorm(500,mean = 15,sd=2)
d2<-rnorm(750,mean=17,sd=2)
d3<-rnorm(300,mean=20,sd=2)
d<-cbind(c(d1,d2,d3),c(rep('1',500),rep('2',750),rep('3',300)))
library(ggplot2)
#ggplot(data.frame(dc))+geom_density(aes(x=dc),alpha=0.5,fill='green')+geom_density(data=data.frame(c(d1,d2,d3)),aes(x=c(d1,d2,d3)),alpha=0.5, fill='red')+geom_vline(xintercept = 13.5,color='black',size=2)+scale_x_continuous(name='Values for x',breaks=c(mean(dc),mean(as.numeric(d[,1])),13.5),labels=c('x_dc','x_d','x_T'))
#ggplot(data.frame(d))+geom_density(aes(x=as.numeric(d[,1]),..count..,fill=d[,2]),position='stack',alpha=0.5)+xlab('x-values')
Możemy łatwo obliczyć średnie x dla różnych populacji, w tym Dc, D1, D2, D3 i kompozyt D.
mean(dc)
mean(d1)
mean(d2)
mean(d3)
mean(as.numeric(d[,1]))
> mean(dc) [1] 8.997931
> mean(d1) [1] 14.95559
> mean(d2) [1] 17.01523
> mean(d3) [1] 19.76903
> mean(as.numeric(d[,1])) [1] 16.88382
Aby uzyskać tabelę 2x2 dla naszego oryginalnego przypadku testowego, najpierw ustalamy próg na podstawie danych (który w prawdziwym przypadku zostałby ustawiony po uruchomieniu testu, jak pokazuje @gung). W każdym razie, zakładając próg 13,5, otrzymujemy następującą czułość i swoistość obliczoną dla całej populacji.
sdc<-sample(dc,0.1*length(dc))
sdcomposite<-sample(c(d1,d2,d3),0.1*length(c(d1,d2,d3)))
threshold<-13.5
truepositive<-sum(sdcomposite>13.5)
truenegative<-sum(sdc<=13.5)
falsepositive<-sum(sdc>13.5)
falsenegative<-sum(sdcomposite<=13.5)
print(c(truepositive,truenegative,falsepositive,falsenegative))
sensitivity<-truepositive/length(sdcomposite)
specificity<-truenegative/length(sdc)
print(c(sensitivity,specificity))
> print(c(truepositive,truenegative,falsepositive,falsenegative)) [1]139 928 72 16
> print(c(sensitivity,specificity)) [1] 0.8967742 0.9280000
Załóżmy, że pracujemy z pacjentami ambulatoryjnymi i chorujemy tylko od proporcji D1 lub pracujemy na OIOM, gdzie otrzymujemy tylko D3. (w bardziej ogólnym przypadku musimy również podzielić komponent Dc) Jak zmienia się nasza wrażliwość i swoistość? Zmieniając częstość występowania (tj. Zmieniając względny odsetek pacjentów należących do obu przypadków, wcale nie zmieniamy swoistości i wrażliwości. Zdarza się tak, że częstość ta zmienia się również wraz ze zmianą rozkładu)
sdc<-sample(dc,0.1*length(dc))
sd1<-sample(d1,0.1*length(d1))
truepositive<-sum(sd1>13.5)
truenegative<-sum(sdc<=13.5)
falsepositive<-sum(sdc>13.5)
falsenegative<-sum(sd1<=13.5)
print(c(truepositive,truenegative,falsepositive,falsenegative))
sensitivity1<-truepositive/length(sd1)
specificity1<-truenegative/length(sdc)
print(c(sensitivity1,specificity1))
sdc<-sample(dc,0.1*length(dc))
sd3<-sample(d3,0.1*length(d3))
truepositive<-sum(sd3>13.5)
truenegative<-sum(sdc<=13.5)
falsepositive<-sum(sdc>13.5)
falsenegative<-sum(sd3<=13.5)
print(c(truepositive,truenegative,falsepositive,falsenegative))
sensitivity3<-truepositive/length(sd3)
specificity3<-truenegative/length(sdc)
print(c(sensitivity3,specificity3))
> print(c(truepositive,truenegative,falsepositive,falsenegative)) [1] 38 931 69 12
> print(c(sensitivity1,specificity1)) [1] 0.760 0.931
> print(c(truepositive,truenegative,falsepositive,falsenegative)) [1] 30 944 56 0
> print(c(sensitivity3,specificity3)) [1] 1.000 0.944
Podsumowując, wykres pokazujący zmianę wrażliwości (swoistość podążałaby za podobną tendencją, gdybyśmy również skomponowali populację Dc z subpopulacji) ze zmienną średnią x dla populacji, oto wykres
df<-data.frame(V1=c(sensitivity,sensitivity1,sensitivity3),V2=c(mean(c(d1,d2,d3)),mean(d1),mean(d3)))
ggplot(df)+geom_point(aes(x=V2,y=V1),size=2)+geom_line(aes(x=V2,y=V1))
- Jeśli nie jest to proxy, technicznie mielibyśmy 100% specyficzność i czułość. Powiedzmy na przykład, że definiujemy jako mający konkretnie obiektywnie zdefiniowany obraz patologiczny powiedzmy na przykład Biopsja Wątroby, wtedy test Biopsji Wątroby stanie się złotym standardem, a nasza czułość będzie mierzona względem siebie, a zatem da 100%D
Jak już powiedzieli inni, wrażliwość i swoistość nie zależą od rozpowszechnienia. Czułość to proporcja prawdziwych pozytywów wśród wszystkich pozytywów, a swoistość to proporcja prawdziwych negatywów wśród wszystkich negatywów. Więc jeśli czułość wynosi 90%, test będzie poprawny dla 90% przypadków, które są pozytywne. Oczywiście 90% czegoś mniejszego i 90% czegoś większego to nadal 90% ...
Biorąc pod uwagę wspomniane dane tabelaryczne,
czułość (z definicja prawdopodobieństwa warunkowego ), a specyfika to . W przypadku każdej metryki w danym momencie patrzysz tylko na jedną z kolumn, więc częstość występowania (względne rozmiary kolumn) nie ma znaczenia dla tych metryk. Rozpowszechnienie nie wchodzi w zakres równań. Byłoby również dziwne, gdyby „praktyczna” wrażliwość została zdefiniowana inaczej niż teoretycznie i prowadziła do różnych wniosków.aa+b+c+d/a+ba+b+c+d=aa+b p(Y∣X)=p(Y∩X)p(X) da+b+c+d/c+da+b+c+d=dc+d
Ale wydaje się, że cytat mówi coś jeszcze
więc autorzy twierdzą, że wrażliwość różni się w różnych grupach. Myślę, że pacjenci hospitalizowani i ambulatoryjni mogą różnić się pod wieloma względami, nie tylko pod względem rozpowszechnienia, więc niektóre inne czynniki mogą wpływać na wrażliwość. Zgadzam się więc, że mogą się one zmieniać między różnymi zestawami danych, które różnią się rozpowszechnieniem, ale zmiana nie będzie funkcją samej prewalencji (jak pokazuje @gung w swojej odpowiedzi).
Z drugiej strony, gdybym musiał zgadywać, być może autorzy mylą wrażliwość z prawdopodobieństwem późniejszym . Czułość wynosi , natomiast prawdopodobieństwo tylne wynosip(positive test∣condition)
w wielu przypadkach jest to prawdopodobieństwo, że ludzie są zainteresowani („jak prawdopodobne jest, że pacjent z pozytywnym wynikiem testu rzeczywiście choruje?”) i zależy to od rozpowszechnienia. Zauważ, że również twój link omawia wpływ rozpowszechnienia na pozytywną wartość predykcyjną, tj. Prawdopodobieństwo późniejsze, a nie na wrażliwość.
źródło
Zobacz moją odpowiedź tutaj na temat prawdziwych / fałszywie dodatnich / ujemnych stóp.
Czułość to po prostu inna nazwa prawdziwej wartości dodatniej, a swoistość jest taka sama jak prawdziwa wartość ujemna. Zarówno czułość, jak i swoistość są warunkowymi prawdopodobieństwami; warunkują stan chorobowy pacjenta. Zatem częstość występowania choroby (tj. Prawdopodobieństwo a priori, że pacjent cierpi na tę chorobę) jest nieistotna, ponieważ zakłada się szczególny stan chorobowy.
Nie mogę komentować, dlaczego autor podręcznika twierdzi, że wrażliwość i swoistość zależą od kontekstu klinicznego. Czy to są obserwacje empiryczne?
źródło
Nie mogę oczywiście mówić o intencjach autora, ale oto moje uzasadnienie tego stwierdzenia:
Rozważ kontekst kliniczny jako sam test diagnostyczny. Jeden z bardzo słabą czułością i swoistością, ale test jednak. Jeśli jesteś w szpitalu, prawdopodobnie zachorujesz. Jeśli nie jesteś w szpitalu, prawdopodobnie nie zachorujesz.
Z tej perspektywy faktyczny test diagnostyczny, który przeprowadzasz, jest właściwie drugą częścią dwóch testów wykonanych szeregowo.
źródło
To musi być błąd. Myślę, że być może autor próbuje zasugerować, że dodatnia i ujemna wartość predykcyjna (PPV i NPV) zależy od rozpowszechnienia (a także wrażliwości i swoistości). Są one często omawiane za pomocą testów diagnostycznych, a dla klinicystów być może bardziej cenne niż surowa interpretacja czułości i swoistości.
Ten wykres pokazuje zależność między PPV i NPV z rozpowszechnieniem, dla testu z 95% czułością i 85% swoistością.
Od Mausner JS, Kramer S: Mausner i Bahn Epidemiology: An Introductory Text. Philadelphia, WB Saunders, 1985, s. 1 221
źródło
@Satwik, @gung i @Tim podały już wiele szczegółów, ale postaram się dodać mały przykład tego, jak przypadek czynników leżących u podstaw może powodować taki efekt.
Kluczowa zasada: stronniczość
Czułość / swoistość i WSZYSTKIE testy statystyczne dzielą to samo zastrzeżenie: dotyczy to tylko powtórzenia tej samej procedury pobierania próbek jak poprzednio w sposób bezstronny.
Szpitale to działające organizacje, których zadaniem jest przeprowadzanie stronniczego pobierania próbek, przy użyciu polityk przyjęć w celu przefiltrowania ogólnej populacji do osób wymagających przyjęcia i leczenia. To bardzo antyteza procedury naukowej. Jeśli chcesz wiedzieć, jak wykonuje się test w różnych populacjach, należy go przetestować w różnych populacjach.
Efekt utajony: korelacja
Jest rzadkie (lub niemożliwe w prawdziwym świecie, jeśli chcesz być ścisły), aby diagnostyka była niezależna / prostopadła do wszystkich innych czynników ryzyka choroby, więc istnieje pewien stopień korelacji.
Jeśli ekran przyjęć do szpitala jest pozytywnie skorelowany z diagnostyką, to zobaczysz, że osoby, które przejdą test przyjęć, są korzystnie predysponowane do pozytywnych wyników diagnostycznych, proporcjonalnie do korelacji. Zatem prawdziwe pozytywy są wzbogacane, a fałszywe negatywy są zmniejszane o kwoty proporcjonalne do korelacji.
To sprawia, że czułość wydaje się większa.
Wyjaśnienie tego zjawiska
Obserwacja, że wrażliwość może być wyższa w kontekście szpitalnym, nie jest zatem nierealna. W rzeczywistości, jeśli polityka przyjęć jest dobrze przemyślana i dostosowana do celu, można by się tego spodziewać.
Nie jest to dowód na załamanie założenia, że czułość i swoistość są niezależne od rozpowszechnienia, a raczej jest to stronnicze próbkowanie oparte na polityce przyjęć do szpitala.
Co, biorąc pod uwagę, że szpital ma leczyć ludzi i nie przeprowadzać eksperymentów naukowych, jest zdecydowanie dobrą rzeczą.
Ale sprawia to naukowcom ból głowy.
źródło