Pewnego dnia miałem konsultację z epidemiologiem. Jest doktorem medycyny ze stopniem zdrowia publicznego w dziedzinie epidemiologii i ma dużą wiedzę statystyczną. Doradza swoim pracownikom badawczym i rezydentom oraz pomaga im w kwestiach statystycznych. Całkiem dobrze rozumie testowanie hipotez. Miała typowy problem z porównaniem dwóch grup, aby sprawdzić, czy istnieje różnica w ryzyku związanym z wystąpieniem zastoinowej niewydolności serca (CHF). Zbadała średnią różnicę w odsetku pacjentów otrzymujących CHF. Wartość p wynosiła 0,08. Następnie postanowiła spojrzeć na ryzyko względne i uzyskała wartość p wynoszącą 0,027. Zapytała więc, dlaczego jedno jest ważne, a drugie nie. Patrząc na 95% dwustronne przedziały ufności dla różnicy i dla stosunku, zauważyła, że średni przedział różnicy zawierał 0, ale górny limit ufności dla tego współczynnika był mniejszy niż 1. Dlaczego więc otrzymujemy niespójne wyniki. Moja odpowiedź, choć technicznie poprawna, nie była zbyt satysfakcjonująca. Powiedziałem: „Są to różne statystyki i mogą dawać różne wyniki. Obie wartości p mieszczą się w obszarze marginalnie znaczącym. Może się to łatwo zdarzyć”. Myślę, że muszą istnieć lepsze sposoby, aby odpowiedzieć lekarzom na to pytanie, aby pomóc im zrozumieć różnicę między testowaniem ryzyka względnego a ryzykiem bezwzględnym. W badaniach epi problem ten pojawia się bardzo często, ponieważ często przyglądają się rzadkim zdarzeniom, w których częstość występowania w obu grupach jest bardzo mała, a wielkość próby nie jest bardzo duża. Pomyślałem o tym trochę i mam kilka pomysłów, którymi się podzielę. Ale najpierw chciałbym usłyszeć, jak niektórzy z was sobie z tym poradzą. Wiem, że wielu z was pracuje lub konsultuje się w dziedzinie medycyny i prawdopodobnie musieli zmierzyć się z tym problemem. Co byś zrobił?
źródło
Odpowiedzi:
Cóż, z tego, co już powiedziałeś, wydaje mi się, że większość z nich została uwzględniona, ale po prostu musisz to ująć w jej języku: jeden to różnica ryzyka, jeden to stosunek. Zatem jeden test hipotez pyta, czy podczas gdy drugi pyta, czy p 2p2)- p1= 0 . Czasami są one „bliskie”, czasem nie. (Zamknij w cudzysłów, ponieważ wyraźnie nie są one zbliżone w zwykłym znaczeniu arytmetycznym). Jeśli ryzyko jest rzadkie, zwykle są one „daleko od siebie”. np..002/.001=2(daleko od 1), podczas gdy.002-.001=.001(blisko 0); ale jeśli ryzyko jest wysokie, wówczas są one „bliskie”:.2/.1=2(daleko od 0) i.2-.1=.1(również daleko od 0, przynajmniej w porównaniu z rzadkim przypadkiem.p2)p1= 1 .002 / .001 = 2 .002 - .001 = .001 .2 / .1 = 2 .2 - .1 = .1
źródło
Pamiętaj, że w obu testach testujesz zupełnie inną hipotezę przy różnych założeniach. Wyniki nie są porównywalne i jest to zbyt powszechny błąd.
W ryzyku bezwzględnym testujesz, czy (średnia) różnica proporcji różni się znacznie od zera. Hipoteza leżąca u podstaw tego standardowego testu zakłada, że różnice w proporcjach są zwykle rozkładane. Może to dotyczyć małych proporcji, ale nie dużych. Technicznie oblicza się następujące prawdopodobieństwo warunkowe:
co jest równoważne z testowaniem nachylenia w następującym modelu logistycznym:
Powód, dla którego to robi różnicę, podano w odpowiedzi Petera Floma: niewielka różnica w bezwzględnym ryzyku może prowadzić do dużej wartości szans. W twoim przypadku oznacza to, że odsetek osób zarażonych chorobą nie różni się znacznie, ale prawdopodobieństwo bycia w jednej grupie jest znacznie większe niż prawdopodobieństwo bycia w drugiej grupie. To jest całkowicie rozsądne.
źródło
prop.test
(lubchisq.test
tak jak w przypadku 2x2) ifisher.test
być w odległości większej niż 0,005. Zastanawiam się więc, jakich testów użyła ...