Czy powinniśmy zajmować się korektami wielu porównań, stosując przedziały ufności?

27

Załóżmy, że mamy scenariusz wielokrotnych porównań, takich jak wnioskowanie post hoc na statystyce parami lub jak regresja wielokrotna, w której dokonujemy w sumie porównań. Załóżmy również, że chcielibyśmy poprzeć wnioskowanie w tych wielokrotnościach z wykorzystaniem przedziałów ufności.m

1. Czy stosujemy wiele korekt porównawczych do elementów CI? Oznacza to, że podobnie jak wielokrotne porównania zmuszają redefinicję do rodzinnego wskaźnika błędów (FWER) lub współczynnika fałszywych odkryć (FDR), ma znaczenie pewność (lub wiarygodność 1 , niepewność, prognoza) lub inferencyjne ... wybierz przedział) lub podobnie zmieniony przez wiele porównań? Zdaję sobie sprawę, że negatywna odpowiedź tutaj będzie przytaczać moje pozostałe pytania.α

2. Czy istnieją proste tłumaczenia procedur korekty wielu porównań, od testowania hipotez po oszacowanie przedziału? Na przykład, czy zmiany koncentrowałyby się na zmianie terminu w przedziale ufności: ?Poziom CICIθ=(θ^±t(1-Poziom CI) / 2σ^θ)

3. W jaki sposób rozwiązalibyśmy procedury kontroli podwyższającej lub zmniejszającej dla instytucji kredytowych? Niektóre rodzinne korekty poziomu błędu z podejścia do wnioskowania opartego na testowaniu hipotez są „statyczne”, tzn. Dokładnie taka sama korekta jest dokonywana dla każdego oddzielnego wnioskowania. Na przykład korekty Bonferroni dokonuje się, zmieniając kryterium odrzucenia z:

  • odrzuć, jeśli do:pα2)
  • odrzuć, jeśli ,pα2)m

ale regulacja stopniowania Holm-Bonferroni nie jest „statyczna”, ale raczej:

  • pierwsze zamówienie wartości najmniejszych do największych, a następniep
  • odrzuć, jeśli p1-(1-α2))1m+1-ja , (gdzie ja indeksuje kolejność wartości p ) do
  • nie odrzucamy hipotezy zerowej i automatycznie nie odrzucamy wszystkich kolejnych hipotez zerowych.

Ponieważ odrzucenie / brak odrzucenia nie zdarza się w przypadku elementów CI (bardziej formalnie, patrz odnośniki poniżej), czy to oznacza, że ​​procedury krokowe nie tłumaczą (tj. Obejmują wszystkie metody FDR)? Powinienem tutaj ostrzec, że nie pytam, jak przełożyć CI na testy hipotez (przedstawiciele cytowanej poniżej literatury dotyczącej „testowania hipotez wizualnych” dostają to nietrywialne pytanie).

4. Co z innymi przedziałami, o których wspominałem w nawiasach w 1?


1 Rany, mam nadzieję , że nie wpakuję się w te słodkie rockowe style bayesowskie, używając tego słowa tutaj. :)


Literatura
Afshartous, D. i Preston, R. (2010). Przedziały ufności dla danych zależnych: Zrównanie nie nakładania się ze znaczeniem statystycznym. Statystyka obliczeniowa i analiza danych , 54 (10): 2296–2305.

Cumming, G. (2009). Wnioskowanie na podstawie wzroku: odczytanie nakładania się niezależnych przedziałów ufności. Statystyka w medycynie , 28 (2): 205–220.

Payton, ME, Greenstone, MH, i Schenker, N. (2003). Nakładające się przedziały ufności lub standardowe przedziały błędów: Co oznaczają pod względem istotności statystycznej? Journal of Insect Science , 3 (34): 1–6.

Tryon, WW i Lewis, C. (2008). Metoda inferencyjnego przedziału ufności służąca do ustalenia równoważności statystycznej, która koryguje współczynnik redukcji Tryona (2001). Metody psychologiczne , 13 (3): 272–277.

Alexis
źródło
Nie mam teraz czasu na szukanie pełnej odpowiedzi, więc odpowiem w komentarzu.
Harvey Motulsky
[Ostatni komentarz został obcięty. [Nie mam teraz czasu na szukanie pełnej odpowiedzi, więc odpowiem w komentarzu. 1) Tak, ma to sens w tych samych sytuacjach, co ma sens wiele porównań do testowania hipotez. 2. Wiele porównań Bonferroni, Tukey i Dunnet można łatwo dostosować do tworzenia przedziałów ufności, w których poziom ufności dotyczy całej rodziny. 3. O ile wiem, nie ma możliwości wykonywania przedziałów ufności z metody Holma. 4. Nie mam pojęcia!
Harvey Motulsky
2
@HarveyMotulsky Świetnie! Co do twoich pierwszych dwóch odpowiedzi: (1) Dlaczego? (2) Po prostu odwracając matematykę od korekt wartości do korekt podczas obliczania wartości krytycznych rozkładu, z którym buduje się CI? Możesz (szturchać) zawsze pisać (szturchać) formalną odpowiedź zamiast wzmacniać komentarze (nudgitty-szturchanie). αpα
Alexis,

Odpowiedzi:

9

Doskonały temat, któremu niestety poświęcono wystarczającą uwagę.

Omawiając wiele parametrów i przedziały ufności, należy rozróżnić jednoczesne wnioskowanie i wnioskowanie selektywne . Ref. [2] daje doskonałą demonstrację tej kwestii.

1-α

Te dwie koncepcje można łączyć: Załóżmy, że konstruujesz przedziały tylko dla parametrów, dla których odrzuciłeś hipotezę zerową. Wyraźnie masz do czynienia z wnioskowaniem selektywnym. Możesz chcieć zagwarantować jednoczesne pokrycie wybranych parametrów lub marginalne pokrycie wybranych parametrów. Ten pierwszy byłby odpowiednikiem kontroli FWER, a drugi kontroli FDR.

Teraz jeszcze bardziej do rzeczy: nie wszystkie procedury testowe mają odpowiednie odstępy czasu. Procedury FWER i towarzyszące im odstępy czasu patrz [3]. Niestety to odniesienie jest nieco nieaktualne. Odnośnie interwału kontroli BH FDR, patrz [1] i wniosek w [4] (który zawiera również krótki przegląd sprawy). Należy pamiętać, że jest to świeża i aktywna dziedzina badań, dzięki czemu można spodziewać się dalszych wyników w najbliższej przyszłości.

[1] Benjamini, Y. i D. Yekutieli. „Wielokrotne przedziały ufności skorygowane o częstość fałszywych odkryć dla wybranych parametrów”. Journal of American Statistics Association 100, no. 469 (2005): 71–81.

[2] Cox, DR „Uwaga na wiele metod porównywania”. Technometrics 7, no. 2 (1965): 223–24.

[3] Hochberg, Y. i AC Tamhane. Wiele procedur porównywania. Nowy Jork, NY, USA: John Wiley & Sons, Inc., 1987.

[4] Rosenblatt, JD i Y. Benjamini. „Korelacje selektywne; Nie Voodoo. ”NeuroImage 103 (grudzień 2014): 401–10.

JohnRos
źródło
1

Nigdy bym tego nie zrobiłdostosuj przedziały ufności dla wielu testów. Nie jestem wielkim fanem wartości p, ponieważ uważam, że szacowanie parametrów jest lepszym wykorzystaniem statystyki niż testowanie hipotez, które nigdy nie są do końca prawdziwe. Przyznaję jednak, że testowanie hipotez ma swoją wartość, powiedzmy, randomizowane badanie kontrolowane, w którym co najmniej jeden może argumentować, że asymptotycznie, jeśli leczenie nie działa, hipoteza zerowa jest prawdziwa. Jednak, jak powiedziałem gdzie indziej [1], zazwyczaj wiąże się to z jednym głównym rezultatem. Jednak przedziały ufności w definicji częstokroć nie obejmują hipotez, a zatem nie wymagają korekty w przypadku innych, potencjalnie nieistotnych porównań. Załóżmy, że testowałem fenotypy związane z danym genem, na przykład wzrost i ciśnienie krwi. JA' Chciałbym wiedzieć, jak duża jest różnica wysokości między tymi z genem i bez genu oraz jak dobrze go oszacowałem. Nie sądzę, że fakt, że mierzyłem również ciśnienie krwi, ma z tym coś wspólnego. Może mieć znaczenie fakt, że gdyby te dwa były jedynymi znaczącymi spośród setek, które testowaliśmy. Wtedy prawdopodobne jest, że różnice są przypadkowo większe niż oczekiwane kontrfaktyczne eksperymenty, w których mierzyliśmy tylko wysokość i ciśnienie krwi, ale przeprowadziliśmy setki eksperymentów. Jednak w tych okolicznościach żadna prosta korekta nie zadziałałaby i lepiej podać nieskorygowane oszacowanie, ale wyjaśnić, w jaki sposób uzyskano te porównania. Opublikowaliśmy również kilka wyników dotyczących nakładających się przedziałów ufności. [2] Widzę, że fakt, że mierzyłem również ciśnienie krwi, ma z tym coś wspólnego. Może mieć znaczenie fakt, że gdyby te dwa były jedynymi znaczącymi spośród setek, które testowaliśmy. Wtedy prawdopodobne jest, że różnice są przypadkowo większe niż oczekiwane kontrfaktyczne eksperymenty, w których mierzyliśmy tylko wysokość i ciśnienie krwi, ale przeprowadziliśmy setki eksperymentów. Jednak w tych okolicznościach żadna prosta korekta nie zadziałałaby i lepiej podać nieskorygowane oszacowanie, ale wyjaśnić, w jaki sposób uzyskano te porównania. Opublikowaliśmy również kilka wyników dotyczących nakładających się przedziałów ufności. [2] Widzę, że fakt, że mierzyłem również ciśnienie krwi, ma z tym coś wspólnego. Może mieć znaczenie fakt, że gdyby te dwa były jedynymi znaczącymi spośród setek, które testowaliśmy. Wtedy prawdopodobne jest, że różnice są przypadkowo większe niż oczekiwane kontrfaktyczne eksperymenty, w których mierzyliśmy tylko wysokość i ciśnienie krwi, ale przeprowadziliśmy setki eksperymentów. Jednak w tych okolicznościach żadna prosta korekta nie zadziałałaby i lepiej podać nieskorygowane oszacowanie, ale wyjaśnić, w jaki sposób uzyskano te porównania. Opublikowaliśmy również kilka wyników dotyczących nakładających się przedziałów ufności. [2] większy niż oczekiwany eksperyment alternatywny, w którym mierzyliśmy tylko wysokość i ciśnienie krwi, ale przeprowadziliśmy setki eksperymentów. Jednak w tych okolicznościach żadna prosta korekta nie zadziałałaby i lepiej podać nieskorygowane oszacowanie, ale wyjaśnić, w jaki sposób uzyskano te porównania. Opublikowaliśmy również kilka wyników dotyczących nakładających się przedziałów ufności. [2] większy niż oczekiwany eksperyment alternatywny, w którym mierzyliśmy tylko wysokość i ciśnienie krwi, ale przeprowadziliśmy setki eksperymentów. Jednak w tych okolicznościach żadna prosta korekta nie zadziałałaby i lepiej podać nieskorygowane oszacowanie, ale wyjaśnić, w jaki sposób uzyskano te porównania. Opublikowaliśmy również kilka wyników dotyczących nakładających się przedziałów ufności. [2]

[1] Campbell MJ i Swinscow TDV (2009) Statystyki na Square One. 11 edycja Oxford; BMJ Books Blackwell Publishing

[2] Julious SA, Campbell MJ, Walters SJ (2007) Prognozowanie przyszłych środków na podstawie wyników obecnego procesu. Współczesne badania kliniczne, 28, 352-357.

Mike Campbell
źródło
1
Dziękuję za pobudzającą do myślenia odpowiedź, Mike. Benjamini, Hochberg i Yekutieli wydają się argumentować, że porównania nie są „nieistotne”, ale w rzeczywistości jednoczesne: „Równoczesne pokrycie jest również potrzebne, gdy należy podjąć działanie w oparciu o wartość wszystkich parametrów. W ten sposób porównuje się pierwotne punkty końcowe między dwoma leczenie w badaniu klinicznym prawdopodobnie obejmie kontrolę wszystkich z nich, niezależnie od tego, czy są one znacząco różne, czy nie. Jest to wyraźna sytuacja, w której potrzebne jest jednoczesne ubezpieczenie ” (Pomijając kwestię selektywnej prezentacji tylko niektórych CI).
Alexis
Nawiasem mówiąc, biorąc pod uwagę: „Nie jestem wielkim fanem wartości p, ponieważ uważam, że szacowanie parametrów jest lepszym wykorzystaniem statystyki niż testowanie hipotez, które nigdy nie są dokładnie prawdziwe”, możesz się cieszyć. Dlaczego częste testowanie hipotez staje się stronnicze w kierunku odrzucenia hipoteza zerowa z wystarczająco dużymi próbkami? . Twoje zdrowie.
Alexis
1
Chociaż zgadzam się z tobą, że przedziały ufności dla parametrów są lepsze niż wartości p dla większości form wnioskowania, nie jestem pewien, czy to koniecznie oznacza, że ​​nie jest konieczna korekta dla wielu porównań z przedziałami ufności. Większość przedziałów ufności określa się za pomocą alfa, aby określić zasięg. Nawet w oderwaniu od ścisłych ram testowania hipotez wydaje mi się (naiwnie, bez zawracania głowy przeprowadzaniem symulacji, aby sprawdzić), że wprowadzanie dogmatycznie do zakresu nominalnego (np. 95%, a więc alfa = 0,05) może być mylące, gdy wiele porównań jest zaangażowany.
Ryan Simmons,
2
Mike Campbell powiedział, że „przedziały ufności w definicji częstokroć nie wiążą się z hipotezami, a zatem nie wymagają korekty dla innych, potencjalnie nieistotnych porównań”. To dziwne stwierdzenie. Chociaż CI mogą nie odzwierciedlać „testów hipotez” jako takich, odzwierciedlają testy statystyczne, które mają określony poziom błędu (np. 0,05), a ten poziom błędu jest zawyżany wraz ze wzrostem liczby testów - dokładnie o tę samą podstawową matematykę zasada, która ma zastosowanie do testów hipotezy zerowej. Nie można uniknąć problemu wielu porównań, koncentrując się na elementach CI zamiast wartości p.
Bonferroni,