Czy porównując grupy zmiennych kontrolnych, powinniśmy stosować testy równoważności?

13

W wielu artykułach, które rozważają leczenie i wyniki, widzę tabele (zwykle „tabela 1”), co można nazwać zmiennymi uciążliwymi (często dane demograficzne, czasami schorzenia), z testami istotności i tekstem takim jak „grupy były zasadniczo podobne, tam nie stwierdzono istotnych różnic w XXXXX, patrz Tabela ". Tak więc wyraźnym celem jest wykazanie, że grupy przypisane do różnych terapii są podobne.

Wydaje mi się jednak, że może to być „akceptacja wartości zerowej”, a to, co powinniśmy robić (lub domagać się wykonania), to testy równoważności.

Może to dotyczyć randomizowanych badań lub badań obserwacyjnych. Czy coś mi umyka?

Peter Flom - Przywróć Monikę
źródło
1
Rozumiem, że masz na myśli „tabelę 1”. Czy pytasz o RCT jako takie, czy też o badania obserwacyjne?
gung - Przywróć Monikę
@gung tak, zwykle jest to Tabela 1. Mogą to być badania obserwacyjne lub RCT. Zredagowałem swoje pytanie, aby odzwierciedlić twój komentarz.
Peter Flom - Przywróć Monikę
1
Nawet jeśli podejmę ryzyko stwierdzenia oczywistości: istnieje kilka artykułów na ten temat (np. De Boer i in. (2015) ). Myślę, że w konsensusie należy porzucić testowanie hipotez w tabelach podstawowych. Komunikat CONSORT do badań klinicznych, jak również komunikat STROBE dla badań obserwacyjnych zalecają unikanie testowanie hipotez w tabelach bazowych. Jeśli testy równoważności są lepsze, nie wiem.
COOLSerdash
To, czy przeprowadzasz test na wartość zerową, czy test na równoważność, zależy od motywacji i wpływa na dyskusję, którą można wyciągnąć z tabeli. Zapewnienie równoważności jest bardzo silnym warunkiem i podejrzewam, że nie jest to konieczne w większości przypadków, chyba że autor chce wyciągnąć mocne wnioski na temat danych demograficznych itp. Byłoby lepiej i bardziej odpowiednie posiadanie sformalizowanej procedury szacowania ryzyka stronniczości wynikającej z nierównowagi w powiązanych dane demograficzne. Nie przyglądałem się temu, ale interesowałyby mnie opinie innych na temat tego, jak to może wyglądać.
ReneBt,

Odpowiedzi:

10

Jest to skomplikowana kwestia, która wprowadza wiele powiązanych zagadnień: 1) jasne określenie hipotezy, 2) zrozumienie, jakie mechanizmy przyczynowe (mogą) leżą u podstaw hipotetycznego efektu oraz 3) wybór / styl prezentacji.

Masz rację, że jeśli zastosujemy solidną praktykę statystyczną, aby twierdzić, że „grupy podobne”, należałoby przeprowadzić test równoważności. Jednak testy równoważności wiążą się z tymi samymi problemami, co ich odpowiednikiem NHST: moc jest jedynie odzwierciedleniem wielkości próby i liczby porównań: oczekujemy różnic, ale ich zasięg i wpływ na główną analizę jest znacznie ważniejszy.

W obliczu tych sytuacji porównania podstawowe prawie zawsze są czerwonymi śledziami. Można zastosować lepsze metody (nauki i statystyki). Mam kilka podstawowych pomysłów / odpowiedzi, które biorę pod uwagę, odpowiadając na takie pytania.

Kolumna „ogółem” jest ważniejsza niż kolumny podzielone według traktowania; uzasadniona jest dyskusja na temat tych wartości.

W badaniach klinicznych próbka bezpieczeństwa jest zwykle analizowana. Jest to podzbiór osób, do których najpierw zwrócono się, a następnie zgodzono, a następnie poddano randomizacji i ostatecznie poddano co najmniej jednemu powtórzeniu kontroli lub leczenia. W tym procesie mamy do czynienia z różnym nastawieniem partycypacyjnym.

Prawdopodobnie najważniejszym i pominiętym aspektem tych badań jest przedstawienie wyników tabeli 1 łącznie . Osiąga to najważniejszy cel tabeli 1: wykazanie innym badaczom, jak uogólniana jest próbka badawcza dla szerszej populacji, do której odnoszą się wyniki.

Zaskakujące jest dla mnie, w jaki sposób ustaleni badacze, czytelnicy i recenzenci podążają za trendami stycznymi w zakresie cech pacjentów, gdy całkowicie ignoruje się kryteria włączenia / wyłączenia i uogólnienia próby.

Wstydzę się powiedzieć, że byłem analitykiem na procesie, który pomijał to jako problem. Rekrutowaliśmy pacjentów, a następnie, z przyczyn logistycznych, czekaliśmy prawie rok przed wdrożeniem interwencji. Schemat konsorcjum nie tylko wykazał ogromny spadek między tymi okresami, ale próbka uległa przesunięciu. Rezultat był w dużej mierze niewykorzystany / niepełny, starszy i zdrowszy niż ludzie, do których zamierzaliśmy dotrzeć. Miałem głębokie obawy co do uogólnienia badania, ale trudno było lobbować za ujawnieniem tych obaw.

Moc i błąd testu typu I w celu wykrycia nierównowagi w charakterystyce wyjściowej zależy od faktycznej liczby charakterystyk

Celem przedstawienia tak szczegółowego wykazu zmiennych wyjściowych, jak wspomniano wcześniej, jest dokładna migawka próbki; ich historia pacjenta, laboratoria, leki i dane demograficzne. Są to wszystkie aspekty, które klinicyści stosują do zalecania leczenia pacjentom. Uważa się, że wszyscy przewidują wynik. Ale liczba takich czynników jest oszałamiająca. Można porównać nawet 30 różnych zmiennych. Surowe ryzyko błędu typu I wynosi 1- (1-0,05) ^ 30 = 0,79. Jeśli konieczne jest przeprowadzenie testu, zaleca się korekty Bonferroni lub permutacji .

Testy statystyczne w najczystszej postaci mają być bezstronne i powinny być wstępnie określone. Jednak wybór i prezentacja charakterystyk wyjściowych jest często względna. Uważam, że to drugie podejście jest właściwe: jeśli stwierdzimy, podobnie jak w mojej próbie, istnieją interesujące cechy, które skutecznie opisują próbkę, powinniśmy mieć swobodę wyboru przedstawiania tych wartości ad hoc . Badanie można wykonać, jeśli ma jakąkolwiek wartość, ale obowiązują zwykłe zastrzeżenia: nie są to interesujące hipotezy, istnieje wysokie ryzyko pomyłki co do znaczących i nieistotnych wyników, a wyniki są bardziej odzwierciedleniem wielkość próby i względy prezentacji niż jakakolwiek prawda.

Ponowną randomizację można wykonać, ale tylko przed narażeniem pacjentów na leczenie

Jak wspomniałem, analizowana próbka jest zazwyczaj próbką bezpieczeństwa. Jednak reandandomizacja jest zdecydowanie zalecanym i teoretycznie spójnym podejściem do pacjentów, którzy nie byli narażeni na badane leczenie. Dotyczy to tylko ustawień, w których przeprowadzana jest rejestracja wsadowa. Tutaj rekrutuje się i losuje 100 uczestników. Jeśli, na przykład, prawdopodobieństwo przypisuje wysoki odsetek osób starszych do jednej grupy, próbka może zostać przeklasyfikowana w celu zrównoważenia wieku. Nie można tego zrobić przy rejestracji sekwencyjnej lub rozłożonej, która jest ustawieniem, w którym przeprowadzana jest większość prób. Wynika to z faktu, że czas rejestracji zwykle przewiduje stan pacjenta na podstawie „uprzedzeń” dotyczących powszechnie występujących przypadków (mylące zdarzenia i kryteria kwalifikowalności).

Zrównoważony projekt nie jest warunkiem prawidłowego wnioskowania

Założenie randomizacji mówi, że teoretycznie wszyscy uczestnicy będą mieli przeciętnie równe rozkłady zmiennych towarzyszących. Jednak, jak wspomniano wcześniej, porównując 30 lub więcej poziomów, skumulowane prawdopodobieństwo braku równowagi jest nieistotne. W rzeczywistości brak równowagi zmiennych towarzyszących może być nieistotny przy rozpatrywaniu całości.

Jeśli randomizacja jest sprawiedliwa, możemy zauważyć, że wiek jest podwyższony w grupie leczonej, ale palenie jest podwyższone w grupie kontrolnej: oba te czynniki przyczyniają się indywidualnie do ryzyka wyniku. Do skutecznego i prawidłowego wnioskowania potrzebne jest zrównoważenie wyniku skłonności między grupami. To jest znacznie słabszy stan. Niestety skłonności nie można sprawdzić pod kątem równowagi bez modelu ryzyka. Łatwo jednak zauważyć, że taka skłonność zależy od kombinacji zmiennych towarzyszących, a prawdopodobieństwo braku równowagi w skłonnościach w losowej próbie jest znacznie mniej prawdopodobne, mimo że niemożliwe jest dokładne wykazanie.

Jeśli znany jest model ryzyka lub istnieją silne predyktory wyniku, bardziej skuteczne i prawidłowe RCT wykonuje się po prostu dostosowując te czynniki, niezależnie od tego, czy są one zrównoważone między grupami leczenia

Jeden z moich ulubionych artykułów, 7 mitów randomizowanych kontrolowanych badań , omawia to. Korekta poprawia wydajność, gdy zmienna korekcyjna silnie prognozuje wynik. Okazuje się, że nawet przy doskonałej równowadze 50/50, przy użyciu powiedzmy zablokowanej randomizacji, lub nawet jako zbieg okoliczności, w jaki sposób przeprowadzono randomizację, dostosowanie zmniejszy CI, wymagając mniejszej liczby uczestników o równie mocnym badaniu; zmniejsza to koszty i ryzyko. Szokujące jest to, że nie robi się tego częściej.

Badania obserwacyjne wymagają kontroli w celu wprowadzenia w błąd, niezależnie od tego, co pokazuje Tabela 1

Założenie randomizacji eliminuje zamieszanie. W przypadku niezandomizowanego leczenia istnieje zamieszanie. Zmieszacz jest zmienną, która przyczynia się do wyniku i przewiduje otrzymanie quasi-eksperymentalnego leczenia. Nie ma testu określającego, które zmienne są / są mylące. Ryzyko zaglądania do danych w celu udzielenia odpowiedzi na te pytania polega na tym, że pomieszacze są praktycznie nie do odróżnienia od mediatorów lub zderzeń bez całkowicie doskonałego pomiaru wartości wzdłużnych (a nawet wtedy ...). Dostosowanie do mediatorów osłabia jakikolwiek efekt, dopasowanie zderzacza może powodować każdy rodzaj błędu. Co więcej, nie trzeba dostosowywać całego zestawu czynników zakłócających, ale raczej trzeba usunąć kryterium backdoora.

Na przykład w badaniu czynności płuc i palenia u nastolatków: starsze dzieci częściej palą, ale ponieważ są one wyższe, ich funkcja płuc jest większa. Okazuje się, że sama regulacja wysokości wystarczy, aby usunąć zamieszanie, ponieważ spełnia kryterium tylnego wejścia. Dalsze dostosowanie do wieku po prostu traci wydajność. Jednak samo sprawdzenie „równowagi” tabeli 1 u palaczy i osób niepalących sugerowałoby, że zarówno wiek, jak i wzrost są „niezrównoważone” i dlatego należy je kontrolować. To jest niepoprawne

AdamO
źródło
1
Zgadzam się z tym i jestem świadomy problemów z wartościami p. (Na tej stronie znajdziesz kilka osób lub masz większą wartość anty-p niż ja). I jestem za lepszymi metodami, z których niektóre wychowujesz. Oczywiście niektóre zmienne mogą być supresorami (tak więc ich włączenie zwiększa wielkość efektu głównego). Jeśli jednak, powiedzmy, recenzuję artykuł na potrzeby czasopisma, to czy uważasz, że zalecanie testów równoważności dla tabeli 1 jest dobre, czy może sięgnąłbyś po pełną odpowiedź tutaj?
Peter Flom - Przywróć Monikę
1
@PeterFlom Teraz widzę kontekst nieco lepiej. Jako recenzent statystyczny zastanawiałbym się, czy komentarz jest istotny dla późniejszych analiz. Jeśli nie jest to istotne, zachęcam ich do skreślenia tego komentarza, ponieważ nie jest on użyteczny. Jeśli jest to istotne, zachęcam ich do: a) rozważenia bardziej solidnego podejścia analitycznego lub b) zastosowania analiz wrażliwości w celu ustalenia, czy istnieje możliwy wpływ. Równowaga współzmiennych ma znaczenie tylko w takim stopniu, w jakim wpływa na analizy, dlatego wolałbym zwrócić na to uwagę. Być może nie jest to projekt dopasowany do skłonności, prawda?
AdamO
1
@PeterFlom Czy jako recenzent nie ma sensu zalecać całkowitego pozbycia się wartości pw „Tabeli 1”?
Ameba mówi Przywróć Monikę
1
AdamO, świetna odpowiedź (+1), ale trochę niepokoi mnie zalecenie, że wielokrotne korekty testowania są „wskazane” w kontekście „Tabeli 1”. Czy jest tu jakiś błąd typu I? Wydaje mi się, że w tym przypadku błąd typu II jest w rzeczywistości o wiele ważniejszy (nie można pominąć faktu, że niektóre zmienne wyjściowe różnią się między grupami leczenia i grupą kontrolną). Przy użyciu Bonferroni błąd typu II znacznie wzrośnie. Jest to związane z punktem @ Petera na temat testów równoważności: w pewnym sensie, Typ I i ​​Typ II zamieniają się miejscami, jeśli przejdziesz do punktu widzenia „równoważności”.
Ameba mówi Przywróć Monikę
1
@amoeba Absolutnie. Jeśli nalegamy na to podejście (a nie moje zalecenie), NHST wymagają kontroli błędu typu I. Myślę, że mam na myśli to, że powinniśmy kontrolować FWER, ponieważ nie obchodzi nas, która zmienna jest niezrównoważona. Można go ustawić na dużą wartość, np. 0,2. Nie znam żadnego testu równoważności, dla którego moc rośnie wraz ze wzrostem wielkości próbki, więc uzasadnienia dla takich testów są nieporadne, subiektywne i nieprecyzyjne.
AdamO