Regresja błędów w zmiennych: czy poprawne jest łączenie danych z trzech witryn?

15

Niedawno przyszedł do mnie klient, aby przeprowadzić analizę ładowania początkowego, ponieważ recenzent FDA stwierdził, że ich regresja błędów w zmiennych była nieprawidłowa, ponieważ podczas łączenia danych z witryn analiza obejmuje łączenie danych z trzech witryn, w których dwie witryny zawierały próbki, które były to samo.

TŁO

Klient miał nową metodę oznaczania, którą chciał wykazać jako „równoważną” z istniejącą zatwierdzoną metodą. Ich podejście polegało na porównaniu wyników obu metod zastosowanych do tych samych próbek. Do przeprowadzenia testów wykorzystano trzy strony. Błędy w zmiennych (regresja Deminga) zastosowano do danych w każdej witrynie. Chodzi o to, że jeśli regresja wykazała, że ​​parametr nachylenia jest bliski 1, a punkt przecięcia w pobliżu 0, oznaczałoby to, że dwie techniki oznaczania dały prawie takie same wyniki, a zatem nowa metoda powinna zostać zatwierdzona. W miejscu 1 mieli 45 próbek, co dało im 45 sparowanych obserwacji. Witryna 2 zawierała 40 próbek, a witryna 3, 43 próbki. Dokonali trzech oddzielnych regresji Deminga (zakładając stosunek 1 dla błędów pomiaru dla dwóch metod). Algorytm zminimalizował więc sumę kwadratowych prostopadłych odległości.

W swoich uwagach klient wskazał, że niektóre próbki wykorzystane w miejscach 1 i 2 były takie same. W recenzji recenzent FDA stwierdził, że regresja Deminga była nieprawidłowa, ponieważ zastosowano wspólne próbki, co powoduje „interferencję”, która unieważnia założenia modelu. Zażądali zastosowania korekty ładowania początkowego do wyników Deminga, aby uwzględnić tę ingerencję.

W tym momencie, ponieważ klient nie wiedział, jak wykonać bootstrap, zostałem wprowadzony. Termin interferencja był dziwny i nie byłem pewien, do czego zmierza recenzent. Zakładałem, że tak naprawdę chodziło o to, że ponieważ w zbiorczych danych miały wspólne próbki, korelacja dla wspólnych próbek byłaby korelacyjna, a zatem warunki błędu modelu nie byłyby wszystkie niezależne.

ANALIZA KLIENTA

Trzy oddzielne regresje były bardzo podobne. Każdy z nich miał parametry nachylenia zbliżone do 1 i przechwytuje w pobliżu 0. 95% przedział ufności zawierał odpowiednio 1 i 0 dla nachylenia i przecięcia w każdym przypadku. Główną różnicą była nieco wyższa wariancja resztkowa w miejscu 3. Ponadto porównali to z wynikami z OLS i stwierdzili, że są one bardzo podobne (tylko w jednym przypadku przedział ufności dla nachylenia opartego na OLS nie zawierał 1). W przypadku, gdy OLS CI dla zbocza nie zawierał 1, górna granica przedziału wynosiła około 0,99.

Przy tak podobnych wynikach we wszystkich trzech witrynach łączenie danych witryny wydawało się rozsądne. Klient dokonał zbiorczej regresji Deminga, co również doprowadziło do podobnych wyników. Biorąc pod uwagę te wyniki, napisałem raport dla klienta kwestionującego twierdzenie, że regresje były nieważne. Moim argumentem jest to, że ponieważ w obu zmiennych występują podobne błędy pomiaru, klient miał rację, stosując regresję Deminga jako sposób wykazania zgody / niezgody. Poszczególne regresje strony nie miały problemów ze skorelowanymi błędami, ponieważ w danym miejscu nie powtarzano żadnych próbek. Łączenie danych w celu uzyskania krótszych przedziałów ufności.

Trudności tej można zaradzić, po prostu łącząc dane ze zwykłymi próbkami z witryny 1, o których mówi się, że pominięto. Również trzy indywidualne modele witryn nie mają problemu i są ważne. Wydaje mi się, że stanowi to mocny dowód zgody, nawet bez łączenia. Ponadto pomiary wykonano niezależnie w miejscach 1 i 2 dla miejsc wspólnych. Myślę więc, że nawet analiza zbiorcza wykorzystująca wszystkie dane jest poprawna, ponieważ błędy pomiarowe dla próbki w ośrodku 1 nie są skorelowane z błędami pomiarowymi w odpowiedniej próbce w ośrodku 2. To naprawdę sprowadza się do powtórzenia punktu w projekcie przestrzeń, która nie powinna stanowić problemu. Nie tworzy korelacji / „zakłóceń”.

W swoim raporcie napisałem, że analiza ładowania początkowego była niepotrzebna, ponieważ nie ma korelacji, którą należałoby dostosować. Trzy modele witryn były prawidłowe (brak możliwych „zakłóceń” w obrębie witryn) i można przeprowadzić analizę zbiorczą, usuwając typowe próbki w witrynie 1 podczas wykonywania puli. Taka zbiorcza analiza nie może mieć problemu z zakłóceniami. Dostosowanie bootstrapu nie byłoby konieczne, ponieważ nie ma tendencji do dostosowania.

WNIOSEK

Klient zgodził się z moją analizą, ale bał się zabrać ją do FDA. I tak chcą, żebym wyregulował bootstrap.

MOJE PYTANIA

A) Czy zgadzasz się z (1) moją analizą wyników klienta i (2) moim argumentem, że bootstrap jest zbędny.

B) Biorąc pod uwagę, że muszę załadować regresję Deminga, czy istnieją jakieś procedury SAS lub R, które są dla mnie dostępne, aby wykonać regresję Deminga na próbkach ładowania początkowego?

EDYCJA: Biorąc pod uwagę sugestię Billa Hubera, planuję przyjrzeć się granicom regresji błędów w zmiennych przez regresję zarówno y na x, jak i x na y. Wiemy już, że w przypadku jednej wersji OLS odpowiedź jest zasadniczo taka sama, jak błędy w zmiennych, gdy zakłada się, że dwie wariancje błędów są równe. Jeśli dotyczy to drugiej regresji, to myślę, że to pokaże, że regresja Deminga daje odpowiednie rozwiązanie. Czy sie zgadzasz?

Aby spełnić prośbę klienta, muszę wykonać żądaną analizę ładowania początkowego, która została niejasno zdefiniowana. Etycznie myślę, że błędem byłoby po prostu podanie paska startowego, ponieważ tak naprawdę nie rozwiązuje on prawdziwego problemu klienta, który uzasadnia procedurę pomiaru testu. Prześlę im obie analizy i poproszę przynajmniej, aby poinformowali FDA, że oprócz wykonania bootstrapu zrobiłem regresję odwrotną i ograniczyłem regresje Deminga, które moim zdaniem są bardziej odpowiednie. Sądzę również, że analiza ta pokaże, że ich metoda jest równoważna referencji, a zatem regresja Deminga jest również odpowiednia.

Planuję użyć programu R, który @whuber zasugerował w swojej odpowiedzi, aby umożliwić mi uruchomienie regresji Deminga. Nie znam się zbyt dobrze na R, ale myślę, że mogę to zrobić. Mam zainstalowany R wraz z R Studio. Czy to ułatwi wystarczająco nowicjuszowi jak ja?

Mam także SAS i jestem bardziej komfortowy w programowaniu w SAS. Więc jeśli ktoś zna sposób, aby to zrobić w SAS, byłbym wdzięczny za informację o tym.

Michael R. Chernick
źródło
2
Nie znam odpowiedzi na to pytanie, ale czy z czysto politycznego punktu widzenia nie byłoby lepiej robić to, co FDA chce i pokazać (przynajmniej przypuszczalnie), że wyniki są podobne? (Dobre pytanie, BTW, +1)
Peter Flom - Przywróć Monikę
1
Tak @PeterFlom Zgadzam się, że przeprowadzenie analizy dla FDA i wykazanie, że to nie ma znaczenia. Sądzę jednak, że dyplomatyczne wskazanie wyników regresji i ich implikacji oraz wykonanie puli bez nakładających się próbek wzmacnia argument. Zamierzam wykonać bootstrap, ale przydałaby mi się pomoc w znalezieniu dostępnego oprogramowania do samodzielnej regresji Deminga bez samodzielnego kodowania.
Michael R. Chernick
2
Michael, możliwość „próbek” wspólnych dla „witryn” podważa niektóre naturalne interpretacje tego, co mogą oznaczać te (abstrakcyjne) terminy. Na przykład początkowo myślałem o „witrynach” jako o różnych lokalizacjach geograficznych, a „próbkach” o osobnych jednostkach powiązanych z tymi lokalizacjami, z których każda podlegała niezależnym pomiarom. W tym modelu próbki nie mogą być wspólne dla różnych witryn. Czy możesz wyjaśnić, co rozumiesz przez te warunki?
whuber
3
@ Whuber strony są w różnych lokalizacjach. Próbki są osoczem cytrynianowym od osób fizycznych. Testy laboratoryjne są wykonywane w różnych lokalizacjach o różnych porach. Porównania dotyczą dwóch testowych urządzeń pomiarowych, które mają pełnić tę samą funkcję. W miejscach 1 i 2 niektóre próbki zostały ponownie wykorzystane, ale urządzenia działały niezależnie w miejscu 1 i miejscu 2. Dlatego mówię, że błędy pomiaru są naprawdę niezależne, nawet jeśli używane są te same próbki (lub części tych samych próbek) .
Michael R. Chernick,
1
a) Zgodził się, że pominięcie zduplikowanej próbki w zbiorczej analizie usuwa obawy dotyczące braku niezależności. b) Bardzo niewielu użytkowników SAS uważa, że ​​„łatwe” jest użycie R do analiz bootstrap z wykorzystaniem nietypowych metod regresji. Analizy bootstrap naprawdę wymagają funkcjonalnego trybu programowania i nie jest to tryb, który zachęca SAS.
DW

Odpowiedzi:

10

Jest to problem wzajemnej kalibracji: tzn. Ilościowego porównania dwóch niezależnych urządzeń pomiarowych.

Wydaje się, że istnieją dwie główne kwestie. Pierwszym (który jest tylko domyślny w pytaniu) jest sformułowanie problemu: jak określić, czy nowa metoda jest „równoważna” z zatwierdzoną? Drugi dotyczy sposobu analizy danych, w których niektóre próbki mogły zostać zmierzone więcej niż raz.

Obramowanie pytania

Najlepszym (i być może oczywistym) rozwiązaniem stwierdzonego problemu jest ocena nowej metody przy użyciu próbek o dokładnie znanych wartościach uzyskanych z porównywalnych pożywek (takich jak ludzkie osocze). (Zwykle odbywa się to poprzez wzbogacanie rzeczywistych próbek standardowymi materiałami o znanym stężeniu.) Ponieważ nie zostało to zrobione, załóżmy, że jest to niemożliwe lub nie będzie akceptowalne przez organy regulacyjne (z jakiegokolwiek powodu). Sprowadzamy się zatem do porównania dwóch metod pomiarowych, z których jedna jest wykorzystywana jako odniesienie, ponieważ uważa się ją za dokładną i powtarzalną (ale bez doskonałej precyzji).

W efekcie klient będzie żądał, aby FDA zezwolił na nową metodę jako serwer proxy lub surogat dla zatwierdzonej metody. Jako takie ich zadaniem jest wykazanie, że wyniki nowej metody będą z wystarczającą dokładnością przewidywać, co ustaliłaby zatwierdzona metoda, gdyby została zastosowana. Subtelne aspektem jest to, że jesteśmy nie próbując przewidzieć prawdą wartościami sami - my nawet nie znamy. Dlatego regresja błędów w zmiennych może nie być najwłaściwszym sposobem analizy tych danych.

YXXYYXYX. (Z mojego doświadczenia wynika, że ​​podejście to bywa zachowawczo rygorystyczne: odstępy te mogą być zaskakująco duże, chyba że oba pomiary są bardzo dokładne, precyzyjne i liniowo powiązane).

Adresowanie zduplikowanych próbek

Odpowiednie pojęcia tutaj dotyczą przykładowego wsparcia i składników wariancji. „Wsparcie próbki” odnosi się do fizycznej części badanego (tutaj istoty ludzkiej), która jest rzeczywiście mierzona. Po pobraniu pewnej części obiektu zwykle należy go podzielić na podpróbki odpowiednie do procesu pomiaru. Możemy być zaniepokojeni możliwością różnic między podpróbkami. W płynnej próbce, która jest dobrze wymieszana, zasadniczo nie ma zmian w podstawowej ilości (takiej jak stężenie substancji chemicznej) w całej próbce, ale w próbkach ciał stałych lub półstałych (które mogą obejmować krew), taka zmiana może być znaczny. Biorąc pod uwagę, że laboratoria często potrzebują tylko mikrolitrów roztworu do wykonania pomiaru, musimy martwić się o zmienność prawie w skali mikroskopowej. To może być ważne.

Możliwość takiej zmiany w obrębiepróbka fizyczna wskazuje, że zmienność wyników pomiaru należy podzielić na osobne „składniki wariancji”. Jednym ze składników jest wariancja z wariancji w obrębie próbki, a inne są wkładem w wariancję z każdego niezależnego etapu kolejnego procesu pomiarowego. (Kroki te mogą obejmować fizyczny akt pobierania podpróbek, dalsze chemiczne i fizyczne przetwarzanie próbki - takie jak dodanie stabilizatorów lub wirowanie - wstrzyknięcie próbki do przyrządu pomiarowego, zmiany w obrębie instrumentu, zmiany między instrumentami i inne różnice wynikające ze zmian w tym, kto obsługuje urządzenie, możliwe zanieczyszczenie otoczenia w laboratoriach itp. Mam nadzieję, że to wyjaśnia, że ​​aby naprawdę dobrze poradzić sobie z odpowiedzią na to pytanie, statystyk potrzebuje dokładnego zrozumienia całego procesu pobierania próbek i procesu analitycznego. Mogę tylko podać ogólne wskazówki.)

Rozważania te dotyczą omawianego pytania, ponieważ jedna „próbka” mierzona w dwóch różnych „miejscach” to tak naprawdę dwie próbki fizyczne uzyskane od tej samej osoby, a następnie podzielone między laboratoria. Pomiar za pomocą zatwierdzonej metody wykorzysta jeden kawałek podzielonej próbki, a jednoczesny pomiar za pomocą nowej metody wykorzysta inny kawałek podzielonej próbki. Rozpatrując składniki wariancji, które wynikają z tych podziałów, możemy rozstrzygnąć główny problem pytania. Teraz powinno być jasne, że różnice między tymi sparowanymi pomiarami należy przypisać dwóm rzeczom: po pierwsze, faktycznym różnicom między procedurami pomiarowymi - właśnie to próbujemy ocenić - i po drugie, różnicom wynikającym z jakichkolwiek zmian w obrębiepróbka, jak również zmienność spowodowana fizycznymi procesami ekstrakcji dwóch podpróbek, które mają zostać zmierzone. Jeżeli fizyczne uzasadnienie jednorodności próbki i procesu podpróbkowania może ustalić, że druga forma wariancji jest nieistotna, to w rzeczywistości nie ma „interferencji”, jak twierdzi recenzent. W przeciwnym razie te składniki wariancji mogą wymagać jawnego modelowania i oceny w analizie regresji odwrotnej.

Whuber
źródło
1
Dziękujemy za bardzo miłą analizę sugerującą najlepszy sposób rozwiązania tego problemu. Jednak w mojej szczególnej sytuacji klient wybrał metodę regresji Deminga i nie szuka innej metody. Wydaje się, że FDA narzuca regresję Deminga tylko z powodu interferencji, a ich sugestią dotyczącą obejścia problemu jest pewnego rodzaju korekta bootstrapu. Zostałem sprowadzony tylko dlatego, że nie wiedzą, jak zrobić bootstrap. Nie biorą w nich udziału statystycy i nie przedstawili analizy statystycznej wyników, jak podałem w moim raporcie.
Michael R. Chernick
2
Doceniam ograniczenia (i powinienem był o tym wyraźnie powiedzieć). Ogólnie rzecz biorąc, dobrym rozwiązaniem dla rozwiązywania takich pytań jest przyjęcie odpowiedniego modelu jako punktu wyjścia. Jeśli spróbujesz uzasadnić swoją drogę do rozwiązania przy użyciu niewłaściwego podejścia i nieprawidłowego modelu (w celu zadowolenia klienta), tylko pogłębisz błędy i nie będziesz w stanie osiągnąć żadnego wyraźnie uzasadnionego rozwiązania. To, co możesz teraz rozważyć, to to, w jaki sposób regresja Deminga różni się od regresji odwrotnej, a także w jaki sposób można dostosować regresję Deminga do wielu składników wariancji.
whuber
1
Możesz być zmotywowany do wykazania, że ​​regresja Deminga, jak już zastosowano, jest wystarczająco zbliżona do tego, co przyniosłaby zwykła lub odpowiednia metoda: taka demonstracja może być najlepszym możliwym rozwiązaniem w twojej sytuacji.
whuber
Zamiast tego po prostu opisali problem i sposób gromadzenia danych oraz wyświetlali wyniki regresji Deminga. Gdyby w to zaangażowany był statystyk, mogłoby być mniej problemów statystycznych dotyczących regresji Deminga. Jedyne, co mogę zrobić dla kliniki, to przedstawienie analizy, która została wykonana (która zawiera wyjaśnienie, dlaczego większość regresji może być analizowana bez obawy o interferencję wynikającą z powtarzania próbkowania ze wspólnego źródła) oraz zapewnienie wymaganego bootstrapu korekta wariancji rezydualnej w modelu zbiorczym.
Michael R. Chernick,
Nie mogę w tym momencie powiedzieć im, aby zrobili regresję odwrotną. Jeśli metoda pomiarowa zostanie zatwierdzona, myślę, że można ją postrzegać jako odniesienie, a obowiązkiem firmy jest wykazanie, że nowa metoda wykonuje zasadniczo to samo zadanie co odniesienie. W tym celu uważam, że regresja Deminga może być odpowiednia i przynajmniej może być akceptowana przez FDA. Prawdopodobnie tak by było, gdyby problem powtarzających się próbek nie pojawił się. Ten problem nie powstałby, gdyby zostawili jedną z powtarzających się próbek podczas łączenia.
Michael R. Chernick