Sparowany a niesparowany test t

20

Załóżmy, że mam 20 myszy. W jakiś sposób łączę myszy w pary, aby uzyskać 10 par. Na potrzeby tego pytania może to być przypadkowa para LUB może to być rozsądna para, na przykład próba sparowania myszy z tego samego miotu, tej samej płci, o podobnej wadze, LUB może to być celowo głupia para, taka jak próbując sparować myszy z ciężarkami tak nierównymi, jak to tylko możliwe. Następnie używam liczb losowych, aby przypisać jedną mysz w każdej parze do grupy kontrolnej, a drugą mysz do grupy, która ma być leczona. Teraz przeprowadzam eksperyment, lecząc tylko myszy, które mają być leczone, ale poza tym nie zwracam uwagi na poczynione ustalenia.

Gdy przychodzi do analizy wyników, można zastosować niesparowane testowanie t lub sparowane testowanie t. W jaki sposób, jeśli w ogóle, odpowiedzi będą się różnić? (Zasadniczo jestem zainteresowany systematycznymi różnicami każdego parametru statystycznego, który należy oszacować.)

Powód, dla którego o to pytam, jest taki, że artykuł, z którym ostatnio brałem udział, został skrytykowany przez biologa za stosowanie sparowanego testu t zamiast niesparowanego testu t. Oczywiście w rzeczywistym eksperymencie sytuacja nie była tak ekstremalna jak sytuacja, którą naszkicowałem, i moim zdaniem istniały dobre powody do parowania. Ale biolog nie zgodził się.

Wydaje mi się, że nie jest możliwe nieprawidłowe poprawienie istotności statystycznej (zmniejszenie wartości p), w zarysowanych przeze mnie okolicznościach, za pomocą sparowanego testu t, a nie niesparowanego testu, nawet jeśli parowanie jest niewłaściwe. Mogłoby to jednak pogorszyć znaczenie statystyczne, gdyby myszy były źle sparowane. Czy to jest poprawne?

David Epstein
źródło

Odpowiedzi:

23

Zgadzam się z uwagami zarówno Franka, jak i Petera, ale myślę, że istnieje prosta formuła, która dociera do sedna sprawy i może być warta rozważenia przez PO.

Niech i będą dwiema losowymi zmiennymi, których korelacja jest nieznana.YXY

NiechZ=X-Y

Jaka jest wariancja ?Z

Oto prosta formuła: Co jeśli (tj. i są dodatnio skorelowane)?Cov ( X , Y ) > 0 X Y

Var(Z)=Var(X)+Var(Y)-2)Cov(X,Y).
Cov(X,Y)>0XY

Następniet X i A Y i AVar(Z)<Var(X)+Var(Y). W takim przypadku, jeśli parowanie zostało wykonane z powodu dodatniej korelacji, na przykład gdy masz do czynienia z tym samym tematem przed i po interwencji, parowanie pomaga, ponieważ niezależna sparowana różnica ma mniejszą wariancję niż wariancję, którą otrzymujesz dla niesparowanej skrzynki. Metoda zmniejszyła wariancję. Test jest mocniejszy. Można to dramatycznie pokazać za pomocą cyklicznych danych. Widziałem przykład w książce, w której chcieli sprawdzić, czy temperatura w Waszyngtonie jest wyższa niż w Nowym Jorku. Więc wzięli średnią miesięczną temperaturę w obu miastach przez powiedzmy 2 lata. Oczywiście istnieje ogromna różnica w ciągu roku ze względu na cztery pory roku. Ta zmiana jest zbyt duża, aby niesparowany test t mógł wykryć różnicę. Jednak parowanie w oparciu o ten sam miesiąc w tym samym roku eliminuje ten efekt sezonowy i sparowanietTest wyraźnie pokazał, że średnia temperatura w DC była na ogół wyższa niż w Nowym Jorku. (temperatura w NY w miesiącu ) i (temperatura w DC w miesiącu ) są dodatnio skorelowane, ponieważ pory roku są takie same w NY i DC, a miasta są na tyle blisko, że często doświadczają tych samych systemów pogodowych, które wpływają na temperaturę . DC może być trochę cieplej, ponieważ jest dalej na południe.XjaZAYjaZA

Zauważ, że im większa kowariancja lub korelacja, tym większe jest zmniejszenie wariancji.

Załóżmy teraz, że jest ujemny.Cov(X,Y)

Następnie . Teraz parowanie będzie gorsze niż brak parowania, ponieważ wariancja jest faktycznie zwiększona!Var(Z)>Var(X)+Var(Y)

Gdy i są nieskorelowane, prawdopodobnie nie ma znaczenia, której metody używasz. Przypadek parowania Petera jest podobny do tej sytuacji.YXY

Michael R. Chernick
źródło
3
Michael, ponieważ „<” i „>” mają specjalne znaczenie na stronach internetowych, aby uniknąć konieczności duże połacie tekstu po prostu znikają z widoku, który jest niezbędny , aby używać znaczników dla nich w równaniach (kody są „\ lt odpowiednio „i„ \ gt ”). Zaznaczyłem dwa równania, które spowodowały ten problem. W przyszłości zapoznaj się z tym, co publikujesz natychmiast po opublikowaniu, aby upewnić się, że ludzie widzą to, co Twoim zdaniem zobaczyli, a następnie możesz oflagować swój post, aby zwrócić uwagę moderatora, jeśli wystąpi jakiś problem ze znacznikami. T.miX
whuber
@whuber Dziękuję. Zazwyczaj sprawdzam podczas i po opublikowaniu, ponieważ okazuje się, że bardzo popsuję równania, szczególnie podczas subskrybowania. Brak tego jest niezwykły i prawdopodobnie zdarzył się, ponieważ był to długi post i po prostu beztrosko przeszedłem do czegoś innego, co chciałem lub musiałem zrobić. Czasami telefon odwraca moją uwagę i zapominam sprawdzić. W odniesieniu do specjalnych symboli, które powodują znikanie tekstu w poście, zauważyłem to. Myślę, że prostym rozwiązaniem jest pozostawienie spacji po symbolu. Myślę, że to działało dla mnie w przeszłości.
Michael R. Chernick
+1, naprawdę na miejscu. Zauważ, że jeśli i są całkowicie nieskorelowane w twojej próbce , . Y Var ( Z ) = Var ( X ) + Var ( Y )XYVar(Z)=Var(X)+Var(Y)
Gung - Przywróć Monikę
@MichaelChernick W przypadku, gdy Cov (X, Y) <0, mam pytanie: jeśli moim celem jest wywnioskowanie E [X] -E [Y] z mojego eksperymentu, to NAWET MYŚLI przeprowadziłem sparowane badanie, kiedy analizując moje dane, nadal mogę PRETENDOWAĆ, że wynik mojego eksperymentu jest realizacją losowego eksperymentu NIEPAROWANEGO. Mogę to zrobić? Ponieważ jeśli naprawdę przeprowadziłeś losowy eksperyment bez pary, możesz dosłownie uzyskać ten sam wynik. Następnie mogę po prostu wziąć średnią z każdej grupy (zignorować parowanie) i wziąć różnicę średniej z dwóch grup. Jest to obiektywny estymator E [Z]. Dla
wariantu
@MichaelChernick przykładowa wariancja grupy X i grupy Y i zsumowanie ich
KevinKim
7

Zamiast parowania prawdopodobnie lepiej jest zrozumieć podstawowy model danych. Jeśli parowanie odbywa się w celu poradzenia sobie z niekontrolowaną heterogenicznością, zwykle jest tak (z wyjątkiem badań bliźniaczych), że parowanie tylko częściowo kontroluje to źródło zmienności, a regresja wielokrotna byłaby lepsza. Wynika to z tego, że dopasowanie ciągłych zmiennych często powoduje resztkową zmienność z powodu niemożności dokładnego dopasowania takich zmiennych.

Frank Harrell
źródło
2
Jeśli wszyscy powinniśmy robić regresję, dlaczego książki o projekcie eksperymentalnym, takie jak książka Davida Coxa, podkreślają znaczenie parowania lub grupowania w eksperymentach biologicznych? Parowanie pozwala uniknąć ukrytego założenia zależności liniowej wynikającego z regresji. Ale może istnieją inne powody: ktoś?
David Epstein
6

Dwa testy (sparowane i niesparowane) zadają różne pytania, aby uzyskać różne odpowiedzi. Prawidłowe parowanie prawie zawsze ma większą moc niż niesparowane - o to właśnie chodzi. Ponieważ powiesz, że parowanie jest prawidłowe, prawdopodobne jest, że wartość p dla twojego sparowanego testu jest niższa niż dla tych samych danych niesparowanych. Możesz oczywiście zrobić jedno i drugie i przekonać się sam.

Dlatego odpowiedź na twój dylemat jest merytoryczna, a nie statystyczna. Czy twoje parowanie jest prawidłowe?

Czy możesz uzyskać bardziej znaczący wynik z losowego parowania niż z niesparowanego testu? Zobaczmy:

set.seed(2910110192)
x <- rnorm(100, 10, 2)
y <- rnorm(100, 10, 2)
t.test(x, y)
t.test(x, y, paired = T)

Tak, możesz, chociaż tutaj różnica jest bardzo mała, sparowane miały niższe p. Uruchomiłem ten kod kilka razy. Nic dziwnego, że czasami jedno p jest niższe, czasem inne, ale różnica była niewielka we wszystkich przypadkach. Jestem jednak pewien, że w niektórych sytuacjach różnica wartości p może być duża.

Peter Flom - Przywróć Monikę
źródło
Dzięki za odpowiedź, ale moje pytanie wymagało systematycznych różnic. Oczywiście, w długim szeregu x i y, xiy czasami wyglądają tak, jakby były bardzo dobrze sparowane, a czasami tak, jakby zostały celowo źle sparowane. Z pewnością jest statystycznym pytaniem, czy przy losowym wyborze xiy rozkład wartości p jest taki sam w obu testach. Przypuszczam, że dla kogoś, kto zna więcej statystyk teoretycznych, nie powinno być trudniej obliczyć dwa teoretyczne rozkłady wartości p. Domyślam się, że są takie same.
David Epstein
W rzeczywistym przypadku, w którym byłem zaangażowany, wartość p dla niesparowanych wynosiła około 0,04, a dla sparowanych 0,001. Według krytycznego biologa powinniśmy cytować 0,04. Według mnie poprawa wartości p zdecydowanie wskazuje, że nasze parowanie było prawidłowe. Twierdzę, że jest tu obiektywne pytanie w statystykach, z obiektywną odpowiedzią, i że nie jest to tylko kwestia dobrego osądu biologicznego co do ważności danej pary - ta ostatnia wydaje się być opinią Petera Floma i krytyczny biolog.
David Epstein
1
Myślę, że statystyki opowiadają historię. Oba wyniki powinny zostać ujawnione, ale dopóki dane są poprawne, a korelacja może być wyjaśniona, test sparowany jest dokładniejszy, ponieważ uwzględnia korelację.
Michael R. Chernick
5

Teraz rozumiem znacznie lepiej, co martwiło mnie o sparowane kontra niesparowane testy t oraz powiązane wartości p. Dowiedzenie się było ciekawą podróżą i po drodze było wiele niespodzianek. Jedna niespodzianka wynika z badania wkładu Michaela. Jest to nie do uniknięcia pod względem praktycznych porad. Co więcej, mówi to, co myślę, w co wierzą praktycznie wszyscy statystycy, i ma kilka głosów poparcia dla tego. Jednak jako teoria nie jest dosłownie poprawna. Odkryłem to, opracowując formuły dla wartości p, a następnie ostrożnie zastanawiając się, jak używać formuł, aby prowadzić do kontrprzykładów. Z wykształcenia jestem matematykiem, a kontrprzykład jest „kontrprzykładem matematyka”. To nie jest coś, co można spotkać w praktycznych statystykach, rzecz, o której starałem się dowiedzieć, kiedy zadałem swoje oryginalne pytanie.

Oto kod R, który daje kontrprzykład:

vLength <- 10; meanDiff <-10^9; numSamples <- 3;
pv <- function(vLength,meanDiff) {
    X <- rnorm(vLength)
    Y <- X - meanDiff + rnorm(vLength,sd=0.0001)
    Paired <- t.test(X,Y,var.equal=T,paired=T)
    NotPaired <- t.test(X,Y,var.equal=T,paired=F)
    c(Paired$p.value,NotPaired$p.value,cov(X,Y))
}
ans <- replicate(numSamples,pv(vLength,meanDiff))

Zwróć uwagę na następujące funkcje: X i Y to dwie 10-krotności, których różnica jest ogromna i prawie stała. Dla wielu znaczących liczb korelacja wynosi 1.000 .... Wartość p dla testu niesparowanego jest około 10 ^ 40 razy mniejsza niż wartość p dla testu sparowanego. Jest to więc sprzeczne z relacją Michaela, pod warunkiem, że czyta się jego dosłownie, w stylu matematyki. Tutaj kończy się część mojej odpowiedzi związana z odpowiedzią Michaela.


Oto myśli wywołane odpowiedzią Piotra. Podczas dyskusji nad moim pierwotnym pytaniem w komentarzu doszedłem do wniosku, że dwa szczególne rozkłady wartości p, które brzmią inaczej, są w rzeczywistości takie same. Teraz mogę to udowodnić. Ważniejsze jest to, że dowód ujawnia podstawową naturę wartości p, tak fundamentalną, że żaden tekst (z którym się spotkałem) nie zawraca sobie głowy wyjaśnieniem. Być może wszyscy profesjonalni statystycy znają tajemnicę, ale dla mnie definicja wartości p zawsze wydawała się dziwna i sztuczna. Zanim przekażę tajemnicę statystyki, pozwól mi sprecyzować pytanie.

n>1n2)(n-1)n-1stopnie swobody. Te dwa rozkłady są różne, więc jak, u licha, powiązane rozkłady wartości p mogą być takie same? Dopiero po wielu dalszych przemyśleniach zdałem sobie sprawę, że to oczywiste odrzucenie mojej hipotezy było zbyt łatwe.

fa:(0,)(0,)[0,1]

p=tfa(s)res
fa(-,)[0,)

[0,1]

n-1[0,1]2)(n-1)[0,1][0,1]

David Epstein
źródło
Nie sądzę, żeby wartość p zawierała tajemnicze sekrety. Niektórzy ludzie mają z tym trudny czas. Jest to prawdopodobieństwo zaobserwowania wartości jako ekstremalnej lub bardziej ekstremalnej niż to, co faktycznie zaobserwowano, gdy hipoteza zerowa jest PRAWDA. Myślę, że miałeś to prawo w jednej ze swoich formuł. Myślę, że powiedziałeś, że wartości p są równomiernie rozłożone. Tak, zgadzam się z tym, gdy hipoteza zerowa jest prawdziwa. Należy pamiętać, że z testem t hipoteza zerowa może nie być prawdziwa. Wtedy wartość p nie jest jednolita. Powinien być skoncentrowany bliżej zera
Michael R. Chernick
Po drugie, mówimy o dwóch różnych statystykach testowych. Jeden opiera się na parowaniu, a drugi nie w twoim przykładzie. Niezależnie od tego, czy wspomniałem o tym w mojej odpowiedzi, czy niesparowany test t ma centralny rozkład t z 2n-2 stopniami swobody, podczas gdy odpowiedni rozkład t dla sparowanego testu t ma n-1 stopni swobody. Zatem ten o większej liczbie stopni swobody jest bliższy standardowemu rozkładowi normalnemu niż drugi. Czy to ważne, kiedy zastosujesz te testy do rzeczywistych danych? Nie! Nie, gdy n jest dość duże.
Michael R. Chernick
Na marginesie ograniczenie testu sparowanego wymaga jednakowej wielkości próbki, którą powinieneś mieć, jeśli wszystkie dane można sparować. Ale niesparowany test jest ważny przy nierównych rozmiarach próbek. Ogólnie rzecz biorąc, niesparowany test ma n + m-2 stopnie swobody.
Michael R. Chernick
Twoja odpowiedź jest długa i abstrakcyjna i starałem się przez nią przedzierać, ale nie rozumiałem kontrprzykładu. Po prostu nie widzę, gdzie bierzesz pod uwagę hipotezę zerową i rzeczywiste dane. Obserwowana wartość p jest całką odpowiedniego rozkładu t dla statystyki testu, biorąc pod uwagę dane. Porównujesz te liczby dla dwóch t rozkładów i tego samego wspólnego zestawu danych. Jeśli uwzględnisz obserwowane dane, te jednolite rozkłady nie odgrywają żadnej roli. Przykro mi, ale nie widzę, że twoja odpowiedź naprawdę odpowiada na twoje pytanie.
Michael R. Chernick
Michael: skoncentruj się na kodzie R, który podałem. Uruchomienie zajmuje tylko sekundę. Hipotezą zerową jest to, że X i Y pochodzą z tego samego rozkładu normalnego, co w moim przypadku jest oczywiście nieprawdziwe. W moim przykładzie Cov (X, Y)> 0, a jednak test niesparowany daje większe znaczenie niż test sparowany.
David Epstein,
1

Chciałbym zaoferować inną perspektywę. Często parowanie odbywa się w celu zmniejszenia stronniczości. Załóżmy, że jesteś zainteresowany tym, czy narażenie E jest czynnikiem ryzyka dla ciągłego wyniku Y. Dla każdego podmiotu E + otrzymujesz podmiot dopasowany pod względem wieku i płci, który jest E-. Teraz możemy wykonać sparowany test t lub niesparowany test t. Myślę, że powinniśmy wyraźnie uwzględnić dopasowanie i przeprowadzić sparowany test t. Jest bardziej zasadniczy, ponieważ uwzględnia projekt. To, czy wziąć pod uwagę dopasowanie w analizie, jest kwestią kompromisu wariancji odchylenia. Uwzględnianie dopasowania w analizie zapewnia większą ochronę przed stronniczością, ale może zwiększyć wariancję. Wykonanie niesparowanego testu t może być bardziej wydajne, ale nie zapewniłoby żadnej ochrony przed stronniczością.

Ravi Varadhan
źródło