Załóżmy, że mam 20 myszy. W jakiś sposób łączę myszy w pary, aby uzyskać 10 par. Na potrzeby tego pytania może to być przypadkowa para LUB może to być rozsądna para, na przykład próba sparowania myszy z tego samego miotu, tej samej płci, o podobnej wadze, LUB może to być celowo głupia para, taka jak próbując sparować myszy z ciężarkami tak nierównymi, jak to tylko możliwe. Następnie używam liczb losowych, aby przypisać jedną mysz w każdej parze do grupy kontrolnej, a drugą mysz do grupy, która ma być leczona. Teraz przeprowadzam eksperyment, lecząc tylko myszy, które mają być leczone, ale poza tym nie zwracam uwagi na poczynione ustalenia.
Gdy przychodzi do analizy wyników, można zastosować niesparowane testowanie t lub sparowane testowanie t. W jaki sposób, jeśli w ogóle, odpowiedzi będą się różnić? (Zasadniczo jestem zainteresowany systematycznymi różnicami każdego parametru statystycznego, który należy oszacować.)
Powód, dla którego o to pytam, jest taki, że artykuł, z którym ostatnio brałem udział, został skrytykowany przez biologa za stosowanie sparowanego testu t zamiast niesparowanego testu t. Oczywiście w rzeczywistym eksperymencie sytuacja nie była tak ekstremalna jak sytuacja, którą naszkicowałem, i moim zdaniem istniały dobre powody do parowania. Ale biolog nie zgodził się.
Wydaje mi się, że nie jest możliwe nieprawidłowe poprawienie istotności statystycznej (zmniejszenie wartości p), w zarysowanych przeze mnie okolicznościach, za pomocą sparowanego testu t, a nie niesparowanego testu, nawet jeśli parowanie jest niewłaściwe. Mogłoby to jednak pogorszyć znaczenie statystyczne, gdyby myszy były źle sparowane. Czy to jest poprawne?
źródło
Zamiast parowania prawdopodobnie lepiej jest zrozumieć podstawowy model danych. Jeśli parowanie odbywa się w celu poradzenia sobie z niekontrolowaną heterogenicznością, zwykle jest tak (z wyjątkiem badań bliźniaczych), że parowanie tylko częściowo kontroluje to źródło zmienności, a regresja wielokrotna byłaby lepsza. Wynika to z tego, że dopasowanie ciągłych zmiennych często powoduje resztkową zmienność z powodu niemożności dokładnego dopasowania takich zmiennych.
źródło
Dwa testy (sparowane i niesparowane) zadają różne pytania, aby uzyskać różne odpowiedzi. Prawidłowe parowanie prawie zawsze ma większą moc niż niesparowane - o to właśnie chodzi. Ponieważ powiesz, że parowanie jest prawidłowe, prawdopodobne jest, że wartość p dla twojego sparowanego testu jest niższa niż dla tych samych danych niesparowanych. Możesz oczywiście zrobić jedno i drugie i przekonać się sam.
Dlatego odpowiedź na twój dylemat jest merytoryczna, a nie statystyczna. Czy twoje parowanie jest prawidłowe?
Czy możesz uzyskać bardziej znaczący wynik z losowego parowania niż z niesparowanego testu? Zobaczmy:
Tak, możesz, chociaż tutaj różnica jest bardzo mała, sparowane miały niższe p. Uruchomiłem ten kod kilka razy. Nic dziwnego, że czasami jedno p jest niższe, czasem inne, ale różnica była niewielka we wszystkich przypadkach. Jestem jednak pewien, że w niektórych sytuacjach różnica wartości p może być duża.
źródło
Teraz rozumiem znacznie lepiej, co martwiło mnie o sparowane kontra niesparowane testy t oraz powiązane wartości p. Dowiedzenie się było ciekawą podróżą i po drodze było wiele niespodzianek. Jedna niespodzianka wynika z badania wkładu Michaela. Jest to nie do uniknięcia pod względem praktycznych porad. Co więcej, mówi to, co myślę, w co wierzą praktycznie wszyscy statystycy, i ma kilka głosów poparcia dla tego. Jednak jako teoria nie jest dosłownie poprawna. Odkryłem to, opracowując formuły dla wartości p, a następnie ostrożnie zastanawiając się, jak używać formuł, aby prowadzić do kontrprzykładów. Z wykształcenia jestem matematykiem, a kontrprzykład jest „kontrprzykładem matematyka”. To nie jest coś, co można spotkać w praktycznych statystykach, rzecz, o której starałem się dowiedzieć, kiedy zadałem swoje oryginalne pytanie.
Oto kod R, który daje kontrprzykład:
Zwróć uwagę na następujące funkcje: X i Y to dwie 10-krotności, których różnica jest ogromna i prawie stała. Dla wielu znaczących liczb korelacja wynosi 1.000 .... Wartość p dla testu niesparowanego jest około 10 ^ 40 razy mniejsza niż wartość p dla testu sparowanego. Jest to więc sprzeczne z relacją Michaela, pod warunkiem, że czyta się jego dosłownie, w stylu matematyki. Tutaj kończy się część mojej odpowiedzi związana z odpowiedzią Michaela.
Oto myśli wywołane odpowiedzią Piotra. Podczas dyskusji nad moim pierwotnym pytaniem w komentarzu doszedłem do wniosku, że dwa szczególne rozkłady wartości p, które brzmią inaczej, są w rzeczywistości takie same. Teraz mogę to udowodnić. Ważniejsze jest to, że dowód ujawnia podstawową naturę wartości p, tak fundamentalną, że żaden tekst (z którym się spotkałem) nie zawraca sobie głowy wyjaśnieniem. Być może wszyscy profesjonalni statystycy znają tajemnicę, ale dla mnie definicja wartości p zawsze wydawała się dziwna i sztuczna. Zanim przekażę tajemnicę statystyki, pozwól mi sprecyzować pytanie.
źródło
Chciałbym zaoferować inną perspektywę. Często parowanie odbywa się w celu zmniejszenia stronniczości. Załóżmy, że jesteś zainteresowany tym, czy narażenie E jest czynnikiem ryzyka dla ciągłego wyniku Y. Dla każdego podmiotu E + otrzymujesz podmiot dopasowany pod względem wieku i płci, który jest E-. Teraz możemy wykonać sparowany test t lub niesparowany test t. Myślę, że powinniśmy wyraźnie uwzględnić dopasowanie i przeprowadzić sparowany test t. Jest bardziej zasadniczy, ponieważ uwzględnia projekt. To, czy wziąć pod uwagę dopasowanie w analizie, jest kwestią kompromisu wariancji odchylenia. Uwzględnianie dopasowania w analizie zapewnia większą ochronę przed stronniczością, ale może zwiększyć wariancję. Wykonanie niesparowanego testu t może być bardziej wydajne, ale nie zapewniłoby żadnej ochrony przed stronniczością.
źródło