Wszystko jest w rodzinie; ale czy uwzględniamy też teściów?

9

Załóżmy, że mam eksperyment z dwoma lub więcej czynnikami. Konstruowana jest ogólna ANOVA, a następnie przeprowadzamy kolejne dwa lub więcej zestawów testów post hoc , powiedzmy wiele porównań. Moje pytanie dotyczy tego, jak duże --- i ile --- rodzin powinno być wykorzystane jako podstawa do dopasowania mnogości tych testów post hoc .

Przykładem jest zestaw danych dotyczących łamania osnowy z książki Tukeya na temat EDA. Istnieją dwa czynniki: wool(na dwóch poziomach) i tension(na trzech poziomach). Tabela ANOVA to:

Source       Df Sum Sq Mean Sq F value    Pr(>F)    
wool          1  450.7  450.67  3.7653 0.0582130
tension       2 2034.3 1017.13  8.4980 0.0006926
wool:tension  2 1002.8  501.39  4.1891 0.0210442
Residuals    48 5745.1  119.69  

Oczywiście w modelu potrzebna jest interakcja. Postanawiamy więc dokonać porównania poziomów każdego czynnika, utrzymując drugi czynnik stały. Wyniki są poniżej, z kilkoma adnotacjami, do których można się później odwołać:

*** Pairwise comparisons of tension for each wool ***
*** All combined: Family T ***

wool = A:   *** Family T|A ***
 contrast   estimate       SE df t.ratio
 L - M    20.5555556 5.157299 48   3.986
 L - H    20.0000000 5.157299 48   3.878
 M - H    -0.5555556 5.157299 48  -0.108

wool = B:   *** Family T|B ***
 contrast   estimate       SE df t.ratio
 L - M    -0.5555556 5.157299 48  -0.108
 L - H     9.4444444 5.157299 48   1.831
 M - H    10.0000000 5.157299 48   1.939


*** Comparison of wool for each tension ***
*** All combined: Family W ***

tension = L:   *** Family W|L ***
 contrast  estimate       SE df t.ratio
 A - B    16.333333 5.157299 48   3.167

tension = M:   *** Family W|M ***
 contrast  estimate       SE df t.ratio
 A - B    -4.777778 5.157299 48  -0.926

tension = H:   *** Family W|H ***
 contrast  estimate       SE df t.ratio
 A - B     5.777778 5.157299 48   1.120

Myślę, że istnieją różne praktyki i zastanawiam się, które są najczęstsze i jakie argumenty ludzie przemawiają za lub przeciw każdemu podejściu. W obliczeniach dostosowanyP wartości, czy powinniśmy dokonać korekty krotności dla ...

  1. każda z pięciu najmniejszych rodzin (T | A, T | B, ..., W | H) oddzielnie? (Uwaga - ostatnie 3 rodziny mają tylko jeden test, więc nie będzie dla nich korekty wielokrotności)
  2. każda z większych rodzin (T, z 6 testami i W, z 3 testami) oddzielnie?
  3. wszystko 6+3=9 testy uważane za jedną dużą rodzinę?

Interesuje mnie zarówno to, co zwykle robią ludzie (nawet jeśli nie myśleli o tym dużo), a także dlaczego (jeśli mają). Kilka rzeczy, o których mógłbym wspomnieć to:

  • Jest 3 Ftesty w tabeli ANOVA. Nie przypominam sobie, aby ktoś rozważał korektę wielokrotności w testach ANOVA. Jeśli tak jest i polecasz opcję (3), czy jesteś niespójny?
  • Gdybyśmy przeprowadzili nieco mniejszy eksperyment, w którym wszystkie testy są mniej wydajne, możliwe jest, że interakcja nie byłaby znacząca, prowadząc do znacznie mniejszej liczby porównań post hoc jedynie środków marginalnych. Ponadto, środki krańcowe mogłyby równie dobrze mieć mniejsze SE niż środki komórkowe w większym eksperymencie. Jeśli ponadto dostosowanie wielokrotności jest mniej konserwatywne, moglibyśmy uzyskać więcej „znaczących” wyników przy mniejszej ilości danych niż przy większej liczbie danych.

Chcesz zobaczyć, co ludzie mają do powiedzenia ...

Russ Lenth
źródło

Odpowiedzi:

2

Nikt jeszcze nie odpowiedział, więc się na to zgodzę.

Moim zdaniem (i chciałbym usłyszeć myśli innych), powinieneś dostosować się do pełnych 9 testów w tym przypadku. Zakładając, że stosujemy rodzinną korektę poziomu błędu,

  • Jednocześnie wyciągamy wnioski ze wszystkich 9 testów jednocześnie. Czyli przeglądając listę i szukając czegoś znaczącego.

  • Aby to zrobić, rozważamy ogólny poziom błędu dla całej rodziny wynoszący 5%. Alternatywą byłoby indywidualne skorygowanie grup do 5% FWER. Oznaczałoby to, że podczas tłumaczenia nie moglibyśmy zinterpretować testów łącznie, wolelibyśmy spojrzeć na pierwsze 6 testów i pomyśleć, że istnieje 5% szansy na wynik fałszywie dodatni, a następnie zbadać każdy z kolejnych testów z kolei wiedząc że dla każdej grupy istnieje 5% szansy na wynik fałszywie dodatni . IMO użytecznością korekcji wielu testów jest to, że jesteśmy w stanie jednocześnie wyciągać wnioski z wielu testów jednocześnie. Wydaje się bardziej logiczne, że powinniśmy spojrzeć na wszystkie 9 testów i wiedzieć, że istnieje 5% szansa na wynik fałszywie dodatni, zamiast konieczności ich osobnego sprawdzania, podobnie jak w ogóle nie korygowanie.

  • Problem dostosowania do trzech F-testy w ANOVA są interesujące, ale moim zdaniem istotne tylko, jeśli planujesz dokonać wyboru modelu, w którym akceptujesz tylko znaczące predyktory. To może być dobra lektura, w szczególności wniosek jest bardzo zwięzły i doskonały. Ukradłem ten link z tego pytania.

  • Twoja uwaga na temat włączenia efektów interakcji jest interesująca i myślę, że można to zdefiniować jako wybór modelu. Czy uwzględniłbyś efekty interakcji, gdyby były znaczące? W tym przypadku być możeF statystyki w pierwotnej ANOVA powinny zostać dostosowane, aby ułatwić wybór istotnych predyktorów.

Ogólnie rzecz biorąc, uważam, że jeśli jednocześnie wyciągasz wnioski z grupy, musisz rozważyć każdy test w tej grupie w celu korekty. W przeciwnym razie standardowe zrozumienie poziomu błędu kontrolowanej grupy nie jest podtrzymywane i dość trudno jest koncepcyjnie śledzić, co zostało dostosowane, a co nie. Moim zdaniem znacznie lepiej, aby wszystkie testy były rozliczane i utrzymywać rodzinny poziom błędu przy danym progu.

Jeśli masz jakieś obalenia, chciałbym je usłyszeć i jestem pewien, że niektórzy ludzie nie zgodzą się z niektórymi sprawami tutaj. Bardzo zainteresowany usłyszeniem cudzych myśli.

Chris C.
źródło
Dzięki. Dobrze przemyślane. Pytanie poboczne: czy można to zrobić w SAS? Nie sądzę, ale wiele nie wiem o SAS. Jest to istotne, ponieważ uważam, że tego rodzaju dostosowanie rzadko jest stosowane w praktyce.
Russ Lenth
Niestety, niewiele wiem o SAS, przepraszam @rvl. Może ktoś inny to zobaczy i pomoże. Mam nadzieję, że do tego problemu włączy się więcej osób. To bardzo dobre pytanie, że ludzie tak naprawdę o tym nie myślą.
Chris C
to w porządku - zastanawiałem się, co właściwie można łatwo zrobić z istniejącym oprogramowaniem. Jeśli konsensus sprowadza się do opcji 3, potrzebujemy wsparcia oprogramowania dla niego!
Russ Lenth
... ale teraz można to zrobić w R. zobaczyć nową odpowiedź napisałem w odpowiednim pytaniem stats.stackexchange.com/questions/165125/... . To pytanie sprawiło, że o tym pomyślałem.
Russ Lenth
Bardzo fajny! Czy jesteś opiekunem lsmeans? To było dużo pracy dla tego pytania!
Chris C