Jaka może być jasna, praktyczna definicja „rodziny hipotez” (w odniesieniu do rodzinnego poziomu błędu)?

9

Próbując ocenić, co stanowi rodzinę hipotez w ramach eksperymentu / projektu / analizy, znalazłem „podobne w celu” i „podobne w treści” podane jako wytyczne do rozgraniczania rodzin, ale pozostawiają one wiele możliwości interpretacji ( delikatnie mówiąc).

Wydaje się jasne, że jeśli w trakcie analizy przeprowadzę kilka testów średnich grupowych i oddzielną partię testów jednorodności proporcji, to nie połączyłbym wszystkiego w jedną rodzinę hipotez.

Jeśli jednak mam kilka partii nieco powiązanych testów środków grupowych, jakie kryterium łączy je w rodzinę (lub dzieli je na osobne rodziny)? Czy wszyscy członkowie rodziny powinni mieć tę samą zmienną odpowiedzi? Gdybym miał różne zmienne odpowiedzi, ale ten sam zestaw przypadków, czy wszystkie te zostałyby połączone w rodzinę hipotez?

Ryan
źródło

Odpowiedzi:

4

Kwestia wielokrotnych porównań to naprawdę duży temat. Było wiele opinii i wiele nieporozumień. Wynika to z wielu rzeczy; między innymi częściowo dlatego, że problem jest naprawdę ważny, a częściowo dlatego, że tak naprawdę nie ma ostatecznej reguły ani kryterium. Weźmy prototypowy przypadek: przeprowadzasz eksperyment z zabiegami i otrzymujesz znaczącą ANOVA, więc teraz zastanawiasz się, które sposoby leczenia różnią się. Jak sobie z tym poradzić, uruchomić testy t t? Chociaż testy te indywidualnie utrzymywałyby na poziomie .05, „rodzinne” (tj. Prawdopodobieństwo wystąpienia co najmniej 1 błędu typu I) wybuchnie. W rzeczywistości wskaźnik błędu rodzinnego wyniesiekk(k1)/2αα1(1α)k. Pytanie brzmi: co definiuje „rodzinę”? I nie ma ostatecznej odpowiedzi poza trywialną, że „rodzina” jest zbiorem kontrastów. To, czy jakiś konkretny zestaw kontrastów należy uznać za rodzinę, jest decyzją subiektywną. Analizy 3, 17 i 42, które kiedykolwiek przeprowadziłem w moim życiu, są zbiorem kontrastów. Mógłbym dostosować mój próg aby mieć pewność, że prawdopodobieństwo wystąpienia błędów typu I wynosi 5%, ale nikt nie uznałoby to za sensowne. Pytanie dla ciebie brzmi: czy uważasz, że twoje kontrasty są zbiorem w sensownym sensie i tylko ty możesz dokonać takiego osądu? Oferuję kilka standardowych podejść. Wielu analityków uważa, że ​​jeśli zestaw kontrastów pochodzi z tego samego zestawu eksperymentów / danych, należy je traktować jak rodzinę,αα dostosowanie ) są konieczne. Inni uważają, że nawet jeśli kontrasty pochodzą z tego samego eksperymentu, a a priori i ortogonalne, specjalne procedury nie są wymagane. Obie te pozycje można obronić. Na koniec należy również zauważyć, że procedury kontroli rodzinnych poziomów błędów są kosztowne. zwiększone poziomy błędów typu II.

gung - Przywróć Monikę
źródło
3

Kryterium jest takie, że hipotezy są współzależne w tym sensie, że jeśli jedna z nich się załamie, wówczas cały wniosek lub teoria się załamie. Dlatego potrzebujesz gwarancji, że jeśli wszystkie testy są znaczące, żaden z nich nie jest istotny fałszywie.

ttnphns
źródło
Zatem przeprowadzanie tysięcy testów t dla różnych pomiarów w eksperymencie przed i po leczeniu (takim jak eksperyment z ekspresją genów) nie liczyłoby się jako rodzina testów? Jeden fałszywie dodatni nie byłby pożądany, ale nie złamałby całkowicie wniosków z eksperymentu jako całości.
Ryan,
Chyba tak. Jeśli to nie zabrzmi, statystyk powinien chcieć wkrótce umrzeć młodo lub rzucić zawód, aby uniknąć pomnożenia błędu typu I w swoim życiu.
ttnphns,
Ok, w porządku. Zgodnie ze ścisłą logiką logiczną w świecie, w którym wszystkie problemy są podobne do problemów spotykanych w kasynie i innych prostych grach, jeden błąd I typu z pewnością unieważniłby całą teorię.
Ryan,
2

Dyskusja na temat researchgate ( http://www.researchgate.net/post/Bonferroni-how_is_the_family_of_hypotheses_defined ) dostarczyła listę artykułów, które mogą pomóc w zbieraniu opinii - artykuły faktycznie zaczynają się od pytania „kiedy zastosować poprawki w wielu sytuacjach testowych „. Artykuły - wszystkie często cytowane - to:

1) Rothman KJ. W przypadku wielu porównań nie są wymagane żadne korekty. Epidemiology.1990; 1 (1): 43-6. http://psg-mac43.ucsf.edu/ticr/syllabus/courses/9/2003/02/27/Lecture/readings/Rothman.pdf

2) Perneger TV. Co jest nie tak z dostosowaniami Bonferroni. BMJ. 1998; 316 (7139): 1236–8. http://static.sdu.dk/mediafiles/D/1/F/%7BD1F06030-8FA7-4EE2-BB7D-60D683B18EAA%7DWhat_s-wrong%20_with_Bonferroni_adjustments.BMJ.1998.pdf

3) Bender R, Lange S. Dostosowanie do wielokrotnych testów - kiedy i jak? J Clin Epidemiol. 2001; 54: 343–9. http://www.rbsd.de/PDF/multiple.pdf

Podsumowanie:

1) i 2) koncentrują się na „wszystkich hipotezach zerowych są prawdziwe”, zwanych ogólną hipotezą zerową. Można go lepiej odrzucić (tj. Bez kumulacji alfa), jeśli zastosowane zostaną korekty dla wielu porównań. Jednak zarówno 1), jak i 2) sprzeciwiają się temu, że ogólna hipoteza zerowa jest rzadko w pełni wykorzystywana w procesie badań naukowych - więc kryterium „całej teorii łamie się” nie stosuje się automatycznie, gdy jedna / niektóre hipotezy zerowe w danych analizy są odrzucane przez przypadek. 1) dodaje, że naiwnością jest myśleć o pojedynczych hipotezach zerowych, które zostały (fałszywie) odrzucone, nigdy więcej nie zostaną powtórzone przez społeczność naukową.

3) stwierdza, że ​​gdy pojedyncze hipotezy stopnieją w jednym argumencie, należy dokonać korekt.

Z mojego punktu widzenia 1), 2), 3) razem po prostu odzwierciedlają, jak ostrożnie musimy kryterium „cała teoria łamie”. Nie ma też sposobu na umieszczenie wszystkich zerowych hipotez w jednej dużej kiełbasie - ani też sposobu polegania na kawałkach kiełbasy przedstawionych jako wiele pojedynczych hipotez. To tutaj praca empiryczna naprawdę spotyka się z pracą z teorią z badanej dziedziny.

Statos
źródło
To są dobre artykuły, ale może mógłbyś przedstawić zwięzłe streszczenie tego, co mówią w związku z tym pytaniem? Na wypadek gdyby linki się zepsuły, chcielibyśmy mieć zapis.
Chris C
Cieszę się, że podsumowania pomogły (lub nie).
Statos,