Jeśli planowanych jest wiele porównań, czy nadal trzeba korygować wiele porównań?

20

Recenzuję artykuł, który wykonał> 15 osobnych testów 2x2 Chi Square. Zasugerowałem, że muszą poprawić wiele porównań, ale odpowiedzieli, mówiąc, że wszystkie porównania zostały zaplanowane i dlatego nie jest to konieczne.

Wydaje mi się, że to nie musi być poprawne, ale nie mogę znaleźć żadnych zasobów, które wyraźnie stwierdzą, czy tak jest.

Czy ktoś może w tym pomóc?


Aktualizacja:

Dziękujemy za wszystkie bardzo pomocne odpowiedzi. W odpowiedzi na prośbę @ gung o dodatkowe informacje na temat badania i analiz porównują dane zliczeń dla dwóch rodzajów uczestników (studentów, nie-studentów) w dwóch warunkach, w trzech okresach. Wiele testów 2x2 Chi Square porównuje każdy przedział czasu, w każdym warunku, dla każdego typu uczestnika (jeśli ma to sens; np. Studenci, warunek 1, przedział czasu 1 vs przedział czasu 2), więc wszystkie analizy testują tę samą hipotezę .

DrJay
źródło
2
Wiele osób, które przeprowadzają wiele porównań, planuje wykonać je wszystkie a priori . Robią to, ponieważ chcą kontrolować ogólny poziom błędu typu I. W niektórych sytuacjach uzasadnione może być nie korygowanie wielu porównań, ale nie jest to tylko kwestia planowania, aby wykonać je wszystkie od samego początku.
Glen_b
3
Czy możesz powiedzieć coś więcej o badaniu, jego danych i analizach? Czy> 15 odpowiada wszystkim możliwym porównaniom, czy tylko niewielkim%? Ile mają danych? Jak prawdopodobne jest, że wszystkie hipotezy były a priori? Czy wszystkie są znaczące? Czy testy chi-kwadrat są od siebie niezależne? Weź również pod uwagę niektóre pytania postawione w odpowiedzi na @ peuhp.
gung - Przywróć Monikę
4
Ponieważ „oni” są prawdopodobnie zainteresowani znalezieniem znaczących wyników, ich reakcja jest samolubna. Dlatego to na nich spoczywa ciężar wykazania, dlaczego ich podejście jest uzasadnione, a nie na tobie, aby udowodnić, że jest to niezgodne z prawem. Jakakolwiek próba wykazania, że ​​wielokrotne korekty porównań mogą być zaniedbane, zakończy się niepowodzeniem, gdy tylko uwzględni fałszywy wskaźnik dodatni dla całego papieru, dlatego też „oni” muszą (nieuczciwie) unikać wszelkich rozważań na temat tego problemu lub też przedstawić dobry argument dotyczący tego, dlaczego nie dotyczy to ich zamierzonych odbiorców.
whuber
1
Byłbym bardzo kuszony, aby odpowiedzieć linkiem do tego paska XKCD (który, jak można zauważyć, obejmuje w pełni zaplanowaną serię wielu testów ...).
Ilmari Karonen,

Odpowiedzi:

21

To jest IMHO złożony problem i chciałbym przedstawić trzy uwagi na temat tej sytuacji.

Po pierwsze i ogólnie, bardziej skupiłbym się na tym, czy zmierzysz się z badaniem potwierdzającym z zestawem dobrze ukształtowanych hipotez zdefiniowanych w kontekście argumentacyjnym lub badaniem wyjaśniającym, w którym zaobserwowano wiele prawdopodobnych wskaźników, niż czy są one planowane, czy nie (ponieważ możesz po prostu zaplanuj wszystkie możliwe porównania).

Po drugie, skupiłbym się również na tym, jak omawiane są następnie uzyskane wartości p. Czy są one indywidualnie wykorzystywane do przedstawienia ostatecznych wniosków, czy też są wspólnie omawiane jako dowody i brak dowodów?

Na koniec chciałbym omówić możliwość, że hipoteza> 15 wynikająca z> 15 oddzielnych testów chi-kwadrat jest w rzeczywistości wyrażeniem kilku pojedynczych hipotez (być może jednej), które można streścić.

Mówiąc bardziej ogólnie, niezależnie od tego, czy hipoteza jest z góry określona, ​​czy nie, poprawienie wielu porównań jest kwestią tego, co uwzględnisz w błędzie typu I. Nie korygując MC, utrzymujesz tylko kontrolę wskaźnika błędów dla porównania typu I. Tak więc w przypadku licznych porównań masz wysoki wskaźnik błędów typu I dla całej rodziny, a zatem jesteś bardziej podatny na fałszywe odkrycia.

peuhp
źródło
8
(+1) Być może warto sprecyzować, że eksperymentalny poziom błędu nie jest kontrolowany przez zaplanowanie piętnastu indywidualnych porównań; z drugiej strony ewentualne porównania wykraczające poza piętnaście, których nie przewidziano w protokole, nie muszą być brane pod uwagę przy korekcie wielokrotnych porównań.
Scortchi - Przywróć Monikę
@Scortchi Dziękuję za wkład, ale nie rozumiem, co rozumiesz przez „eksperymentalny poziom błędu nie jest kontrolowany przez zaplanowanie piętnastu indywidualnych porównań”?
peuhp
1
Po prostu podstawową kwestią jest to, że jeśli chcesz kontrolować prawdopodobieństwo poniżej zera popełnienia jednego lub więcej błędów typu I we wszystkich tych testach, musisz zastosować procedurę wielokrotnych porównań. Wspominam o tym tylko dlatego, że wcześniej spotkałem się z zamieszaniem w tej sprawie.
Scortchi - Przywróć Monikę
2
Zauważ, że dokładnie ten sam problem pojawił się w najnowszym wątku: Aplikacja wielokrotnych porównań post hoc .
Michael R. Chernick,
1
@Scortchi. Ok, dziękuję za to wyjaśnienie i wkład, to rzeczywiście powinno być jasno określone w mojej odpowiedzi. Dodam to.
peuhp
5

Biorąc pod uwagę twoją aktualizację projektu, sugerowałbym, aby wykonali jakąś formę log-liniowego modelu, aby użyć wszystkich danych na raz. Przeprowadzone przez nich analizy posiłków wydają się (a) nieefektywne (b) nienaukowe, ponieważ testują 15 hipotez, w których z pewnością jest mniej prawdziwych hipotez.

Nie jestem fanem korygowania mnogości jako odruchu warunkowego, ale w tym przypadku, jeśli odrzucą one głębsze podejście analityczne, sugerowałbym, aby poprawili.

mdewey
źródło
1
k15
1
χ2)
4

Jeśli zastąpisz słowo „planowane” słowem „z premedytacją”, może to pomóc w rozwianiu argumentu przedstawionego przez autorów. Rozważ dwie różne analizy statystyczne tych samych danych:

  1. „Przestępstwo z premedytacją”, w którym każdy możliwy test hipotezy jest z góry układany kombinatorycznie przez „statystycznego przestępcę”, przy czym planuje się wypróbowanie każdego z nich systematycznie i wybranie testu o najmniejszej wartości p jako „kluczowego ustalenia” promować w sekcjach wyników, dyskusji i wniosków, a także w tytule.
  2. „Zbrodnia namiętności”, w której początkowym zamiarem było jedynie skonfrontowanie danych z jedną hipotezą, ale „cóż… jedna rzecz prowadzi do drugiej”, a liczne testy ad hoc „zdarzają się” w ogniu pasji naukowej do ucz się „czegoś ... czegokolwiek! na podstawie danych.

Tak czy inaczej, jest to „morderstwo” - pytanie brzmi, czy jest to stopień pierwszy, czy drugi stopień. Oczywiście pierwszy z nich jest moralnie bardziej problematyczny. Wydaje mi się, że autorzy tutaj próbują twierdzić, że nie było to morderstwo, ponieważ zostało zaplanowane z premedytacją.

David C. Norris
źródło
4
Ale wielokrotne porównywanie nie jest przestępstwem, z premedytacją czy nie. Polowanie na P jest.
Cliff AB,