Pułapki w projekcie eksperymentalnym: unikanie martwych eksperymentów

27

Znalazłem ten cytat wiele razy:

Skonsultowanie się ze statystykiem po zakończeniu eksperymentu często oznacza jedynie poproszenie go o przeprowadzenie sekcji zwłok. Może może powiedzieć, z czego umarł eksperyment. - Ronald Fisher (1938)

Wydaje mi się być może trochę zarozumiały. Jedynymi przykładami, jakie kiedykolwiek znalazłem opisującymi, jak eksperymenty giną bez dobrego projektu, są brak kontroli lub słaba kontrola. Na przykład eksperymenty, które kontrolują aplikację nawozu, ale nie kontrolują środowiska wymaganego do aplikacji. Może to tylko ja, ale wydaje się, że szybkie przeczytanie sekcji Wikipedii na temat zasad projektowania Fishera obejmie większość podstaw.

Jako statystyk, jak często widzisz problemy z danymi związane z eksperymentem? Czy zawsze są one związane z tymi kilkoma czynnikami wymienionymi przez Fishera, czy też z innymi poważnymi pułapkami, na które powinniśmy uważać my, nieprzeszkoleni statystycznie naukowcy?

zera101
źródło
4
Jak często: bardzo często. Nazwanie eksperymentu „martwym” zwykle idzie zbyt daleko, ale wiele eksperymentów, które widzę, mogłoby być znacznie lepszych przy niewielkich zmianach w projekcie.
mark999
3
Widziałem kilka. Chociaż może to być zarozumiały teraz , pamiętaj, że kiedy Fisher powiedział, można nie tylko patrzeć wikipedia. W pierwszych dniach wskaźnik ten mógł być znacznie wyższy.
Glen_b
4
Fajnie, że podniosłeś ten punkt. Ciekawe też, co może być pierwszy raz, kiedy widzę czterokrotnie kwalifikator: „Dla mnie to może być trochę zarozumiałe”. :-)
rolando2,
1
@ rolando2: Heh, cóż, to jest Fisher. On zdobył te wszystkie kwalifikatorów: D
naught101
5
Widziałem - dosłownie - wiele tysięcy zestawów danych w mojej karierze (i praktycznie żaden z nich nie został zebrany zgodnie z projektem sprawdzonym przez dowolnego statystykę). Większość z nich zebrano do celów formalnych, takich jak spełnienie wymogów regulacyjnych. Nie pamiętam ani jednego, który nie miałby problemów związanych z projektowaniem (choć czasami były one niewielkie). Nie oznacza to, że zbiory danych były bezużyteczne lub „martwe”: ale prawie we wszystkich przypadkach moim zadaniem było (kontynuacja analogii medycznej) najpierw reanimacja zestawu danych, a następnie zastosowanie go zgodnie z przeznaczeniem, o ile to w ogóle możliwe.
whuber

Odpowiedzi:

14

Uważam, że to, co Fisher miał na myśli w swoim słynnym cytacie, wykracza poza powiedzenie „Zrobimy pełny czynnikowy projekt do naszych badań” lub inne podejście projektowe. Konsultowanie się ze statystą przy planowaniu eksperymentu oznacza inteligentne myślenie o każdym aspekcie problemu, w tym o celu badań, o tym, jakie zmienne są istotne, jak je gromadzić, zarządzaniu danymi, pułapkach, pośredniej ocenie przebiegu eksperymentu i wielu innych więcej. Często uważam, że ważne jest zapoznanie się z każdym aspektem proponowanego eksperymentu, aby naprawdę zrozumieć, na czym polegają trudności.

Moje doświadczenie pochodzi głównie z zastosowań medycznych. Niektóre z napotkanych problemów, którym można było zapobiec, konsultując się wcześniej ze statystykami:

  • Niewystarczająca wielkość próby jest oczywiście numerem jeden na tej liście. Często dane z poprzednich badań byłyby dostępne i łatwo byłoby rozsądnie oszacować potrzebną wielkość próby. W takich przypadkach jedynym wyjściem jest często przeprowadzenie czysto opisowej analizy danych i obiecanie dalszych badań w pracy (brak publikacji zwykle nie jest opcją po zainwestowaniu przez lekarzy cennego czasu).
  • Realizację eksperymentów pozostawia się dla wygody i szansy zamiast projektu. Przykład, nad którym obecnie pracuję, zawiera pomiary zebrane w czasie. Czasy pomiaru, częstotliwość pomiaru i koniec okresu monitorowania różnią się bardzo między poszczególnymi osobami. Zwiększenie liczby pomiarów na osobę oraz ustalenie dat pomiaru i końca okresu monitorowania byłoby dodatkowym niewielkim nakładem pracy (w tym przypadku) i byłoby bardzo korzystne dla badania.
  • Słaba kontrola czynników uciążliwych, które można łatwo kontrolować. Np. Pomiary były czasem przeprowadzane w dniu pobrania próbki, a czasem później, pozostawiając możliwość degradacji próbki.
  • Słabe zarządzanie danymi, w tym moim osobistym faworytem „Zaokrągliłem dane przed włożeniem ich do komputera, ponieważ maszyna ma niedokładne pomiary”. Często odpowiednie dane po prostu nie są gromadzone i po fakcie nie można ich uzyskać.

Często problemy z badaniem sięgają jeszcze dalej, do początkowej koncepcji badań:

  • Dane są czasem gromadzone bez wyraźnego celu i jedynie założenia, że ​​będą w jakiś sposób przydatne. Opracowanie hipotez i „znaczących wyników” pozostawiono statystykowi.
  • I odwrotnie: dane są zbierane razem w celu udowodnienia określonego punktu, który PI ma w głowie, niezależnie od danych i tego, co można z tym udowodnić. Tym razem statystyka ma po prostu położyć znaczący nacisk na wstępnie napisane wnioski, nie dostosowując tych wniosków do danych.

Jak dotąd brzmi to tak, jakby cierpiał statystyk i być może cierpi wiarygodność naukowa, gdy PI próbuje wyciągać wnioski nie poparte danymi (zawsze fajna dyskusja). Ale cierpi także zespół eksperymentalny, ponieważ wykonują niepotrzebną dodatkową pracę (nie wykonując niezbędnej pracy) podczas fazy eksperymentalnej i po tym muszą poświęcić znacznie więcej czasu na dyskusję ze swoim statystykiem, ponieważ wcześniej nie uzyskali porady. I oczywiście końcowy artykuł będzie gorszy, będzie miał mniej wniosków (i więcej „przypuszczeń”) i prawdopodobnie nie znajdzie się w tak znaczącym czasopiśmie, jakiego chciał PI.

Rob Hall
źródło
Jeśli chodzi o drugi z drugiego zestawu punktorów, myślę, że normalnym uzasadnieniem badania jest zebranie danych w celu udowodnienia określonych punktów.
Robert Jones
1
Masz oczywiście całkowitą rację. Byłem tam trochę za niski. Chciałem wspomnieć o scenariuszu, w którym PI jest bardzo zdeterminowany, aby udowodnić punkt i niskiej jakości dane, które nie mogą udowodnić tego punktu (często z powodu podstawowych problemów projektowych) spotykają się.
Rob Hall
12

Dwa słowa: Wielkość próbki ... Analiza mocy jest koniecznością. Dzięki dołączeniu do zespołu kompetentnych statystyk od samego początku, prawdopodobnie zaoszczędzisz sobie dużo frustracji, pisząc sekcje wyników i dyskusji w swoim manuskrypcie lub raporcie.

Zbyt często zdarza się, że główny badacz zbiera dane przed skonsultowaniem się ze statystykiem w oczekiwaniu na „model predykcyjny” lub „związek przyczynowy” na próbie mniejszej niż 30 osób. Gdyby PI skonsultował się ze statystykiem przed zebraniem danych, statystyka byłaby w stanie poinformować PI, po odpowiednich analizach, w celu zebrania większej ilości danych / podmiotów lub zrestrukturyzowania celów ich planu / projektu analizy.

Matt Reichenbach
źródło
1
Nie zgadzam się z „Analiza mocy jest koniecznością”. Myślę, że wiele osób przecenia wagę analizy mocy.
mark999
3
@ mark999: Być może, ale nie neguje to znaczenia przeprowadzania jakiejś analizy mocy przed wykonaniem eksperymentu, co rozumiem przez Matta.
Scortchi - Przywróć Monikę
3
@ mark999: Oczywiście mogą okazać się przydatne. Ale w jakich okolicznościach nie zaleciłbyś wykonywania jakiejkolwiek analizy mocy (w tym szacuję oczekiwaną szerokość przedziałów ufności) przed wykonaniem eksperymentu? Mogę tylko pomyśleć o (1) badaniu pilotażowym, w którym interesuje Cię tylko przejrzenie protokołu i przybliżone oszacowanie błędu, oraz (2) eksperyment, dla którego z jakiegoś powodu nie możesz wybrać wielkości próby, co czyni redundancja analizy mocy.
Scortchi - Przywróć Monikę
2
@ mark999: Myślę, że tak. W twoim przypadku (B) sugerowałbym badanie pilotażowe -> analizę mocy -> eksperyment w celu przetestowania hipotez lub oszacowania wielkości efektu jako niemożliwego do zrealizowania planu.
Scortchi - Przywróć Monikę
3
Nawet jeśli masz ustaloną wielkość próbki, nie widzę powodu, by chować głowę w piasek i unikać analizy mocy (rozsądne reakcje na ograniczenia zasobów i ignorancję na bok).
Andy W
11

Przypuszczam, że zależy to od tego, jak ściśle interpretujesz słowo „projekt”. Czasami uważa się, że oznacza to całkowicie zrandomizowane vs. losowe bloki itp. Nie sądzę, że widziałem badanie, które umarło z tego powodu. Ponadto, jak wspomnieli inni, podejrzewam, że „zmarł” jest zbyt silny, ale zależy to od sposobu interpretacji tego terminu. Z pewnością widziałem badania, które były „nieistotne” (i że w związku z tym badacze później nie próbowali publikować); przy założeniu, że badania te mogłyby być „znaczące”, gdyby zostały przeprowadzone inaczej (zgodnie z oczywistą radą, którą bym dał), a zatem zostały opublikowane, mogą kwalifikować się jako „zmarłe”. W świetle tej koncepcji kwestia mocy podniesiona zarówno przez @RobHall, jak i @MattReichenbach jest dość prosta, ale moc to coś więcej niż wielkość próbki, a te mogą podlegać luźniejszej koncepcji „projektowania”. Oto kilka przykładów:

  • Nie zbierając / nie rejestrując / nie wyrzucając informacji
    Pracowałem nad badaniem, w którym badacze byli zainteresowani tym, czy dana cecha była związana z rakiem. Dostali myszy z dwóch linii (tj. Linii genetycznych, myszy wyhodowano dla określonych właściwości), gdzie jedna linia miała więcej cechy niż druga. Jednak ta cecha nie została faktycznie zmierzona, nawet jeśli mogła być. Ta sytuacja jest analogiczna do dychotomizacji lub binowania zmiennej ciągłej, co zmniejsza moc. Jednak nawet jeśli wyniki byłyby „znaczące”, byłyby mniej pouczające, niż gdybyśmy znali wielkość cechy dla każdej myszy.

    Innym przypadkiem w ramach tego samego nagłówka jest brak myślenia i gromadzenie oczywistych współzmiennych.

  • Zły projekt kwestionariusza
    Niedawno pracowałem nad badaniem, w którym przeprowadzono badanie satysfakcji pacjenta w dwóch warunkach. Jednak żaden z elementów nie uzyskał punktacji wstecznej. Okazało się, że większość pacjentów po prostu przewinęła listę i zaznaczyła wszystkie 5s ( zdecydowanie się zgadzam ), być może nawet nie czytając pozycji. Były też inne problemy, ale jest to dość oczywiste. Co dziwne, osoba odpowiedzialna za przeprowadzenie badania powiedziała mi, że jej uczestnictwo wyraźnie zachęciło ją, by nie weryfikowała badania najpierw ze statystykami, mimo że jesteśmy wolni i wygodnie dostępni do takich konsultacji.

gung - Przywróć Monikę
źródło
Whoa ... z pierwszej, co udało się zmierzyć? to wydaje się trochę, um, oczywiste. A może wcześniej zapewniono ich, że cechy różnią się w zależności od linii? Drugi przykład jest fajny, rodzaj randomizacji, o której większość ludzi by nie pomyślała.
naught101
5
Testowałem tylko jeden szczep w porównaniu do drugiego. Ta cecha rzeczywiście jest wyższa dla jednej z linii, ale pewne nakładanie się - rozkłady nie są całkowicie rozdzielone.
Gung - Przywróć Monikę
Miałem podobne doświadczenie jak w punkcie 1: urządzenie mikroprzepływowe zostało skonfigurowane do rozpoznawania określonego rodzaju komórek. Wstrzyknięto mieszaninę komórek do rozpoznania i komórek kontrolnych i uzyskano strumień wideo + strumień sygnału do zastosowania do rozpoznania. Niestety, podczas gdy strumień wideo może być wykorzystany jako odniesienie dla tego, czy w danym momencie w detektorze była komórka, nie było sposobu, aby powiedzieć, jaki typ faktycznie była komórka, więc nie ma sposobu, aby ustalić, czy sygnał jest prawdziwie dodatni, czy fałszywie ujemny lub brak sygnału był prawdziwy ujemny lub fałszywie dodatni ...
cbeleites obsługuje Monikę
8

Widziałem tego rodzaju problem w eksperymentach podobnych do ankiet i psychologicznych.

W jednym przypadku cały eksperyment musiał zostać przypisany do doświadczenia edukacyjnego. Na wielu poziomach występowały problemy, które skutkowały mnóstwem wyników, ale wyniki, które zdawały się potwierdzać hipotezę. W końcu mogłem pomóc zaplanować bardziej rygorystyczny eksperyment, który zasadniczo miał wystarczającą moc, aby odrzucić hipotezę.

W innym przypadku otrzymałem ankietę, która została już zaprojektowana i wykonana, i było wiele problemów, które spowodowały wpływ na kilka obszarów zainteresowania. Na przykład w jednym kluczowym obszarze zapytali, ile razy klienci byli odwracani od wydarzenia, ponieważ było pełne, gdy przybyli. Problem polega na tym, że nie ma przedziału czasowego w pytaniu, więc nie można odróżnić kogoś, kto próbował 4 razy uczestniczyć w spotkaniu i został czterokrotnie odrzucony, a kimś, kto próbował uczestniczyć w konferencji 40 razy i został tylko 4 razy odwrócony. .

Nie jestem wyszkolonym statystykiem kapitału, ale gdyby przyszli do mnie wcześniej, byłbym w stanie pomóc im rozwiązać te problemy i uzyskać lepsze wyniki. W pierwszym przypadku nadal byłoby rozczarowujące: „Przepraszam, twoja hipoteza wydaje się niezwykle nieprawdopodobna”, ale może uratować ich drugi eksperyment. W drugim przypadku udzieliłby im odpowiedzi na niektóre ważne pytania i poprawiłoby wyniki. (Innym problemem, jaki mieli, jest to, że badali wiele lokalizacji w czasie, a przynajmniej niektóre osoby były ankietowane wiele razy, bez pytania jak „Czy wziąłeś tę ankietę gdzie indziej?”)

Być może same w sobie nie są to kwestie statystyczne, ale w obu przypadkach inteligentni, dobrze wykształceni eksperci w dziedzinie stworzyli wadliwe instrumenty, a wyniki były jednym martwym eksperymentem i jednym eksperymentem z amputowanymi kończynami.

Wayne
źródło