Co to znaczy, że badanie jest nadmiernie zasilane?

11

Co to znaczy, że badanie jest nadmiernie zasilane?

Mam wrażenie, że oznacza to, że twoje rozmiary próbek są tak duże, że masz moc wykrycia niewielkich rozmiarów efektów. Te wielkości efektów są być może tak małe, że częściej wynikają z niewielkich tendencyjności w procesie próbkowania niż (niekoniecznie bezpośredniego) związku przyczynowego między zmiennymi.

Czy to właściwa intuicja? Jeśli tak, to nie rozumiem, o co chodzi, dopóki wyniki są interpretowane w tym świetle, a Ty ręcznie sprawdzasz, czy szacowany rozmiar efektu jest wystarczająco duży, aby był „znaczący”, czy nie.

Czy coś brakuje? Czy istnieje lepsza rekomendacja, co robić w tym scenariuszu?

Frank Barry
źródło
Brzmi dokładnie tak, jak intuicyjnie rozumiem ten termin.
Henrik,

Odpowiedzi:

11

Myślę, że twoja interpretacja jest nieprawidłowa.

Mówisz „Te rozmiary efektów są być może tak małe, że bardziej prawdopodobne są niewielkie tendencje w procesie próbkowania niż (niekoniecznie bezpośredni) związek przyczynowy między zmiennymi”, co wydaje się sugerować, że wartość P w „nadmiernej mocy” badanie nie jest tym samym rodzajem wartości, co wartość P z badania „właściwie” napędzanego. To jest złe. W obu przypadkach wartość P jest prawdopodobieństwem uzyskania danych tak ekstremalnych, jak obserwowane, lub bardziej ekstremalnych, jeśli hipoteza zerowa jest prawdziwa.

Jeśli wolisz podejście Neymana-Pearsona, odsetek fałszywie dodatnich błędów uzyskanych w badaniu „o nadmiernej mocy” jest taki sam, jak w przypadku „prawidłowo” zasilonego badania, jeśli dla obu tych samych wartości alfa jest stosowana.

Różnica w interpretacji, która jest potrzebna, polega na tym, że istnieje inny związek między istotnością statystyczną a istotnością naukową w przypadku badań o zbyt dużej mocy. W efekcie badanie nadmiernej mocy da duże prawdopodobieństwo uzyskania znaczenia, nawet jeśli efekt jest, jak mówisz, niewielki, a zatem ma wątpliwe znaczenie.

Tak długo, jak wyniki badania „nadmiernej mocy” są odpowiednio interpretowane (a przedziały ufności dla wielkości efektu pomagają w takiej interpretacji), nie ma problemu statystycznego z badaniem „nadmiernej mocy”. W tym świetle jedynymi kryteriami, według których badanie może być faktycznie nadmiernie obciążone, są kwestie etyczne i alokacja zasobów poruszone w innych odpowiedziach.

Michael Lew
źródło
Dzięki, to jest bardzo pouczające. Rozumiem, że definicja wartości p nie zmienia się. Z pewnością z statystycznego punktu widzenia częstość błędów typu I nie rośnie.
Frank Barry,
1
Z definicji ustalamy poziom błędu typu I przy ustalaniu progu wartości p. Wydaje się jednak, że problemem jest różnica między znaczeniem „statystycznym” a „praktycznym”. Gdy wielkość próbki jest w stanie wykryć różnice znacznie drobniejsze niż oczekiwany rozmiar efektu, różnica, która jest poprawnie statystycznie wyraźna, nie jest praktycznie znacząca (a z perspektywy „użytkownika końcowego” jest to faktycznie „fałszywie dodatni”, nawet jeśli to nie jest statystyczny). Jednak, jak mówisz, zaczyna się to wykraczać poza sferę statystyki.
Frank Barry,
1
tzn. myślę, że się zgadzam - „potrzebna różnica w interpretacji polega na tym, że istnieje inny związek między znaczeniem statystycznym a znaczeniem naukowym”
Frank Barry
4

W badaniach medycznych próby mogą być nieetyczne, jeśli rekrutują zbyt wielu pacjentów. Na przykład, jeśli celem jest zdecydowanie, które leczenie jest lepsze, nie jest już etyczne leczenie pacjentów z gorszym leczeniem po ustaleniu, że jest gorsze. Zwiększenie wielkości próby dałoby oczywiście dokładniejsze oszacowanie wielkości efektu, ale może być konieczne zatrzymanie się na długo przed pojawieniem się efektów takich czynników, jak „niewielkie uprzedzenia w procesie próbkowania”.

Wydawanie pieniędzy publicznych na wystarczająco potwierdzone badania może być również nieetyczne.

GaBorgulya
źródło
1

Wszystko, co powiedziałeś, ma sens (chociaż nie wiem, o czym mówisz), a ja szczególnie. jak twój punkt widzenia na temat rozmiarów efektów w przeciwieństwie do znaczenia statystycznego. Inną kwestią jest to, że niektóre badania wymagają alokacji ograniczonych zasobów, aby uzyskać udział w każdej sprawie, a więc nie chcemy przesadzać.

rolando2
źródło
Niestety „wielka sprawa” to zbyt duży komentarz redakcyjny. Pytanie, czy jest to „większy interes”, niż się wydaje, jest w zasadzie pytaniem, czy istnieją dodatkowe względy, o których mogę nie wiedzieć.
Frank Barry,
0

Moje doświadczenie pochodzi z eksperymentów A / B online, w których problemem są zwykle słabe badania lub pomiary niewłaściwych rzeczy. Wydaje mi się jednak, że przytłoczone badanie wytwarza węższe przedziały ufności niż porównywalne badania, niższe wartości p i prawdopodobnie inna wariancja. Wyobrażam sobie, że może to utrudnić porównanie podobnych badań. Na przykład, jeśli powtórzę obezwładnione badanie przy użyciu odpowiedniej mocy, moja wartość p byłaby wyższa, nawet gdybym dokładnie odtworzył efekt. Zwiększony rozmiar próbki może wyrównać zmienność lub wprowadzić zmienność, jeśli istnieją wartości odstające, które mogą mieć większe szanse na pojawienie się w większej próbce.

Ponadto moje symulacje pokazują, że efekty inne niż te, którymi jesteś zainteresowany, mogą stać się znaczące przy większej próbce. Tak więc, chociaż wartość p poprawnie mówi o prawdopodobieństwie, że twoje wyniki są prawdziwe, mogą być prawdziwe z powodów innych niż myślisz, np. Połączenie szansy, jakiegoś przejściowego efektu, którego nie kontrolowałeś, i być może innego mniejszy efekt, który wprowadziłeś, nie zdając sobie z tego sprawy. Jeśli badanie jest nieco przytłoczone, ryzyko tego jest niskie. Problem polega często na tym, że trudno jest określić odpowiednią moc, np. Jeśli wskaźniki bazowe i minimalny efekt docelowy są domysłów lub okazują się inne niż oczekiwano.

Natknąłem się również na artykuł, który dowodzi, że zbyt duża próbka może sprawić, że test dobroci dopasowania będzie zbyt wrażliwy na nieistotne odchylenia, prowadząc do potencjalnie sprzecznych z intuicją wyników.

To powiedziawszy, uważam, że najlepiej jest pomylić się po stronie wysokiej, a nie niskiej mocy.

Vlad
źródło