Co to znaczy, że badanie jest nadmiernie zasilane?
Mam wrażenie, że oznacza to, że twoje rozmiary próbek są tak duże, że masz moc wykrycia niewielkich rozmiarów efektów. Te wielkości efektów są być może tak małe, że częściej wynikają z niewielkich tendencyjności w procesie próbkowania niż (niekoniecznie bezpośredniego) związku przyczynowego między zmiennymi.
Czy to właściwa intuicja? Jeśli tak, to nie rozumiem, o co chodzi, dopóki wyniki są interpretowane w tym świetle, a Ty ręcznie sprawdzasz, czy szacowany rozmiar efektu jest wystarczająco duży, aby był „znaczący”, czy nie.
Czy coś brakuje? Czy istnieje lepsza rekomendacja, co robić w tym scenariuszu?
Odpowiedzi:
Myślę, że twoja interpretacja jest nieprawidłowa.
Mówisz „Te rozmiary efektów są być może tak małe, że bardziej prawdopodobne są niewielkie tendencje w procesie próbkowania niż (niekoniecznie bezpośredni) związek przyczynowy między zmiennymi”, co wydaje się sugerować, że wartość P w „nadmiernej mocy” badanie nie jest tym samym rodzajem wartości, co wartość P z badania „właściwie” napędzanego. To jest złe. W obu przypadkach wartość P jest prawdopodobieństwem uzyskania danych tak ekstremalnych, jak obserwowane, lub bardziej ekstremalnych, jeśli hipoteza zerowa jest prawdziwa.
Jeśli wolisz podejście Neymana-Pearsona, odsetek fałszywie dodatnich błędów uzyskanych w badaniu „o nadmiernej mocy” jest taki sam, jak w przypadku „prawidłowo” zasilonego badania, jeśli dla obu tych samych wartości alfa jest stosowana.
Różnica w interpretacji, która jest potrzebna, polega na tym, że istnieje inny związek między istotnością statystyczną a istotnością naukową w przypadku badań o zbyt dużej mocy. W efekcie badanie nadmiernej mocy da duże prawdopodobieństwo uzyskania znaczenia, nawet jeśli efekt jest, jak mówisz, niewielki, a zatem ma wątpliwe znaczenie.
Tak długo, jak wyniki badania „nadmiernej mocy” są odpowiednio interpretowane (a przedziały ufności dla wielkości efektu pomagają w takiej interpretacji), nie ma problemu statystycznego z badaniem „nadmiernej mocy”. W tym świetle jedynymi kryteriami, według których badanie może być faktycznie nadmiernie obciążone, są kwestie etyczne i alokacja zasobów poruszone w innych odpowiedziach.
źródło
W badaniach medycznych próby mogą być nieetyczne, jeśli rekrutują zbyt wielu pacjentów. Na przykład, jeśli celem jest zdecydowanie, które leczenie jest lepsze, nie jest już etyczne leczenie pacjentów z gorszym leczeniem po ustaleniu, że jest gorsze. Zwiększenie wielkości próby dałoby oczywiście dokładniejsze oszacowanie wielkości efektu, ale może być konieczne zatrzymanie się na długo przed pojawieniem się efektów takich czynników, jak „niewielkie uprzedzenia w procesie próbkowania”.
Wydawanie pieniędzy publicznych na wystarczająco potwierdzone badania może być również nieetyczne.
źródło
Wszystko, co powiedziałeś, ma sens (chociaż nie wiem, o czym mówisz), a ja szczególnie. jak twój punkt widzenia na temat rozmiarów efektów w przeciwieństwie do znaczenia statystycznego. Inną kwestią jest to, że niektóre badania wymagają alokacji ograniczonych zasobów, aby uzyskać udział w każdej sprawie, a więc nie chcemy przesadzać.
źródło
Moje doświadczenie pochodzi z eksperymentów A / B online, w których problemem są zwykle słabe badania lub pomiary niewłaściwych rzeczy. Wydaje mi się jednak, że przytłoczone badanie wytwarza węższe przedziały ufności niż porównywalne badania, niższe wartości p i prawdopodobnie inna wariancja. Wyobrażam sobie, że może to utrudnić porównanie podobnych badań. Na przykład, jeśli powtórzę obezwładnione badanie przy użyciu odpowiedniej mocy, moja wartość p byłaby wyższa, nawet gdybym dokładnie odtworzył efekt. Zwiększony rozmiar próbki może wyrównać zmienność lub wprowadzić zmienność, jeśli istnieją wartości odstające, które mogą mieć większe szanse na pojawienie się w większej próbce.
Ponadto moje symulacje pokazują, że efekty inne niż te, którymi jesteś zainteresowany, mogą stać się znaczące przy większej próbce. Tak więc, chociaż wartość p poprawnie mówi o prawdopodobieństwie, że twoje wyniki są prawdziwe, mogą być prawdziwe z powodów innych niż myślisz, np. Połączenie szansy, jakiegoś przejściowego efektu, którego nie kontrolowałeś, i być może innego mniejszy efekt, który wprowadziłeś, nie zdając sobie z tego sprawy. Jeśli badanie jest nieco przytłoczone, ryzyko tego jest niskie. Problem polega często na tym, że trudno jest określić odpowiednią moc, np. Jeśli wskaźniki bazowe i minimalny efekt docelowy są domysłów lub okazują się inne niż oczekiwano.
Natknąłem się również na artykuł, który dowodzi, że zbyt duża próbka może sprawić, że test dobroci dopasowania będzie zbyt wrażliwy na nieistotne odchylenia, prowadząc do potencjalnie sprzecznych z intuicją wyników.
To powiedziawszy, uważam, że najlepiej jest pomylić się po stronie wysokiej, a nie niskiej mocy.
źródło