Cytując świetną odpowiedź Gunga
Podobno badacz zwrócił się kiedyś do Fishera z „nieistotnymi” wynikami, pytając go, co powinien zrobić, a Fisher powiedział „idź zdobyć więcej danych”.
Z punktu widzenia Neymana-Pearsona jest to rażące hakowanie , ale czy istnieje przypadek użycia, w którym podejście Fishera do pobierania większej ilości danych ma sens?
Odpowiedzi:
Paradygmat częstych to połączenie poglądów Fishera i Neymana-Pearsona. Problemy pojawiają się tylko w przypadku zastosowania jednego podejścia i innej interpretacji.
Dla każdego powinno wydawać się dziwne, że gromadzenie większej ilości danych jest problematyczne, ponieważ więcej danych to więcej dowodów. Rzeczywiście, problem nie polega na gromadzeniu większej ilości danych, ale na użyciu wartościp do podjęcia decyzji, aby to zrobić, gdy jest to również miara zainteresowania. Gromadzenie większej ilości danych w oparciu o p -value jest tylko p -hacking jeśli obliczyć nową p -value.
Jeśli masz niewystarczające dowody, aby wyciągnąć zadowalające wnioski na temat pytania badawczego, to i tak weź wszelkie dane. Przyznaj jednak, że przeszedłeś już etap badań NHST i zamiast tego skup się na kwantyfikacji efektu zainteresowania.
Co ciekawe, Bayesianie nie cierpią z powodu tego dylematu. Rozważ następujące przykłady:
źródło
Biorąc pod uwagę wystarczająco dużą wielkość próby, test zawsze pokaże znaczące wyniki, chyba że rzeczywisty rozmiar efektu wynosi dokładnie zero, jak omówiono tutaj . W praktyce rzeczywisty rozmiar efektu nie jest równy zero, więc zebranie większej ilości danych w końcu będzie w stanie wykryć najdrobniejsze różnice.
Żartobliwa odpowiedź Fishera (IMO) była odpowiedzią na stosunkowo trywialne pytanie, które w jej założeniu łączy „znaczącą różnicę” z „praktycznie istotną różnicą”.
Byłoby to równoważne z badaczem wchodzącym do mojego biura i pytającym: „Ważyłem ołów o wadze„ 25 gramów ”i mierzył on 25,0 grama. Uważam, że to błędne oznaczenie, co mam zrobić?” Na co mógłbym odpowiedzieć: „Uzyskaj dokładniejszą skalę”.
Uważam, że podejście polegające na uzyskiwaniu większej ilości danych jest właściwe, jeżeli początkowy test jest żałośnie słabo przygotowany do wykrycia wielkości różnicy, która jest praktycznie istotna.
źródło
Dzięki. Należy pamiętać o kilku kwestiach:
źródło
To, co nazywamy hakowaniem P, polega na wielokrotnym stosowaniu testu istotności i tylko raportowaniu wyników istotności. To, czy jest to dobre czy złe, zależy od sytuacji.
Aby to wyjaśnić, zastanówmy się nad prawdziwymi efektami w kategoriach bayesowskich, zamiast hipotez zerowych i alternatywnych. Dopóki uważamy, że nasze efekty zainteresowania pochodzą z ciągłego rozkładu, wiemy, że hipoteza zerowa jest fałszywa. Jednak w przypadku testu dwustronnego nie wiemy, czy jest on dodatni czy ujemny. W tym świetle możemy myśleć o wartościach p dla testów dwustronnych jako miary tego, jak silny jest dowód, że nasze oszacowanie ma właściwy kierunek (tj. Pozytywny lub negatywny wpływ).
Teraz zastanów się, co się stanie, gdy będziesz wracać, aby uzyskać więcej danych. Za każdym razem, gdy otrzymujesz więcej danych, zwiększa się twoje prawdopodobieństwo uzyskania prawidłowego kierunku pod warunkiem, że wystarczająca ilość danych wzrośnie. W ramach tego scenariusza powinniśmy zdać sobie sprawę z tego, że zdobywając więcej danych, chociaż w rzeczywistości zwiększamy prawdopodobieństwo błędu typu I, zmniejszamy również prawdopodobieństwo błędnego przyjęcia niewłaściwego kierunku.
Weź to w przeciwieństwie do bardziej typowego nadużywania hakowania P; testujemy setki wielkości efektów, które mają duże prawdopodobieństwo, że będą bardzo małe i zgłaszamy tylko te istotne. Zauważ, że w tym przypadku, jeśli wszystkie efekty są małe, mamy prawie 50% szansy na błędne określenie kierunku, kiedy deklarujemy znaczenie.
Oczywiście wytworzone wartości p z podwojenia danych nadal powinny pochodzić z ziarenka soli. Chociaż ogólnie nie powinieneś mieć problemu z tym, że ludzie zbierają więcej danych, aby mieć większą pewność co do wielkości efektu, można to wykorzystać w inny sposób. Na przykład sprytny PI może zdać sobie sprawę, że zamiast zebrać wszystkie 100 punktów danych naraz, mogliby zaoszczędzić sporo pieniędzy i zwiększyć moc, najpierw zbierając 50 punktów danych, analizując dane, a następnie zbierając kolejne 50, jeśli nie jest to istotne . W tym scenariuszu zwiększają prawdopodobieństwo błędnego wskazania kierunku efektu pod warunkiem zadeklarowania istotności, ponieważ bardziej prawdopodobne jest błędne określenie kierunku efektu przy 50 punktach danych niż przy 100 punktach danych.
I wreszcie, należy rozważyć konsekwencje nie coraz więcej danych, gdy mamy nieznaczny efekt. Oznaczałoby to, że nigdy nie zbieramy więcej informacji na ten temat, co tak naprawdę nie popchnie nauki do przodu, prawda? Jedno słabe badanie zabiłoby całe pole.
źródło
Jeśli alternatywa miała małe prawdopodobieństwo a priori , eksperyment, który nie odrzuci wartości zerowej, jeszcze bardziej ją zmniejszy, czyniąc dalsze badania jeszcze mniej opłacalnymi. Załóżmy na przykład, że prawdopodobieństwo a priori wynosi 0,01. Zatem twoja entropia wynosi 0,08 bitu. Jeśli prawdopodobieństwo zmniejszy się do 0,001, wówczas entropia wynosi teraz 0,01. Dlatego dalsze gromadzenie danych często nie jest opłacalne. Jednym z powodów, dla których opłacalność byłaby opłacalna, jest fakt, że wiedza jest tak ważna, że nawet pozostałe 0,01 bity entropii są warte zmniejszenia.
Innym powodem byłby fakt, że prawdopodobieństwo a priori było naprawdę wysokie. Jeśli prawdopodobieństwo a priori było większe niż 50%, to odrzucenie wartości zerowej powoduje zwiększenie entropii, co sprawia, że kontynuowanie gromadzenia danych jest bardziej opłacalne. Przykładem może być sytuacja, w której jesteś prawie pewien, że występuje efekt, ale nie wiesz, w którym kierunku.
Na przykład, jeśli jesteś agentem kontrwywiadu i masz pewność, że wydział ma pieprzyk i zawęził go do dwóch podejrzanych, i przeprowadza analizę statystyczną, aby zdecydować, który z nich, to statystycznie nieistotny wynik uzasadniałby zbieranie więcej danych.
źródło