Kiedy podejście Fishera do „zdobywaj więcej danych” ma sens?

26

Cytując świetną odpowiedź Gunga

Podobno badacz zwrócił się kiedyś do Fishera z „nieistotnymi” wynikami, pytając go, co powinien zrobić, a Fisher powiedział „idź zdobyć więcej danych”.

Z punktu widzenia Neymana-Pearsona jest to rażące hakowanie p , ale czy istnieje przypadek użycia, w którym podejście Fishera do pobierania większej ilości danych ma sens?

nalzok
źródło
10
Fisher (wielokrotnie) podkreślał znaczenie powielania eksperymentów i spodziewam się, że taki był jego zamiar (zakładając, że rozmowa się wydarzy). Z pewnością Fisher byłby świadomy, że nie można sprawdzić znaczenia, a następnie rozszerzyć początkową próbkę, jeśli jej nie dostaniesz.
Glen_b
@Glen_b Słyszałem wcześniej wyrażenie „replikacja eksperymentów”, ale nie do końca je zrozumiałem. Czy możesz rozwinąć? Powiedzmy, czy dziesięć powtórzeń eksperymentu, którego wielkość próbki jest o 10 lepsza niż pojedynczy eksperyment, którego wielkość próbki wynosi 100?
nalzok
W badaniu eksploracyjnym akceptowalne mogą być dane typu go-get-more-data. W badaniu potwierdzającym nie ma pozycji, aby uzyskać więcej danych.
user158565
5
Jednym z moich kontrowersyjnych poglądów na temat praktyki statystycznej jest to, że chociaż ważne jest, aby wziąć pod uwagę kwestię wyników fałszywie dodatnich, nie powinniśmy stawiać zachowania poziomów błędu typu 1 na tak wysokim cokole, że odmawiamy uczenia się na podstawie danych w celu zachowania typu 1 poziom błędu.
Cliff AB

Odpowiedzi:

29

Paradygmat częstych to połączenie poglądów Fishera i Neymana-Pearsona. Problemy pojawiają się tylko w przypadku zastosowania jednego podejścia i innej interpretacji.

Dla każdego powinno wydawać się dziwne, że gromadzenie większej ilości danych jest problematyczne, ponieważ więcej danych to więcej dowodów. Rzeczywiście, problem nie polega na gromadzeniu większej ilości danych, ale na użyciu wartości p do podjęcia decyzji, aby to zrobić, gdy jest to również miara zainteresowania. Gromadzenie większej ilości danych w oparciu o p -value jest tylko p -hacking jeśli obliczyć nową p -value.

Jeśli masz niewystarczające dowody, aby wyciągnąć zadowalające wnioski na temat pytania badawczego, to i tak weź wszelkie dane. Przyznaj jednak, że przeszedłeś już etap badań NHST i zamiast tego skup się na kwantyfikacji efektu zainteresowania.


Co ciekawe, Bayesianie nie cierpią z powodu tego dylematu. Rozważ następujące przykłady:

  • Jeśli częsty nie stwierdzi żadnej istotnej różnicy, a następnie przejdzie do testu równoważności, z pewnością współczynnik fałszywie dodatnich wzrósł;
  • Bayesian może wyrazić najwyższy przedział gęstości i region praktycznej równoważności różnicy jednocześnie i spać tak samo w nocy.
Frans Rodenburg
źródło
H0H0
6
„Jest to hakowanie tylko wtedy, gdy obliczasz nową wartość p”. Czy to faktycznie nie zależy całkowicie od metody zastosowanej do obliczenia wartości p? Zignorowanie sekwencyjnej analizy i decyzja o zebraniu większej ilości danych spowoduje niedokładną wartość p. Jeśli jednak uwzględnisz regułę decyzyjną, aby zebrać więcej danych do obliczenia wartości p, otrzymasz prawidłową wartość p.
jsk
4
@jsk Myślę, że mniej znaczy to, że później obliczone wartości p są w pewien sposób nieprawidłowe, a bardziej, że używasz arbitralnego i nie opartego na danych standardu, aby ocenić, kiedy eksperyment jest „poprawny”, a twoje badania nad tym projektem są „ gotowy". Stwierdzenie, że wszystkie nieistotne wartości p są nieprawidłowe, i zbieranie danych, aż do uzyskania wartości, która jest znacząca, a następnie zatrzymywanie się, ponieważ uzyskasz „właściwy” wynik, jest przeciwieństwem nauki eksperymentalnej.
Upper_Case-Stop Harming Monica
1
@Upper_Case Komentowałem bardzo małą sekcję postu dotyczącą hakowania p, dlatego umieściłem tę sekcję w cudzysłowie. Zbyt dużo czytasz w moim stwierdzeniu. Chodzi mi o to, że DOWOLNA reguła decyzyjna używana do podjęcia decyzji o zebraniu większej ilości danych musi zostać uwzględniona przy obliczaniu wartości p. Tak długo, jak uwzględnisz decyzje podejmowane przy obliczaniu wartości p, nadal możesz przeprowadzić prawidłowy NHST, jeśli chcesz. W żaden sposób nie oznacza to, że opowiadam się za zasadą zatrzymania, która mówi: „zbieraj więcej danych, aż znajdziesz znaczący wynik”.
jsk
@jsk Ach, rozumiem teraz twój punkt widzenia. Dziękuję za wyjaśnienie.
Upper_Case-Stop Harming Monica
10

Biorąc pod uwagę wystarczająco dużą wielkość próby, test zawsze pokaże znaczące wyniki, chyba że rzeczywisty rozmiar efektu wynosi dokładnie zero, jak omówiono tutaj . W praktyce rzeczywisty rozmiar efektu nie jest równy zero, więc zebranie większej ilości danych w końcu będzie w stanie wykryć najdrobniejsze różnice.

Żartobliwa odpowiedź Fishera (IMO) była odpowiedzią na stosunkowo trywialne pytanie, które w jej założeniu łączy „znaczącą różnicę” z „praktycznie istotną różnicą”.

Byłoby to równoważne z badaczem wchodzącym do mojego biura i pytającym: „Ważyłem ołów o wadze„ 25 gramów ”i mierzył on 25,0 grama. Uważam, że to błędne oznaczenie, co mam zrobić?” Na co mógłbym odpowiedzieć: „Uzyskaj dokładniejszą skalę”.

Uważam, że podejście polegające na uzyskiwaniu większej ilości danych jest właściwe, jeżeli początkowy test jest żałośnie słabo przygotowany do wykrycia wielkości różnicy, która jest praktycznie istotna.

Underminer
źródło
Chodzi o to, że musisz uwzględnić decyzję o uzyskaniu większej ilości danych do obliczenia wartości p.
jsk
@jsk nawet jeśli zmienisz wartość p, nadal możesz zebrać więcej danych, aby znaleźć znaczący wynik (choć potrzebujesz jeszcze więcej danych).
Underminer
1
Mógłbym być jaśniejszy. Nie jestem pewien, co dokładnie rozumiesz przez „nadal MOŻESZ zebrać więcej danych, aby znaleźć znaczący wynik”. Rozumiem, ponieważ hipoteza zerowa zasadniczo nigdy nie jest prawdziwa, zbieranie większej ilości danych ostatecznie doprowadzi do znaczącego wyniku. Chciałem tylko zwrócić uwagę na fakt, że przy obliczaniu wartości p należy uwzględnić decyzję o zebraniu większej ilości danych do obliczenia wartości p. Oznacza to, że reguły decyzyjne (dotyczące gromadzenia większej ilości danych) muszą zostać wcześniej określone przed zebraniem pierwotnych danych.
jsk
@jsk nawet przy bardzo konserwatywnej metodzie korygowania wartości p (np. poprawka Bonferroniego, mająca zastosowanie w analizie post-hoc), istnieje dodatkowa wielkość próby wystarczająco duża, aby pokonać korekcję. Chodzi o to: jeśli podasz mi metodę korekty wartości p (określoną przed pierwotnym zebraniem danych lub nie), prawdziwą różnicę między rozkładami populacji grup interesów i nieistotnymi wstępnymi wynikami; i mogę zapewnić ci wystarczająco dużą próbkę, która przyniesie Ci znaczące wyniki. Dlatego więcej danych jest ZAWSZE odpowiedzią.
Underminer
7

Dzięki. Należy pamiętać o kilku kwestiach:

  1. Cytat może być apokryficzny.
  2. Całkiem rozsądne jest, aby uzyskać więcej / lepsze dane lub dane z innego źródła (dokładniejsza skala, por . Odpowiedź @ Underminera ; inna sytuacja lub kontrole; itp.), Do drugiego badania (por . Komentarz @ Glen_b ) . Oznacza to, że nie analizowałbyś dodatkowych danych w połączeniu z oryginalnymi danymi: powiedzmy, że miałeś N = 10 z nieistotnym wynikiem, możesz zebrać kolejne N = 20 i przeanalizować je osobno (nie testując pełnych 30 razem ). Jeśli cytat nie jest apokryficzny, to mógł być taki, jaki miał na myśli Fisher.
  3. Filozofia nauki Fishera była zasadniczo popperowska . Oznacza to, że wartość zerowa niekoniecznie była czymś, co należałoby odrzucić bezbłędnie, aby potwierdzić twoją teorię, ale idealnie mogłaby to być sama teoria, tak że odrzucenie oznacza, że ​​twoja ulubiona teoria jest błędna i musisz wrócić do tablicy kreślarskiej. W takim przypadku inflacja błędu typu I nie przyniosłaby korzyści badaczowi. (Z drugiej strony, ta interpretacja jest sprzeczna z udzieleniem tej rady Fisherowi, chyba że byłby kłótliwy, co nie byłoby pozbawione charakteru).
  4. W każdym razie warto zauważyć, że powodem, dla którego zamieściłem ten komentarz, jest to, że ilustruje on coś fundamentalnego w różnicy w naturze tych dwóch podejść.
gung - Przywróć Monikę
źródło
1
p
Nawiasem mówiąc, byłoby wspaniale, gdybyś mógł rozwinąć kwestię „różnicy w naturze tych dwóch podejść”. Metoda Fishera brzmi bardziej ... subiektywnie, ponieważ wydaje mi się, że tak naprawdę nie obchodzi go wskaźnik błędów, ale mogę coś przeoczyć.
nalzok
1
@nalzok, różnica jest omawiana w oryginalnym wątku: podejście Neymana-Pearsona zakłada, że ​​badanie jest dyskretnym wydarzeniem, zrób to i odejdź; Podejście Fishera zakłada, że ​​kwestia ta jest nadal przedmiotem dochodzenia. Odp: # 2, jeśli analizujesz dane osobno, nie jest to hakowanie p (chyba że przeprowadzasz wiele badań i publikujesz tylko te, które pokazały, co chcesz). Re: # 3, nie, zero nie jest akceptowane, musisz znaleźć lepsze sposoby na przetestowanie swojej teorii.
gung - Przywróć Monikę
1
pp
1
(+1) Czasami myślę, że skupiamy się na drzewie i tęsknimy za lasem. Mówiąc wprost, gdy mamy trudny problem, więcej danych jest zwykle lepsze niż mniej danych. W większości przypadków więcej danych nie jest dużo lepsze. Jak sugeruje wnikliwy artykuł Menga z 2018 r. „ Raje statystyczne i paradoksy w dużych danych (I) ”, uzyskanie lepszych danych (np. Dobrze dobranej próby) jest znacznie korzystniejsze niż większe dane, gdy próbujemy oszacować nieznaną ilość. Ale zwykle więcej danych pomaga!
usεr11852 mówi Przywróć Monic
6

To, co nazywamy hakowaniem P, polega na wielokrotnym stosowaniu testu istotności i tylko raportowaniu wyników istotności. To, czy jest to dobre czy złe, zależy od sytuacji.

Aby to wyjaśnić, zastanówmy się nad prawdziwymi efektami w kategoriach bayesowskich, zamiast hipotez zerowych i alternatywnych. Dopóki uważamy, że nasze efekty zainteresowania pochodzą z ciągłego rozkładu, wiemy, że hipoteza zerowa jest fałszywa. Jednak w przypadku testu dwustronnego nie wiemy, czy jest on dodatni czy ujemny. W tym świetle możemy myśleć o wartościach p dla testów dwustronnych jako miary tego, jak silny jest dowód, że nasze oszacowanie ma właściwy kierunek (tj. Pozytywny lub negatywny wpływ).

p<α

Teraz zastanów się, co się stanie, gdy będziesz wracać, aby uzyskać więcej danych. Za każdym razem, gdy otrzymujesz więcej danych, zwiększa się twoje prawdopodobieństwo uzyskania prawidłowego kierunku pod warunkiem, że wystarczająca ilość danych wzrośnie. W ramach tego scenariusza powinniśmy zdać sobie sprawę z tego, że zdobywając więcej danych, chociaż w rzeczywistości zwiększamy prawdopodobieństwo błędu typu I, zmniejszamy również prawdopodobieństwo błędnego przyjęcia niewłaściwego kierunku.

Weź to w przeciwieństwie do bardziej typowego nadużywania hakowania P; testujemy setki wielkości efektów, które mają duże prawdopodobieństwo, że będą bardzo małe i zgłaszamy tylko te istotne. Zauważ, że w tym przypadku, jeśli wszystkie efekty są małe, mamy prawie 50% szansy na błędne określenie kierunku, kiedy deklarujemy znaczenie.

Oczywiście wytworzone wartości p z podwojenia danych nadal powinny pochodzić z ziarenka soli. Chociaż ogólnie nie powinieneś mieć problemu z tym, że ludzie zbierają więcej danych, aby mieć większą pewność co do wielkości efektu, można to wykorzystać w inny sposób. Na przykład sprytny PI może zdać sobie sprawę, że zamiast zebrać wszystkie 100 punktów danych naraz, mogliby zaoszczędzić sporo pieniędzy i zwiększyć moc, najpierw zbierając 50 punktów danych, analizując dane, a następnie zbierając kolejne 50, jeśli nie jest to istotne . W tym scenariuszu zwiększają prawdopodobieństwo błędnego wskazania kierunku efektu pod warunkiem zadeklarowania istotności, ponieważ bardziej prawdopodobne jest błędne określenie kierunku efektu przy 50 punktach danych niż przy 100 punktach danych.

I wreszcie, należy rozważyć konsekwencje nie coraz więcej danych, gdy mamy nieznaczny efekt. Oznaczałoby to, że nigdy nie zbieramy więcej informacji na ten temat, co tak naprawdę nie popchnie nauki do przodu, prawda? Jedno słabe badanie zabiłoby całe pole.

Cliff AB
źródło
1
(+1) To interesujący punkt widzenia, ale czy możesz wyjaśnić różnicę między metodologią Fishera a sprytnym PI? Oba zbierają więcej danych, ponieważ wydaje się, że początkowy test jest nieznaczny.
nalzok
Nie jestem też pewien, co rozumiesz przez „chociaż w rzeczywistości zwiększamy prawdopodobieństwo błędu typu I, zmniejszamy również prawdopodobieństwo błędnego zakończenia niewłaściwego kierunku”. Jaka jest tutaj hipoteza zerowa? IMO, jeśli wykonujesz jednostronny test, wtedy „stwierdzenie niewłaściwego kierunku” jest „błędem typu I”, a dla dwustronnych testów nie powinieneś kończyć kierunku.
nalzok
Popraw mnie, jeśli się mylę, ale myślę, że sugerujesz kontynuowanie gromadzenia większej ilości danych, dopóki test dwustronny nie będzie znaczący, aw tym przypadku poziom błędu typu I wyniósłby 100%.
nalzok
1
Kluczową różnicą między zaleceniami Fishera a sprytnym / naiwnym PI jest to, że Fisher wykonuje to wezwanie z zakończonego badania. Jego opcje albo zbierają więcej danych, albo decydują, że nigdy nie pozna kierunku efektu. Z drugiej strony, PI decyduje się osłabić swoje początkowe badanie, zanim jeszcze zobaczy dane.
Cliff AB
1
@nalzok: na pewno postaram się przyjrzeć poza godzinami pracy :)
Cliff AB
1

Jeśli alternatywa miała małe prawdopodobieństwo a priori , eksperyment, który nie odrzuci wartości zerowej, jeszcze bardziej ją zmniejszy, czyniąc dalsze badania jeszcze mniej opłacalnymi. Załóżmy na przykład, że prawdopodobieństwo a priori wynosi 0,01. Zatem twoja entropia wynosi 0,08 bitu. Jeśli prawdopodobieństwo zmniejszy się do 0,001, wówczas entropia wynosi teraz 0,01. Dlatego dalsze gromadzenie danych często nie jest opłacalne. Jednym z powodów, dla których opłacalność byłaby opłacalna, jest fakt, że wiedza jest tak ważna, że ​​nawet pozostałe 0,01 bity entropii są warte zmniejszenia.

Innym powodem byłby fakt, że prawdopodobieństwo a priori było naprawdę wysokie. Jeśli prawdopodobieństwo a priori było większe niż 50%, to odrzucenie wartości zerowej powoduje zwiększenie entropii, co sprawia, że ​​kontynuowanie gromadzenia danych jest bardziej opłacalne. Przykładem może być sytuacja, w której jesteś prawie pewien, że występuje efekt, ale nie wiesz, w którym kierunku.

Na przykład, jeśli jesteś agentem kontrwywiadu i masz pewność, że wydział ma pieprzyk i zawęził go do dwóch podejrzanych, i przeprowadza analizę statystyczną, aby zdecydować, który z nich, to statystycznie nieistotny wynik uzasadniałby zbieranie więcej danych.

Akumulacja
źródło
Dlaczego brak odrzucenia wartości zerowej zmniejsza jej prawdopodobieństwo? Chociaż brak dowodów nie jest dowodem nieobecności, nie rozumiem, dlaczego jest to dowód przeciwko nieobecności.
nalzok
@nalzok napisałem „Jeśli alternatywa ma małe prawdopodobieństwo a priori, to eksperyment, który nie odrzuci wartości null, jeszcze bardziej ją zmniejszy”. Podczas gdy „null” jest rzeczownikiem najbliższym „it”, null nie jest wielkością, i dlatego nie może się zmniejszyć i nie jest ważnym poprzednikiem „to”. Ponadto „dalsze” wskazuje, że „to” odnosi się do czegoś już małego. Fakty te wskazują, że poprzednikiem „tego” jest „małe prawdopodobieństwo a priori” alternatywy.
Akumulacja