Czy iloraz wiarygodności i porównanie modelu Bayesa stanowią doskonałą i wystarczającą alternatywę dla testowania zerowej hipotezy?

W odpowiedzi na rosnącą liczbę statystyk i badaczy krytykujących użyteczność testowania zerowej hipotezy (NHT) dla nauki jako kumulatywnego przedsięwzięcia, grupa zadaniowa American Psychological Association ds. Wnioskowania statystycznego uniknęła całkowitego zakazu NHT, ale zasugerowała, że badacze raportować rozmiary efektów oprócz wartości p pochodzących z NHT.

Jednak rozmiary efektów nie są łatwo kumulowane we wszystkich badaniach. Podejścia metaanalityczne mogą akumulować rozkłady wielkości efektów, ale wielkości efektów są zwykle obliczane jako stosunek między surową wielkością efektu a niewyjaśnionym „szumem” w danych danego eksperymentu, co oznacza, że na rozkład wielkości efektu ma wpływ nie tylko zmienność surowej wielkości efektu między badaniami, ale także zmienność manifestacji hałasu w badaniach.

W przeciwieństwie do tego alternatywna miara siły efektu, współczynników prawdopodobieństwa, pozwala zarówno na intuicyjną interpretację na zasadzie badania po badaniu, i może być łatwo agregowana w ramach badań w celu metaanalizy. W ramach każdego badania prawdopodobieństwo reprezentuje wagę dowodów dla modelu zawierającego dany efekt w stosunku do modelu, który nie zawiera efektu, i zazwyczaj można je zgłaszać jako, na przykład, „Obliczenie współczynnika prawdopodobieństwa dla efektu X ujawniło 8 razy więcej dowodów na efekt niż na odpowiednią wartość zerową ". Ponadto wskaźnik prawdopodobieństwa pozwala również na intuicyjne przedstawienie siły wyników zerowych, o ile współczynniki wiarygodności poniżej 1 reprezentują scenariusze, w których preferowana jest wartość zerowa, a przyjęcie odwrotności tej wartości reprezentuje wagę dowodów dla wartości zerowej nad efektem. Szczególnie, iloraz prawdopodobieństwa jest reprezentowany matematycznie jako iloraz niewyjaśnionych wariancji dwóch modeli, które różnią się jedynie wariancją wyjaśnioną przez efekt, a zatem nie jest wielkim koncepcyjnym odejściem od wielkości efektu. Z drugiej strony, obliczenie metaanalitycznego współczynnika wiarygodności, reprezentującego wagę dowodów na efekt w różnych badaniach, jest po prostu kwestią wzięcia iloczynu ilorazów prawdopodobieństwa w różnych badaniach.

Dlatego twierdzę, że dla nauki dążącej do ustalenia stopnia rażących dowodów na korzyść efektu / modelu, stosunki prawdopodobieństwa są dobrym rozwiązaniem.

Istnieją bardziej niuansowe przypadki, w których modele są rozróżnialne tylko pod względem konkretnego rozmiaru efektu, w którym to przypadku preferowane może być pewne przedstawienie przedziału, w którym naszym zdaniem dane są zgodne z wartościami parametrów efektu. Rzeczywiście, grupa zadaniowa APA zaleca również zgłaszanie przedziałów ufności, które można wykorzystać w tym celu, ale podejrzewam, że jest to również źle przemyślane podejście.

Przedziały ufności są żałośnie często źle interpretowane (zarówno przez studentów, jak i badaczy ). Obawiam się również, że ich zdolność do stosowania w NHT (poprzez ocenę włączenia zera w CI) służy jedynie dalszemu opóźnieniu wyginięcia NHT jako praktyki wnioskowania.

Zamiast tego, gdy teorie różnią się jedynie wielkością efektów, sugeruję, że bardziej odpowiednie byłoby podejście bayesowskie, w którym wcześniejszy rozkład każdego efektu jest definiowany przez każdy model osobno, a wynikowe rozkłady tylne są porównywane.

Czy takie podejście, zastępujące wartości p, wielkości efektów i przedziały ufności współczynnikami prawdopodobieństwa oraz, w razie potrzeby, porównanie modelu Bayesa, wydaje się wystarczające? Czy brakuje jakiejś niezbędnej funkcji wnioskowania, którą zapewniają tu złowrogie alternatywy?

bayesian confidence-interval effect-size inference Mike Lawrence
źródło

Czy może być bardziej ukierunkowane pytanie? Być może chodzi o podejście oparte na prawdopodobieństwie do konkretnego problemu wnioskowania?

conjugateprior

Ale skoro już tu jesteśmy: Na wystawie: czy pomieszałeś miary wielkości efektu, zwykle identyfikowane za pomocą parametru, dla miar dowodów porównawczych dla pełnego modelu? LR wyglądają jak kandydaci na to drugie. Ponadto, jeśli chcesz, aby funkcje prawdopodobieństwa same lub w połączeniu informowały cię o danych, które próbują powiedzieć o modelu, to w zasadzie jesteś Bayesianem. Ponieważ taka jest zasada prawdopodobieństwa. (Wejdź, woda jest cudowna :-)

sprzężony

Twój tytuł i końcowa para wydają się nie zgadzać, czy sugerujesz stosowanie przedziałów ufności, czy ich zastępowanie.

onestop

@onon: rzeczywiście, właśnie zdałem sobie sprawę, że zapomniałem zmienić tytuł; Podczas pisania pytania zmieniłem zdanie na temat przedziałów ufności. Zredagowałem teraz tytuł. Przepraszamy za zamieszanie.

Mike Lawrence

@ Conjugate Prior: Całkowicie zgadzaj się z pierwszymi dwoma zdaniami. Ale można przyjąć zasadę wiarygodności bez bycia Bayesa jeśli nie podoba mi się pomysł priors i podstawa wnioskowania o samych prawdopodobieństw - patrz książek przez Edwardsa books.google.com/books?id=2a_XZ-gvct4C i Royall books.google .com / books? id = oysWLTFaI_gC . Chociaż ktoś (i chciałbym pamiętać, kto i gdzie) kiedyś porównał to do rozbijania jajek, ale nie jedzenia omletu.

onestop

Główne zalety podejścia bayesowskiego, przynajmniej dla mnie jako badacza psychologii, to:

1) pozwala gromadzić dowody na korzyść wartości zerowej

2) omija teoretyczne i praktyczne problemy badań sekwencyjnych

3) nie jest podatny na odrzucenie wartości zerowej tylko z powodu dużej wartości N (patrz poprzedni punkt)

4) lepiej nadaje się do pracy z małymi efektami (z dużymi efektami zarówno metody Frequentist, jak i Bayesian zwykle się zgadzają)

5) pozwala na modelowanie hierarchiczne w realny sposób. Na przykład, wprowadzanie efektów przedmiotów i uczestników w niektórych klasach modeli, takich jak modele drzewa przetwarzania wielomianowego, musiałoby być wykonane w ramach Bayesa, w przeciwnym razie czas obliczeń byłby niesamowicie długi.

6) zapewnia „prawdziwe” przedziały ufności

7) Potrzebujesz 3 rzeczy: prawdopodobieństwa, priorytetów i prawdopodobieństwa danych. pierwsze uzyskujesz z danych, drugie uzupełniasz, a trzecie nie potrzebujesz wcale proporcjonalności. Ok, może trochę przesadzam ;-)

Ogólnie rzecz biorąc, można odwrócić pytanie: Czy to wszystko oznacza, że klasyczne statystyki częstokroć nie są wystarczające? Myślę, że powiedzenie „nie” jest zbyt surowym wyrokiem. Większość problemów można nieco uniknąć, jeśli ktoś wykracza poza wartości p i patrzy na rzeczy takie jak rozmiary efektów, możliwość efektów przedmiotów i konsekwentnie powtarza wyniki (opublikowano zbyt wiele artykułów z jednego eksperymentu!).

Ale nie wszystko jest takie proste dzięki Bayesowi. Weźmy na przykład wybór modelu z modelami nie zagnieżdżonymi. W takich przypadkach priorytety są niezwykle ważne, ponieważ mają duży wpływ na wyniki, a czasami nie masz wystarczającej wiedzy na temat większości modeli, z którymi chcesz pracować, aby uzyskać prawidłowe priorytety. Ponadto zajmuje to naprawdę dużo czasu ...

Zostawiam dwa odniesienia dla każdego, kto mógłby być zainteresowany nurkowaniem w Bayes.

„Kurs bayesowskiego modelowania graficznego dla kognitywistyki” Lee i Wagenmakers

„Modelowanie bayesowskie przy użyciu WinBUGS” Ntzoufras

Dave Kellen
źródło

Czy iloraz wiarygodności i porównanie modelu Bayesa stanowią doskonałą i wystarczającą alternatywę dla testowania zerowej hipotezy?

Odpowiedzi: