Zrozumienie Gelman & Carlin „Beyond Power Calculations:…” (2014)

11

Czytam Gelman & Carlin „Beyond Power Calculations: Assessment Type S (Sign) and Type M (Magnitude) Errors” (2014). Próbuję zrozumieć główną ideę, główne podejście, ale jestem zdezorientowany. Czy ktoś mógłby pomóc mi wydestylować esencję?

Papier wygląda mniej więcej tak (jeśli dobrze to zrozumiałem).

  • Badania statystyczne w psychologii są często nękane przez małe próbki.
  • Zależnie od statystycznie istotnego wyniku w danym badaniu
    (1) rzeczywisty rozmiar efektu może być poważnie zawyżony i
    (2) znak efektu może być przeciwny z dużym prawdopodobieństwem - chyba że wielkość próbki jest wystarczająco duża.
  • Powyżej pokazano za pomocą wcześniejszego przypuszczenia wielkości efektu w populacji, a efekt ten zwykle uważa się za niewielki.

Moim pierwszym problemem jest to, dlaczego warunek wyniku statystycznie istotnego? Czy ma to odzwierciedlać stronniczość publikacji? Ale tak się nie wydaje. Więc dlaczego?

Moim drugim problemem jest to, że jeśli sami przeprowadzę badanie, czy powinienem traktować swoje wyniki inaczej niż do tego, do czego jestem przyzwyczajony (wykonuję statystyki częstokrzyskie, niezbyt dobrze zaznajomione z Bayesianem)? Np. Wziąłbym próbkę danych, oszacowałem model i zapisałem oszacowanie punktowe dla pewnego efektu zainteresowania i zaufania wokół niego. Czy powinienem teraz nie ufać mojemu wynikowi? Czy powinienem mu nie ufać, jeśli jest to statystycznie istotne? Jak jakakolwiek wcześniejsza zmiana to zmienia?

Co jest najważniejsze (1) dla „producenta” badań statystycznych i (2) dla czytelnika stosowanych prac statystycznych?

Bibliografia:

PS Myślę, że nowym elementem dla mnie jest włączenie wcześniejszych informacji, których nie jestem pewien, jak leczyć (pochodzących z paradygmatu częstych).

Richard Hardy
źródło
Jak widać, jestem dość zdezorientowany, więc moje pytania mogą nie wydawać się spójne lub rozsądne. Będę wdzięczny za wszelkie wskazówki, które pomogą mi zrozumieć tekst, który studiuję. Mam nadzieję, że w miarę postępów w zrozumieniu problemu będę w stanie zadawać bardziej sensowne pytania.
Richard Hardy
7
Zauważ, że od samego początku ustalili przesłankę pracy: „ Właśnie zakończyłeś eksperyment. Analizujesz wyniki i widzisz znaczący efekt . Sukces! Ale czekaj - ile informacji naprawdę daje ci badanie „Na ile powinieneś ufać swoim wynikom? ” --- opisują, co się dzieje / co implikowane, gdy masz znaczenie. Wykorzystują te konsekwencje, aby zmotywować się do skupienia się na rzeczach innych niż znaczenie.
Glen_b
Powinieneś nie ufać swojemu wynikowi - tak - jeśli przeprowadzisz wiele testów istotności i odfiltrujesz wszystko, co okaże się nieistotne; jest to rodzaj „uprzedzenia publikacji”, ale może się zdarzyć bez publikacji, po prostu w laboratorium jednej osoby w ciągu kilku miesięcy lub lat eksperymentów. Każdy robi coś takiego do pewnego stopnia, stąd pedagogiczne zainteresowanie uzależnieniem od znaczących wyników.
ameba
@amoeba, OK, ale jeśli (hipotetycznie) oszacuję tylko jeden model i skupię się tylko na jednym z góry określonym parametrze (więc absolutnie nie ma wielu testów), czy wyniki Gelmana i Carlina coś by zmieniły? A co powiesz na wcześniejsze informacje?
Richard Hardy
2
Potrzebne są wcześniejsze informacje, aby ocenić współczynnik fałszywych odkryć; zwykła logika testowania istotności gwarantuje jedynie poziom błędu typu I P (signif | null). Aby oszacować P (null | signif), musisz wywołać niektóre wcześniejsze. To właśnie robią tutaj Gelman i Carlin. Jeśli oszacujesz tylko jeden model, wówczas „wskaźnik fałszywych odkryć” nie ma znaczenia (w podejściu częstokroć); ale zwykle ludzie oceniają wiele modeli :-) lub przynajmniej czytają literaturę, na którą składają się inni ludzie oceniający wiele modeli.
ameba

Odpowiedzi:

5

Przeczytałem ponownie artykuł i tym razem wydaje się znacznie jaśniejszy. Teraz również pomocne są komentarze @Glen_b i @amoeba.

Cała dyskusja opiera się na punkcie początkowym, w którym uzyskano statystycznie istotny wynik. Pod warunkiem , że szacowany rozmiar efektu rozkłada się inaczej niż w przypadku braku warunku: Artykuł wydaje się dotyczyć dwóch problemów:

Pβ^(|β^ is statistically significant)Pβ^().
  1. Błąd publikacji (publikowane są tylko statystycznie istotne wyniki) i
  2. Odchylenie w obliczeniach projektowych dla nowych badań (przyjmowanie zbyt dużych oczekiwanych rozmiarów efektów jako punktów odniesienia).

Dobra wiadomość jest taka, że ​​oba problemy można rozwiązać w zadowalający sposób.

  1. Biorąc pod uwagę prawdopodobny oczekiwany rozmiar efektu , szacowany rozmiar efektu (zakładając, że został opublikowany, ponieważ był statystycznie istotny, a w przeciwnym razie nie zostałby opublikowany), szacowany błąd standardowy i rodziny dystrybucyjnej estymatora (np. Normal lub Studenta ), możemy cofnąć bezwarunkowy rozkład wielkości efektu .β s . e . ( Β ) T P β ( )βplausibleβ^s.e.(β^)tPβ^()
  2. Korzystając z wcześniejszych ustaleń, przy pomocy 1. prawdopodobnego rozmiaru efektu można określić i zastosować go w projekcie badania.βplausible

Aby krótko odpowiedzieć na moje dwa pytania:

  1. Chodzi o stronniczość publikacji, choć nie w sensie pogłębiania danych, ale w kontekście słabych badań; tam statystycznie znaczący wynik prawdopodobnie będzie należał do powiedzmy 5% odrzuceń pod wartością zerową (tak więc zerowa jest faktycznie prawdziwa, ale zdarzyło się, że znaleźliśmy się daleko od niej przez przypadek), a nie odrzucenia pod alternatywą (gdzie wartość null nie jest prawdą, a wynik jest „prawdziwy”).
  2. Powinienem zachować ostrożność przy odrzucaniu wartości zerowej, ponieważ statystycznie znaczący wynik prawdopodobnie wynika z przypadku (chociaż szansa jest ograniczona do, powiedzmy, 5%), a nie z powodu „prawdziwego” efektu (z powodu niskiej mocy) .
Richard Hardy
źródło
2
Ta odpowiedź autorstwa Glen_b jest również bardzo pomocna.
Richard Hardy
Idk, jeśli naprawdę jest w tym coś niepotrzebnego, ale napisałem również odpowiedź na to pytanie, która może być pomocna. Jedna kwestia: myślę, że niekoniecznie opowiadają się za oszacowaniem „prawdziwego” rozkładu wielkości efektu za pomocą (zwanego w tekście), ale raczej za pomocą tego do oszacowania prawdopodobieństwa wykonania typu S lub Błąd typu M na podstawie bieżących wyników testu. Jest to bayesowski, ale IMHO rodzaj „bayesowskiego-lite”;), ponieważ nadal używasz go do interpretacji wyników testu dla częstych. DβplausibleD
Patrick B.
@PatrickB., Dziękuję. Zajmę się trochę później. (Widzę, że już wcześniej głosowałem tę odpowiedź; to znaczy, że uznałem ją za pomocną.)
Richard Hardy,
1
Richard, opracowałem funkcję R do oszacowania błędu typu „S” i typu „M” dla bardziej ogólnego przypadku wielkości efektu, a nie tego, co pokazuje Gelman w rozkładzie normalnym. Podczas czytania artykułu następuje prosty proces odzyskiwania po wcześniejszym i istotnym statystycznie odkryciu. Ale cały proces jest całkowicie oparty na analizie mocy. Zasadniczo, dla małych głośnych badań SE jest duża i zakładając kilka rozsądnych, możliwych do zweryfikowania empirycznie, możliwych rozmiarów efektów, można uzyskać rozsądne ...
rnorouzian
1
... szacuje, co powinno zawierać przyszłe badanie w kategoriach powiedzmy wielkości próby potrzebnej do uniknięcia uzyskania wysokich wskaźników typu „S” i wysokiego wskaźnika przesady (tj. typu „M”). Dla przypomnienia, typ „S” Gelmana jest po prostu tym kawałkiem pod leżącym u podstaw rozkładem wielkości efektu, który znajduje się po przeciwnej stronie efektu u podstawy podzielonego przez moc. W każdym razie spójrz na funkcję na wypadek, gdyby mogła pomóc.
rnorouzian
2

Jest jeszcze inny punkt widzenia tego artykułu, który może być pomocny, jeśli już stosuje się analizę bayesowską i nie dba się o część istotności statystycznej.

Załóżmy, że jest tylnym CDF ilościPβVβ

p(β|V)p(V|β)p(β)

VVp(V|β)

βplausibleP(V|β)β=βplausibleVβplausible jest prawdziwym rozmiarem efektu.

Vβ

VV

ββplausible

βplausible

βplausible

Trzeba uważać, aby nikt nie wykorzystał tej metryki „mocy”, ponieważ jest to to samo, co częste obliczanie mocy, co jest dość trudne. Ale wszystkie te mierniki są dość przydatne do prospektywnej i retrospektywnej analizy projektu, nawet jeśli cała procedura modelowania jest bayesowska i nie odnosi się do żadnego wyniku istotności statystycznej.

Ely
źródło