Kontekst
Grupa naukowców i statystów ( Benjamin i in., 2017 ) niedawno zasugerowała, że typowy współczynnik fałszywie dodatnich ( = 0,05) stosowany jako próg dla określenia „istotności statystycznej” musi zostać dostosowany do bardziej konserwatywnego progu ( = .005). Konkurencyjna grupa naukowców i statystyk ( Lakens i in., 2018 ) odpowiedziała, argumentując przeciwko zastosowaniu tego - lub jakiegokolwiek innego - arbitralnie wybranego progu. Poniżej cytat z Lakens i in. (s. 16), które pomagają zilustrować przedmiot mojego pytania:
Idealnie poziom alfa określa się poprzez porównanie kosztów i korzyści z funkcją użyteczności z wykorzystaniem teorii decyzji. Ta analiza kosztów i korzyści (a tym samym poziom alfa) różni się podczas analizy dużych istniejących zestawów danych w porównaniu do gromadzenia danych z trudnych do uzyskania próbek. Nauka jest zróżnicowana i do naukowców należy uzasadnienie poziomu alfa, którego zdecydują się użyć. ... Badania powinny opierać się na zasadach rygorystycznej nauki, a nie na heurystyce i arbitralnych progach ogólnych.
Pytanie
Zastanawiam się, jak można usprawiedliwić wybraną alfę w sposób „kierujący się zasadami rygorystycznej nauki”, jak Lakens i in. sugerują, w większości kontekstów nauk społecznych (tj. poza wybranymi przypadkami, w których można zoptymalizować bardziej konkretną jakość, taką jak zysk)?
Po rozpowszechnieniu Lakensa i wsp. Zacząłem widzieć kalkulatory online w obiegu, aby pomóc badaczom w podjęciu tej decyzji. Korzystając z nich, badacze muszą określić „stosunek kosztów” błędów fałszywie dodatnich i fałszywie ujemnych. Jednak, jak to kalkulator tutaj sugeruje, ustalania takiego współczynnika A koszt może obejmować wiele ilościowego domysłów pracy:
Podczas gdy niektóre koszty błędów są łatwe do kwantyfikacji w kategoriach pieniężnych (koszty bezpośrednie), inne są trudne do określenia kwoty dolara (koszty pośrednie). ... Mimo trudnych do oszacowania liczb, powinieneś postarać się podać im liczbę.
Na przykład, chociaż Lakens i in. sugerują badanie trudnodostępnych próbek jako czynnik, który można wziąć pod uwagę przy uzasadnianiu alfa, wydaje się, że wciąż zastanawia się, jak trudno jest dotrzeć do tej próbki, a tym samym, jak odpowiednio dostosować wybór alfa. Jako kolejny przykład wydaje mi się trudne oszacowanie kosztów opublikowania wyników fałszywie dodatnich pod względem ilości czasu / pieniędzy, które inni zaangażowaliby następnie w badania oparte na błędnym wnioskowaniu.
Jeśli określenie tego wskaźnika kosztów jest w dużej mierze kwestią subiektywnego zgadywania, nie zastanawiam się, czy te decyzje mogą kiedykolwiek (ponownie, poza optymalizacją czegoś takiego jak zysk) być „uzasadnione”. To znaczy w sposób, który istnieje poza założeniami dotyczącymi pobierania próbek, kompromisów, wpływu itp.,? W ten sposób określenie stosunku kosztów błędów fałszywie dodatnich / fałszywie ujemnych wydaje mi się być czymś zbliżonym do wyboru wcześniejszego wnioskowania bayesowskiego - decyzja, która może być nieco subiektywna, wpływać na wyniki, a zatem dyskutowana - - chociaż nie jestem pewien, czy to rozsądne porównanie.
Podsumowanie
Aby moje zapytanie było konkretne:
- Czy stawki fałszywie dodatnie / fałszywie ujemne i ich stosunek kosztów mogą być kiedykolwiek „rygorystycznie” uzasadnione w większości kontekstów nauk społecznych?
- Jeśli tak, jakie są ogólne zasady, które można zastosować, aby uzasadnić te analityczne wybory (i może przykład lub dwa z nich w działaniu)
- Jeśli nie, to czy moja analogia do potencjalnej subiektywności w wyborze wskaźników kosztów - podobnie jak w przypadku wcześniejszej selekcji bayesowskiej - jest rozsądna?
Bibliografia
Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22 lipca). Przedefiniuj znaczenie statystyczne. Źródło: psyarxiv.com/mky9j
Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 15 stycznia). Uzasadnij swoją alfę. Źródło: psyarxiv.com/9s3y6
Odpowiedzi:
(opublikowano również na Twitterze, ale ponownie opublikowano tutaj). Moja próba odpowiedzi: nie sądzę, aby uzasadnienie było „czysto” obiektywne, ale może być oparte na kryteriach, które można uzasadnić na podstawie racjonalnych / empirycznych podstaw. Myślę, że RSS jest przykładem sposobu uzasadnienia p <.005 dla niektórych rodzajów badań, ale sądzę również, że istnieją inne okoliczności, w których inna alfa byłaby bardziej optymalna niż <.005 (wyższa lub niższa) w zależności od jaka alfa jest wykonalna i jaki jest cel badania. Na przykład, jeśli masz 5000 uczestników, a najmniejszy interesujący rozmiar efektu to .10, możesz użyć p <.001 i mieć 90% mocy (wszystkie liczby są wymyślone). Dla kontrastu, powiedz, że przeprowadzasz mały eksperyment jako wstępny „dowód koncepcji” dla linii badań. Możesz mieć N = 100, p <.10, moc 90%,
źródło
Ostatnio często zastanawiałem się nad tym samym pytaniem i przypuszczam, że wielu innych również jest w psychologii.
Po pierwsze, każde z twoich pytań dotyczy tego, czy wybór jest dokonywany obiektywnie czy subiektywnie, ale (jak zauważyli inni tutaj) nie w pełni wyjaśniłeś, co stanowi (Twoim zdaniem) wybór obiektywny czy subiektywny.
Być może zainteresuje Cię artykuł Gelman & Hennig 2015, który rozpakowuje różnorodne wartości zawarte w powszechnym użyciu w nauce etykiet „obiektywnych” i „subiektywnych”. W swoim sformułowaniu „obiektywny” odnosi się do wartości przejrzystości, konsensusu, bezstronności i korespondencji z możliwą do zaobserwowania rzeczywistością, podczas gdy „subiektywny” odnosi się do wartości wielu perspektyw i zależności od kontekstu.
W odniesieniu do pytania 3, w ujęciu Bayesa, prawdopodobieństwo definiuje się jako kwantyfikację niepewności co do świata. Z tego, co rozumiem, istnieje napięcie między „subiektywistycznym bayesowskim” (prawdopodobieństwa odzwierciedlają poszczególne stany przekonania) i „obiektywistycznym bayesowskim” szkołem myślenia (prawdopodobieństwa odzwierciedlają konsensusową wiarygodność). W szkole obiektywistycznej kładzie się większy nacisk na uzasadnienie wcześniejszego podziału (i bardziej ogólnie modelu) w przejrzysty sposób, który jest zgodny z konsensusem i który można sprawdzić, ale wybór modelu z pewnością zależy od kontekstu (tj. , zależy od stanu konsensusu wiedzy dla konkretnego problemu).
W koncepcji częstokroć prawdopodobieństwa odzwierciedlają liczbę przypadków wystąpienia zdarzenia przy nieskończonych niezależnych replikacjach. W ramach Neymana-Pearsona zakłada się precyzyjną hipotezę alternatywną i precyzyjną wartość alfa, akceptuje dokładną wartość zerową lub precyzyjną alternatywę (że efekt populacji jest dokładnie równy założonej) na podstawie danych, a następnie zgłasza długoterminowa częstotliwość popełniania tego błędu.
W tych ramach rzadko mamy dokładny punktowy szacunek wielkości efektu populacji, ale raczej zakres prawdopodobnych wartości. Dlatego, zależnie od danej alfa, nie mamy dokładnego oszacowania poziomu błędu typu 2, ale raczej zakres prawdopodobnych poziomów błędu typu 2. Podobnie zgadzam się z twoim ogólnym stwierdzeniem, że zazwyczaj nie mamy dokładnego wyobrażenia o tym, jakie faktycznie będą koszty i korzyści wynikające z błędu typu 1 lub błędu typu 2. Oznacza to, że często mamy do czynienia z sytuacją, w której mamy bardzo niepełne informacje o tym, jaka powinna być nasza hipoteza, a jeszcze mniej informacji o tym, jakie byłyby względne koszty i korzyści przyjęcia lub odrzucenia tej hipotezy.
na twoje pytania:
Myślę, że tak, ponieważ uzasadnienie może być przejrzyste, zgodne z konsensusem, może być bezstronne i zgodne z rzeczywistością (w zakresie, w jakim wykorzystujemy najlepsze dostępne informacje na temat kosztów i korzyści).
Myślę jednak, że takie uzasadnienia są również subiektywne, ponieważ może istnieć wiele ważnych perspektyw dotyczących tego, jak ustawić alfa dla danego problemu, a to, co stanowi odpowiednią alfa, może być znacząco zależne od kontekstu.
Na przykład w ostatnich latach stało się jasne, że wiele efektów w literaturze odzwierciedla błędy typu M lub typu S. Mogą również odzwierciedlać błędy typu 1 w zakresie, w jakim badanie replikacji jest w stanie dostarczyć dowodów na zerowy efekt dokładnie zerowy.
W związku z tą obserwacją powstaje konsensus, że próg wartości p dla twierdzenia z pewnością powinien zostać utrzymany na tym samym poziomie lub być bardziej rygorystyczny (tj. Nikt nie opowiada się za całkowitym wzrostem alfa do .10 lub .20) . Podobnie pojawia się konsensus, że wartości p nie powinny być stosowane jako kryterium publikacji (np. Format raportu zarejestrowanego).
Dla mnie odzwierciedla to rodzaj „obiektywnego” źródła informacji - tj. Według mojej lektury rośnie konsensus, że fałszywe twierdzenia są kosztowne w terenie (nawet jeśli nie możemy przeliczyć kwoty w dolarach na te koszty). Według mojej interpretacji nie ma jednoznacznego konsensusu, że nieosiągnięcie progu wartości p jest dramatycznym kosztem w terenie. Jeśli istnieją koszty, można je złagodzić, jeśli niespełnienie progu wartości p nie wpływa na to, czy szacunek przekształci się w opublikowany artykuł.
Nie jestem pewien, ale skłaniam się ku jakiejś zasadzie, że decyzje powinny być podejmowane na podstawie przejrzystych (lokalnych lub globalnych) konsensusowych ocen dotyczących kosztów i korzyści różnych rodzajów wyborów analitycznych w określonym kontekście, nawet w obliczu niezwykle niekompletnych informacji o tym, jakie mogą być te koszty i korzyści.
Tak, w tradycjonalistycznych i bayesowskich tradycjach istnieje miejsce na subiektywność (tj. Wiele perspektyw i zależność od kontekstu), a także obiektywność (tj. Przejrzystość, konsensus, bezstronność i zgodność z obserwowalną rzeczywistością) w wielu różnych aspektach modelu statystycznego oraz w jaki sposób stosuje się ten model (wybrany wcześniej, wybrane prawdopodobieństwo, wybrany próg decyzyjny itp.).
źródło