Statystyki publikowane w artykułach naukowych

44

Czytam wiele ewolucyjnych / ekologicznych artykułów akademickich, czasami w konkretnym celu, aby zobaczyć, jak statystyki są wykorzystywane „w prawdziwym świecie” poza podręcznikiem. Zwykle traktuję statystyki w gazetach jako ewangelię i używam ich do pomocy w nauce statystycznej. W końcu, jeśli artykuł poświęcił lata na napisanie i przeszedł rygorystyczną recenzję, to z pewnością statystyki będą solidne? Ale w ciągu ostatnich kilku dni zakwestionowałem moje przypuszczenia i zastanawiałem się, jak często podejrzewa się analizę statystyczną opublikowaną w artykułach akademickich? W szczególności można oczekiwać, że osoby z dziedzin takich jak ekologia i ewolucja poświęcają mniej czasu na naukę statystyki, a więcej na naukę swoich dziedzin.

Jak często ludzie znajdują podejrzane statystyki w pracach naukowych?

luciano
źródło
18
Recenzenci to często ludzie, którzy nie wiedzą dużo więcej o statystykach niż ci, którzy piszą artykuł, więc często łatwo jest opublikować słabe statystyki.
Behacad
9
Publikacja artykułu to pierwszy krok w kierunku jego akceptacji przez społeczność naukową, a nie ostatni. Większość opublikowanych prac będzie miała poważne wady w niektórych obszarach, wykorzystanie statystyk nie jest wyjątkiem.
Dikran Torbacz
3
Twoje założenie, że artykuły „latami piszą” jest dalekie od normy. Zebranie danych może zająć dużo czasu, ale ich analiza i spisanie trwa zwykle tygodnie, a nie lata.
David Richerby,
2
Obecnie dobrze wiadomo, że statystyki w wielu pracach z zakresu psychologii i medycyny są co najmniej wątpliwe, po prostu błędne lub nawet niezbyt często. Niewłaściwe użycie wartości p i NHST jest wyraźnym przykładem problemów, patrz ta uwaga .
Kwarc

Odpowiedzi:

38

W końcu, jeśli artykuł poświęcił lata na napisanie i przeszedł rygorystyczną recenzję, to z pewnością statystyki będą solidne?

Moje doświadczenie w czytaniu artykułów, które próbują zastosować statystyki z wielu różnych dziedzin (nauki polityczne, ekonomia, psychologia, medycyna, biologia, finanse, nauki aktuarialne, rachunkowość, optyka, astronomia i wiele, wiele innych), to że jakość analiza statystyczna może być w dowolnym miejscu w spektrum, od doskonałych i dobrze wykonanych do rażących bzdur. Widziałem dobrą analizę we wszystkich wymienionych przeze mnie obszarach i dość źle wykonaną analizę w prawie wszystkich z nich.

Niektóre dzienniki są na ogół całkiem dobre, a niektóre mogą przypominać grę w rzutki z zasłoniętymi oczami - możesz dostać większość z nich niezbyt strasznie daleko od celu, ale będzie ich kilka w ścianie, podłodze i suficie. A może kot.

Nie planuję nazywać żadnych winowajców, ale powiem, że widziałem kariery akademickie oparte na niewłaściwym stosowaniu statystyk (tj. Gdzie te same błędy i nieporozumienia powtarzały się w papierze po papierze przez ponad dekadę).

Tak więc radzę, aby czytelnik uważał ; nie ufaj, że redaktorzy i recenzenci wiedzą, co robią. Z czasem możesz mieć poczucie, na których autorach można polegać, aby nie robić nic zbyt szokującego, a na których należy szczególnie ostrożnie traktować. Możesz mieć wrażenie, że niektóre czasopisma mają zazwyczaj bardzo wysoki standard statystyk.

Ale nawet zazwyczaj dobry autor może popełnić błąd, a recenzenci i redaktorzy mogą nie wykryć błędów, które normalnie mogą znaleźć; zazwyczaj dobry dziennik może opublikować wycie.

[Czasami zobaczysz nawet, że naprawdę złe papiery wygrywają nagrody lub wyróżnienia ... co niewiele mówi o jakości ludzi oceniających nagrodę.]

Nie chciałbym zgadywać, jaką część „złych” statystyk mogłem zobaczyć (pod różnymi postaciami i na każdym etapie od zdefiniowania pytania, projektu badania, gromadzenia danych, zarządzania danymi ... aż do analizy i wnioski), ale nie jest wystarczająco mała, aby czuć się komfortowo.

Mógłbym wskazać przykłady, ale nie sądzę, że jest to właściwe forum, aby to zrobić. (Byłoby miło, gdyby nie było to forum dla dobra, że faktycznie, ale potem znowu, to prawdopodobnie się bardzo „upolityczniona” dość szybko, a wkrótce nie spełniać swoje zadania.)

Spędziłem trochę czasu na przeszukiwaniu PLOS ONE ... i znowu, nie zamierzam wskazywać na konkretne dokumenty. Niektóre rzeczy zauważyłem: wygląda na to, że duża część artykułów ma statystyki, prawdopodobnie więcej niż połowa ma testy hipotez. Głównymi zagrożeniami wydają się być liczne testy, albo z wysokim jak 0,05 na każdym (co nie jest automatycznie problemem, o ile rozumiemy, że całkiem kilka naprawdę drobnych efektów może być tak znaczących przez przypadek), albo niesamowicie niski indywidualny poziom istotności, który będzie miał tendencję do dawania niskiej mocy. Widziałem także wiele przypadków, w których około pół tuzina różnych testówαnajwyraźniej zostały zastosowane do rozwiązania dokładnie tego samego pytania. To wydaje mi się ogólnie złym pomysłem. Ogólnie rzecz biorąc, standard był całkiem dobry w kilkudziesięciu artykułach, ale w przeszłości widziałem tam absolutnie okropny artykuł.

[Być może mógłbym pozwolić sobie na tylko jeden przykład, pośrednio. To pytanie dotyczy tego, czy ktoś robi coś dość wątpliwego. To daleko od najgorszej rzeczy, jaką widziałem.]

Z drugiej strony widzę (jeszcze częściej) przypadki, w których ludzie zmuszeni są skakać przez wszelkiego rodzaju niepotrzebne obręcze, aby uzyskać akceptację analizy; absolutnie uzasadnione rzeczy do zrobienia nie są akceptowane, ponieważ istnieje „właściwy” sposób robienia rzeczy według recenzenta, redaktora lub kierownika lub po prostu w niewypowiedzianej kulturze danego obszaru.

Glen_b
źródło
2
Zastrzeżenie lektora ”, biorąc pod uwagę rosnącą liczbę czasopism o otwartym dostępie?
Scortchi - Przywróć Monikę
1
@scortchi Postanowiłem całkowicie uniknąć problemu, pisząc po angielsku. To poprawa.
Glen_b
10
Bez wymieniania konkretnych winnych, myślę faculty.vassar.edu/abbaird/about/publications/pdfs/... zasługuje na wzmiankę. Aby dowieść argumentu na temat niewłaściwego wykorzystania statystyk w swojej dziedzinie, wykorzystali szeroko stosowany protokół statystyczny do analizy wyników skanowania fMRI martwego łososia. Odkryli „statystycznie znaczącą” aktywność mózgu. Statisticsdonewrong.com sprawia również ciekawą lekturę.
James_pic
1
@James_pic, musiał dołączyć do +1 tego komentarza dla statystyki niewłaściwy link; dyskusja o błędach stopy bazowej jest szczególnie interesująca.
Dan Bryant
1
@KennyPeanuts: Żadne - zaznaczając, że obecnie wiele wykładów nie jest nawet pośrednio pustych .
Scortchi - Przywróć Monikę
16

Szanuję postawę @ Glen_b dotyczącą właściwego sposobu udzielenia odpowiedzi (i na pewno nie zamierzam jej umniejszać), ale nie mogę się powstrzymać od wskazania szczególnie zabawnego przykładu, który jest blisko mojego domu. Ryzykując upolitycznienie rzeczy i zrobienie z tego celu zadośćuczynienia, polecam Wagenmakers, Wetzels, Boorsboom i Van Der Maas (2011) . Zacytowałem to w powiązanym poście na stronie Cognitive Sciences beta SE ( Jak kognitywistyka wyjaśnia daleką intencjonalność i funkcję mózgu u biorców? ), Która rozważa inny przykład „strzałki uderzającej w kota”. Artykuł Wagenmakers i współpracowników komentuje jednak bezpośrednio „prawdziwego wycie”: został opublikowany w JPSP (jednym z największych czasopism psychologicznych) kilka lat temu. Argumentują też bardziej ogólnie za analizą bayesowską i że:

Aby przekonać sceptyczną publiczność o kontrowersyjnym twierdzeniu, należy przeprowadzić badania ściśle potwierdzające i przeanalizować wyniki za pomocą testów statystycznych raczej konserwatywnych niż liberalnych.

Prawdopodobnie nie muszę ci mówić, że to nie do końca było głoszeniem chóru. FWIW, istnieje również obalenie (jak zawsze wydaje się, że jest pomiędzy Bayesianami a częstymi; ( Bem, Utts, i Johnson, 2011 )) , ale mam wrażenie, że nie doszło do matematycznej debaty .

Psychologia jako społeczność naukowa ostatnio trochę się kopie, częściowo z powodu tego i innych poważnych niedociągnięć metodologicznych. Inne komentarze tutaj wskazać przypadkach podobnych do tego, co było kiedyś znany jako korelacji voodoo w neurologii społecznej (jak to , że za niepoprawne politycznie BTW papier został tytuł zmieniono;? Vul, Harris, Winkielman, & Pashler, 2009 ). To również przyciągnęło jego obalenie , które można sprawdzić w celu przeprowadzenia dalszej debaty na temat wysoce dyskusyjnych praktyk.

Aby uzyskać jeszcze więcej wiedzy przy (bardziej zdepersonalizowanym) koszcie (pseudo) statystów, którzy źle się zachowują, zobacz nasze 8. obecnie najczęściej oceniane pytanie w CV z innym (co prawda) politycznie niepoprawnym tytułem: „ Jakie są powszechne grzechy statystyczne? ” Jego OP @MikeLawrence przypisuje swoją inspirację równoległemu studium psychologii i statystyki. Jest to jeden z moich ulubionych faworytów, a jego odpowiedzi są bardzo przydatne, aby samemu uniknąć niezliczonych pułapek.


Od strony osobistej spędziłem tutaj większość moich ostatnich pięciu miesięcy, ponieważ niezwykle trudno jest uzyskać solidne statystyki dotyczące niektórych pytań analitycznych. Szczerze mówiąc, wzajemna ocena często nie jest wcale zbyt rygorystyczna, szczególnie w zakresie statystycznej kontroli badań w młodszych naukach ze złożonymi pytaniami i mnóstwem powikłań epistemicznych. Dlatego czułem potrzebę osobistej odpowiedzialności za dopracowanie metod w mojej własnej pracy.

Podczas prezentacji swoich badań pracy doktorskiej , mam poczucie, jak ważna osobista odpowiedzialność za kontrolę statystycznych. Dwóch wyjątkowych psychologów z mojej macierzystej uczelni wtrąciło się, że popełniłem jeden z najbardziej podstawowych grzechów w moich interpretacjach korelacji. Myślałem, że jestem ponad tym i już kilka razy wykładałem na ten temat studentom, ale wciąż tam byłem i zostałem wezwany (wcześnie, dzięki niebiosom). Poszedłem tam, ponieważ badania, które recenzowałem i powielałem, poszły tam! W rezultacie dodałem kilka sekcji do mojej rozprawy wzywało to innych badaczy do przyjęcia związku przyczynowego z quasi-eksperymentalnych badań podłużnych (czasem nawet z korelacji przekrojowych) i ignorowania alternatywnych wyjaśnień przedwcześnie.

Moja rozprawa została zaakceptowana bez rewizji przez moją komisję, w której skład wchodził inny wyjątkowy psychometr i przyszły prezes SPSP (który publikuje JPSP), ale szczerze mówiąc, nie chwalę się tym, że to mówię. Od tego czasu udało mi się wykopać kilka dziur królika własnymi metodami pomimo przejścia zewnętrznego procesu recenzowania z doskonale dobrymi recenzentami. Teraz wpadłem w głąb statystyk, próbując połączyć je z metodami bardziej odpowiednimi do modelowania predykcyjnego ocen Likerta, takimi jak SEM, IRT i analiza nieparametryczna (patrz Testowanie regresji po zmniejszeniu wymiaru). Zdecydowałem się dobrowolnie spędzić lata na pracy, którą prawdopodobnie mógłbym po prostu opublikować w obecnej formie ... Myślę, że mam jeszcze badanie symulacyjne, zanim będę mógł kontynuować sumiennie.

Podkreślam jednak, że jest to opcjonalne - może nawet nadgorliwe i kosztowny luksus pośród kultury publikowania lub niszczenia, która często podkreśla ilość w stosunku do jakości we wczesnych zapisach pracy. Błędne zastosowanie modeli parametrycznych dla ciągłych danych do niezgodnych z założeniami rozkładów danych porządkowych jest zbyt powszechne w mojej dziedzinie, podobnie jak błędna interpretacja i nieprawdziwa interpretacja istotności statystycznej (patrz Uwzględnianie utrwalonych poglądów wartości p ). Mogłabym całkowicie tego uniknąć (na krótką metę) ... i nie jest wcale tak trudno zrobić lepiej. Wydaje mi się, że mam za to kilka ostatnich niesamowitych osiągnięć w programach R, za co dziękuję! Mam nadzieję, że czasy się zmieniają.


Referencje
· Bem, DJ, Utts, J., & Johnson, WO (2011). Czy psychologowie muszą zmienić sposób analizowania swoich danych? Journal of Personality and Social Psychology, 101 (4), 716–719. Źródło: http://deanradin.com/evidence/Bem2011.pdf .
· Vul, E., Harris, C., Winkielman, P., i Pashler, H. (2009). Zaskakująco wysokie korelacje w badaniach fMRI emocji, osobowości i poznania społecznego. Perspektywy psychologii, 4 (3), 274–290. Źródło: http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .
·Wagenmakers, EJ, Wetzels, R., Borsboom, D., i Van der Maas, H. (2011). Dlaczego psychologowie muszą zmienić sposób analizowania swoich danych: przypadek psi. Journal of Personality and Social Psychology, 100 , 426–432. Źródło: http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf .

Nick Stauner
źródło
1
Jeśli podobało Ci się „Feeling the Future”, możesz polubić Witztum i in. (1994), „Equidistant Letter Sequences in the Book of Genesis”, Statist. Sci. , 9 , 3 . Przyciągnął nieuchronnych szyderców i niegrzecznych: McKay i in. glin. (1999), „Solving the Bible Code Puzzle”, Statist. Sci. , 14 , 2 .
Scortchi - Przywróć Monikę
1
@Scortchi: dzięki za odniesienie i amoeba: dzięki za kontekst. Nie widzę roszczenia w Witzum i in. że McKay i in. wyśmiewają się w swoich streszczeniach, ale z pewnością wskazują na wiele innych poważnych wad. Dobry towar. „Podczas gdy rzeczywiste dane mogą mylić oczekiwania naukowców, nawet jeśli ich hipotezy są prawidłowe, ci, których eksperymenty są systematycznie nastawione na swoje oczekiwania, rzadziej są rozczarowani (Rosenthal, 1976)”. To jeden z facetów, który wezwał mnie do wnioskowania przyczynowego na podstawie quasi-eksperymentów ... naprawdę świetnego psychologa. Bem też ma jednak pewne uznanie.
Nick Stauner
2
+1 Znakomity post. „ jak ważna jest osobista odpowiedzialność za kontrolę statystyczną ” - muszę pochwalić. Ostatecznie to tutaj musi leżeć odpowiedzialność, choć może to być uciążliwe dla kogoś, kto już próbuje wykonać pracę w obszarze badań, do którego chce zastosować statystyki.
Glen_b
1
@NickStauner: McKay i in. w streszczeniu twierdzą, że Witzum i in. twierdzą, że „hebrajski tekst Księgi Rodzaju koduje wydarzenia, które miały miejsce dopiero tysiącleci po napisaniu tekstu”. Być może lekka hiperbola, ponieważ między pisaniem Tory a datą urodzenia ostatniego rabina z ich listy jest najwyżej ponad dwa tysiąclecia, ale dość uczciwe podsumowanie. (Przypuszczam, że można również zobaczyć artykuł Witztuma i in. Jako dowód na niedawne autorstwo Księgi Rodzaju, choć o ile wiem, że nikt tego nie zrobił.)
Scortchi - Przywróć Monikę
1
Tak, chyba nie mogłem zrozumieć Witzum i in. wystarczająco dobrze, by uznać, że wysunęli takie twierdzenie. Choć raz przypuszczam, że mógłbym być wdzięczny za tępe pisanie autorów ... Wydaje się, że jest to trochę bardziej interesujące pod względem wartości nominalnej, ponieważ najbardziej widocznym twierdzeniem jest to, że wzór nie wynika z przypadku, a nie z tego, co ma być ich zdaniem. Mógłby zaprosić bardziej interesujące interpretacje, takie jak twoja, gdyby nie przesadził, jak McKay i in. powiedzmy, że tak ... przynajmniej dopóki McKay i in. zastrzelił ich z przyczyn metodologicznych, nie pozostawiając nic wartego interpretacji.
Nick Stauner
5

Pamiętam, jak na uniwersytecie kilkakrotnie pytano studentów ostatniego roku nauk społecznych (jeden z nich), jak obliczyć średnią dla swojego projektu, który miał garść punktów danych. (Więc nie mieli problemu z korzystaniem z oprogramowania, tylko z koncepcją matematyki za pomocą kalkulatora).

Po prostu rzucają mi puste spojrzenia, kiedy pytam ich, jakiego rodzaju średniej chcieli.

Jednak wszyscy odczuwali potrzebę umieszczenia niektórych statystyk w swoim raporcie, ponieważ było to już zrobione - spodziewam się, że wszyscy przeczytali 101 artykułów, które miały statystyki bez zastanowienia się, co te statystyki znaczą, jeśli w ogóle.

Oczywiste jest, że badacz, który uczył ich przez 3 lata, nie dbał o poprawność statystyk na tyle, aby zrozpaczać jakiekolwiek zrozumienie wśród uczniów.

(W tym czasie byłem studentem informatyki. Piszę to jako odpowiedź, ponieważ komentarz jest nieco długi).

Ian Ringrose
źródło
Studenci to cała inna beczka małp, IMO. Nie obwiniłbym natychmiast nauczyciela za brak zrozumienia bez dalszych dowodów ... ale jeśli to tak jasne, jak mówisz, że nauczyciel jest winny, nie byłbym również zaskoczony.
Nick Stauner
@NickStauner, winię nauczyciela za to, że nie dbał wystarczająco o statystyki; gdyby im zależało, na każdym papierze egzaminacyjnym pojawiałoby się co najmniej jedno pytanie, które wymagało zrozumienia statystyk, na poziomie „Jak kłamać ze statystykami”. Nie obchodzi mnie, czy studenci nauk społecznych wiedzą, jak robić kalkulacje, ale powinni wiedzieć, jak się nie wprowadzać w błąd.
Ian Ringrose
Zgodzili się, że powinni wiedzieć, ale nie ma gwarancji, że odpowiedzą na to pytanie!
Nick Stauner
@NickStauner, Tak, ale dostajesz tylko miarę, więc nie dostaniesz uczniów, którzy rozumieją statystyki, chyba że umieścisz je na egzaminach.
Ian Ringrose
Ponownie staram się dać nauczycielom mniej punktów za wyniki uczniów. Mnóstwo uczniów (no dobra, może nie „dużo”, ale niektórzy) będzie na tyle dbało, aby uczyć się dla siebie, a niektórzy przyjdą na zajęcia, znając już dużo materiału. Wybacz mi, jeśli interpretuję twój komentarz zbyt absolutnie; Zgodziłbym się, że zmuszanie uczniów do uczenia się jest często złem koniecznym i że sprawdzanie jest lepszym sposobem uczenia się niż rutynowe, powtarzalne studiowanie / wykłady.
Nick Stauner
0

Jako żałośnie niepełną listę uważam statystyki najczęściej poprawne w 1) artykułach fizycznych, a następnie 2) artykułach statystycznych i najbardziej nieszczęśliwych w 3) artykułach medycznych. Przyczyny tego są proste i dotyczą kompletności wymagań nałożonych na prototypowy model w każdej dziedzinie.

W pracach fizyki równania i statystyki stosowane muszą zwracać uwagę na jednostki zrównoważone i mieć najczęstsze występowanie związków przyczynowych oraz testowanie w stosunku do standardów fizycznych.

W statystykach 1) jednostki i przyczynowość są czasami ignorowane, założenia są czasami heurystyczne, a testy fizyczne są zbyt często ignorowane, ale równość (lub nierówność), tj. Logika jest ogólnie zachowywana na ścieżce indukcyjnej, gdzie ta ostatnia nie może poprawić niefizyczne założenia.

W medycynie zwykle jednostki są ignorowane, równania i założenia są zazwyczaj heurystyczne, zazwyczaj niesprawdzone i często fałszywe.

Oczywiście dziedzina taka jak mechanika statystyczna ma większe prawdopodobieństwo przyjęcia założeń, które można przetestować, niż, powiedzmy, ekonomii, a to nie odzwierciedla talentów przyszłych autorów w tych dziedzinach. Jest to bardziej związane z tym, ile z tego, co jest robione, jest w rzeczywistości możliwe do przetestowania i ile testów zostało historycznie wykonanych w każdej dziedzinie.

Carl
źródło
-7

Każdy artykuł, który obala hipotezę zerową, wykorzystuje bezwartościowe statystyki (zdecydowana większość tego, co widziałem). Ten proces nie może dostarczyć żadnych informacji, które nie zostały jeszcze dostarczone przez wielkość efektu. Ponadto nie mówi nam nic o tym, czy znaczący wynik jest rzeczywiście spowodowany teorią badacza. Wymaga to dogłębnego zbadania danych pod kątem dowodów na pomyłki. Najczęściej, jeśli są obecne, najsilniejszy z tych dowodów jest nawet wyrzucany jako „wartości odstające”.

Nie znam się tak dobrze na ewolucji / ekologii, ale w przypadku badań psychologicznych i medycznych nazwałbym poziom rozumienia statystycznego „poważnie zagubionym” i „przeszkodą dla postępu naukowego”. Ludzie powinni obalać coś przewidywanego przez swoją teorię, a nie jej przeciwieństwo (zerowa różnica / efekt).

Na ten temat napisano tysiące artykułów. Sprawdź kontrowersje hybrydowe NHST.

Edycja: I mam na myśli, że test istotności hipotezy zerowej zerowej ma maksymalnie zerową wartość naukową. Ta osoba uderza w gwóźdź:

http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/

Także: Paul Meehl. 1967. Testowanie teorii w psychologii i fizyce: paradoks metodologiczny

Edycja 3:

Jeśli ktoś ma argumenty za użytecznością słomianego NHST, które nie wymagają myślenia, „odrzuć hipotezę, że tempo ocieplenia jest takie samo, ale NIE bierz tego, by sugerować, że tempo ocieplenia nie jest takie samo” jest racjonalne oświadczenie, chętnie przyjmę twoje komentarze.

Edycja 4:

Co miał na myśli Fisher przez następujący cytat? Czy to sugeruje, że pomyślał: „Jeśli model / teoria A jest niezgodna z danymi, możemy powiedzieć, że A jest fałszem, ale nic o tym, czy A nie jest prawdziwe”?

„jest pewne, że zainteresowanie testami statystycznymi dla pracowników naukowych zależy całkowicie od ich zastosowania w odrzucaniu hipotez, które w ten sposób są uznawane za niezgodne z obserwacjami”.

...

Zwiększyłoby to zatem znacznie przejrzystość, z jaką brane są pod uwagę testy istotności, gdyby ogólnie zrozumiano, że testy istotności, gdy są stosowane właściwie, są w stanie odrzucić lub unieważnić hipotezy, o ile dane te są sprzeczne z danymi ; ale nigdy nie są w stanie uznać ich za z pewnością prawdziwe

Karl Pearson i RA Fisher o testach statystycznych: A 1935 Exchange from Nature

Czy to dlatego, że zakładał, że ludzie będą próbować unieważnić prawdopodobne hipotezy, a nie słomianie? A może się mylę?

Wściekły
źródło
7
„Ten proces nie może dostarczyć żadnych informacji, które nie zostały jeszcze dostarczone przez rozmiar efektu”. jest to niepoprawne, wartość p dostarcza informacji o tym, jak niezwykły byłby ten rozmiar efektu pod hipotezą zerową, a zatem zapewnia element kalibracji wielkości efektu. Nie zrozumcie mnie źle, myślę, że czynniki Bayesa są bardziej przydatne, ale hiperbolą jest stwierdzenie, że wartość p jest bezwartościową statystyką.
Dikran Torbacz
3
„Uważam, że wszystkie wzorce, które zauważam (i inne) są warte wspomnienia” to właśnie problem pojawia się w dyskusji na temat klimatu na blogach, ludzkie oko bardzo dobrze widzi wzorce w danych, które okazują się po prostu szumem, i sprawia, że ​​stosunek sygnału do szumu w debacie wcale nie jest dobry, nie przeszkadza pomysłowi przed opublikowaniem go na blogu! Jest to jedna dziedzina nauki, w której statystyki są często bardzo słabe.
Dikran Torbacz
2
Livid, podałem konkretny przykład tego, gdzie przeprowadzenie odpowiedniego NHST przy użyciu „słomianego człowieka” H0 byłoby korzystne w dyskusji na temat tematu naukowego. Który zapewnia wyraźny kontrprzykład, który pokazuje swój pogląd jest nieprawidłowy - NHSTs, jako błędną, ponieważ są one, czy mimo to wykonać pożyteczną funkcję w dziedzinie nauki i statystyk. Teraz, jeśli potrafisz wykazać, że mój kontrprzykład jest poprawny, może to pomóc w rozwiązaniu problemu.
Dikran Marsupial
2
@Livid, NHST wykonuje naukowo i statystycznie, nie społecznie pożądaną funkcję (choć nie optymalnie) i nie stanowi arbitralnej przeszkody, przeszkodę określa się na ogół przez jej sprzeciw wobec H1 i nie wymaga ona „potwierdzania konsekwencji” błędy ”, ponieważ odrzucenie H0 nie oznacza, że ​​H1 jest prawdą. Więc nie, to nie jest dokładne.
Dikran Torbacz
3
Brakuje Ci sensu. Jeśli masz małą przeszkodę, nikt nie będzie zaskoczony, jeśli uda ci się ją pomyślnie wynegocjować. Jednak jeśli masz małą przeszkodę, ale nadal nie możesz jej pokonać, to coś ci mówi. Jak wielokrotnie powtarzałem, odrzucenie wartości zerowej nie oznacza, że ​​H1 jest prawdą, więc odrzucenie H0 nie oznacza, że ​​zdecydowanie jest przerwa, nie mówi, dlaczego nastąpiła przerwa. Ale jeśli nie możesz pokonać przeszkody, jaką jest możliwość odrzucenia H0, sugeruje to, że być może nie ma wystarczających dowodów na potwierdzenie H1 jako faktu (co dzieje się w tym przypadku).
Dikran Marsupial