Akceptacja hipotezy zerowej

15

To jest pytanie do dyskusji na temat skrzyżowania statystyki i innych nauk. Często napotykam ten sam problem: badacze w mojej dziedzinie twierdzą, że nie ma żadnego efektu, gdy wartość p jest nie mniejsza niż poziom istotności. Na początku często odpowiadałem, że nie tak działa testowanie hipotez. Biorąc pod uwagę, jak często pojawia się to pytanie, chciałbym omówić ten problem z bardziej doświadczonymi statystykami.

Rozważmy ostatni artykuł w czasopiśmie naukowym z „najlepszej grupy wydawniczej” Nature Communications Biology (istnieje wiele przykładów, ale skupmy się na jednym)

Badacze interpretują nieistotny statystycznie wynik w następujący sposób:

W ten sposób przewlekłe umiarkowane ograniczenie kalorii może przedłużyć życie i poprawić zdrowie naczelnych, ale wpływa na integralność istoty szarej mózgu bez wpływu na zdolności poznawcze .

Dowód:

Jednak wyniki w zadaniu labiryntu Barnesa nie różniły się między zwierzętami kontrolnymi i ograniczonymi kaloriami (LME: F = 0,05, p = 0,82; ryc. 2a). Podobnie, zadanie polegające na spontanicznej przemianie nie ujawniło żadnej różnicy między zwierzętami kontrolnymi a ograniczonymi kaloriami (LME: F = 1,63, p = 0,22; ryc. 2b).

Autorzy sugerują również wyjaśnienie braku efektu - ale kluczowym punktem nie jest wyjaśnienie, ale samo twierdzenie. Przedstawione wykresy wyglądają dla mnie znacznie inaczej „na oko” (ryc. 2).

Ponadto autorzy ignorują wcześniejszą wiedzę:

zgłaszano szkodliwe skutki ograniczenia kalorii na sprawność poznawczą szczurów oraz funkcje mózgowe i emocjonalne u ludzi

Rozumiem to samo twierdzenie dla ogromnych rozmiarów próbek (brak efektu = brak praktycznie znaczącego efektu), ale w konkretnej sytuacji zastosowano złożone testy i nie jest dla mnie oczywiste, jak wykonać obliczenia mocy.

Pytania:

  1. Czy przeoczyłem jakieś szczegóły, które czynią ich wnioski ważnymi?

  2. Biorąc pod uwagę potrzebę zgłaszania negatywnych wyników w nauce, jak udowodnić, że nie jest to „brak wyniku” (który mamy przy ), ale „wynik ujemny (np. Nie ma różnicy między grupami)” przy użyciu Statystyka? Rozumiem, że w przypadku dużych rozmiarów próbek nawet niewielkie odchylenia od wartości zerowej powodują odrzucenie, ale załóżmy, że mamy idealne dane i nadal musimy udowodnić, że wartość zerowa jest praktycznie prawdziwa.p>α

  3. Czy statystycy powinni zawsze nalegać na matematycznie poprawne wnioski, takie jak „mając tę ​​moc, nie byliśmy w stanie wykryć znacznego efektu”? Naukowcy z innych dziedzin zdecydowanie nie lubią takich sformułowań negatywnych wyników.

Z przyjemnością usłyszę wszelkie przemyślenia na temat problemu oraz przeczytałem i zrozumiałem powiązane pytania na tej stronie. Odpowiedź na pytania 2) -3) jest jasna z punktu widzenia statystyki, ale chciałbym zrozumieć, w jaki sposób należy odpowiedzieć na te pytania w przypadku dialogu interdyscyplinarnego.

UPD: Myślę, że dobrym przykładem negatywnego wyniku jest pierwszy etap badań medycznych, bezpieczeństwo. Kiedy naukowcy mogą zdecydować, że lek jest bezpieczny? Myślę, że porównują dwie grupy i robią statystyki dotyczące tych danych. Czy można powiedzieć, że ten lek jest bezpieczny? Cochrane stosuje dokładne „nie stwierdzono żadnych skutków ubocznych”, ale lekarze twierdzą, że ten lek jest bezpieczny. Kiedy zachodzi równowaga między dokładnością a prostotą opisu i możemy powiedzieć „nie ma to wpływu na zdrowie”?

Niemiecki Demidow
źródło
2
Wyniki, które nie są istotne statystycznie, nazywacie badaniem „negatywnym”. To jest defensywny język. Zmieniłem go, aby nazwać go takim, jakim jest: statystycznie nieistotny, np. . Jeśli się mylę, proszę powiedz mi jak. W przeciwnym razie jest to przydatny język dla ciebie i twoich współpracowników do opisu badania. p > α oznacza tylko, że p > α . Jeżeli n = 500 , 000 , które mogą być bardzo „pozytywne” znaleźć w niektórych aspektach; być może jest to pierwsze zakrojone na szeroką skalę badanie epidemiologiczne mające na celu sprawdzenie związku narażenia chemicznego i zdrowia człowieka, które stwierdza, że ​​jest ono rzeczywiście bezpieczne. p>αp>αp>αn=500,000
AdamO
4
Uwaga dodatkowa: Nigdy nie sugerowałbym używania Natury jako wskazówki, jak prawidłowo korzystać ze statystyk.
Cliff AB
1
@AdamO Mam przykład dwóch prac opublikowanych mniej więcej w tym samym czasie, w jednym artykule autorzy twierdzili, że wynik jest zdecydowanie negatywny (był to ich główny wniosek), w drugim, bardziej rozbudowanym badaniu, okazało się i efekt. Ale gdyby pierwszy autor napisał „mając moc 80% przy wielkości efektu 1, nie bylibyśmy w stanie znaleźć znaczącego efektu” - nie zostałby opublikowany nawet w czasopiśmie wyników negatywnych.
Niemiecki Demidov
2
ale statystycy pytają mnie „jak udowodnić negatywne wyniki?” - i nie wiem jak odpowiedzieć. Co z hipotezą często stosowaną w próbach równoważności ? Obejmuje to dodatkowy termin jako „margines równoważności” i może uwzględniać średnią różnicę.
Penguin_Knight
2
Nature Publishing Group często popełnia błąd, ale różnica w prestiżu czasopism jest ogromna. To powiedziawszy, oczywiście artykuły w samej Naturze mogą mieć niechlujne statystyki.
ameba mówi Przywróć Monikę

Odpowiedzi:

7

Myślę, że czasem właściwe jest interpretowanie wyników nieistotnych statystycznie w duchu „zaakceptuj hipotezę zerową”. W rzeczywistości widziałem statystycznie znaczące badania interpretowane w taki sposób; badanie było zbyt precyzyjne, a wyniki były zgodne z wąskim zakresem efektów innych niż zerowy, ale klinicznie nieistotnych. Oto nieco zawrotna krytyka badania (lub zresztą jego prasy) na temat związku między spożyciem czekolady / czerwonego wina a jego „zdrowym” wpływem na cukrzycę. Krzywe prawdopodobieństwa rozkładów insulinooporności przy wysokim / niskim spożyciu są histeryczne.

To, czy można interpretować wyniki jako „potwierdzające H_0”, zależy od wielu czynników: ważności badania, siły, niepewności oszacowania i wcześniejszych dowodów. Zgłaszanie przedziału ufności (CI) zamiast wartości p jest być może najbardziej użytecznym wkładem, jaki można wnieść jako statystyk. Przypominam badaczom i innym statystykom, że statystyki nie podejmują decyzji, ludzie podejmują; pominięcie wartości p faktycznie zachęca do bardziej przemyślanej dyskusji na temat wyników.

Szerokość CI opisuje zakres efektów, które mogą, ale nie muszą obejmować zero, i mogą, ale nie muszą obejmować bardzo istotnych klinicznie wartości, takich jak potencjał ratowania życia. Wąski CI potwierdza jednak jeden rodzaj efektu; albo ten drugi typ, który jest „znaczący” w prawdziwym znaczeniu, albo ten pierwszy, który może być zerowy lub coś bardzo zbliżonego do zerowego.

Być może potrzebne jest szersze pojęcie tego, czym są „wyniki zerowe” (i efekty zerowe). Rozczarowujące we współpracy badawczej jest to, że badacze nie mogą z góry określić, na jaki zakres efektów są skierowani: jeśli interwencja ma na celu obniżenie ciśnienia krwi, ile mmHg? Jeśli lek ma leczyć raka, ile miesięcy przeżyje pacjent? Ktoś, kto jest pasjonatem badań i „wpina się” w swoją dziedzinę i naukę, może podważyć najbardziej niesamowite fakty dotyczące wcześniejszych badań i tego, co zostało zrobione.

W twoim przykładzie nie mogę nie zauważyć, że wartość p 0,82 jest prawdopodobnie bardzo bliska zeru. Po tym wszystkim mogę powiedzieć, że CI jest wyśrodkowany na wartości zerowej. Nie wiem, czy obejmuje to klinicznie znaczące skutki. Jeśli CI jest bardzo wąski, to interpretacja, którą podają, jest moim zdaniem poprawna, ale dane go nie obsługują: byłoby to drobne poprawki. Natomiast druga wartość p 0,22 jest stosunkowo bliższa jej progowi istotności (cokolwiek by to nie było). Autorzy odpowiednio interpretują to jako „nie dając żadnego dowodu różnicy”, co jest zgodne z interpretacją typu „nie odrzucaj H_0”. Jeśli chodzi o znaczenie tego artykułu, niewiele mogę powiedzieć. Mam nadzieję, że przejrzysz literaturę i znajdziesz bardziej istotne dyskusje na temat wyników badań! Jeśli chodzi o analizy,

AdamO
źródło
1
Fk
pμ=μ0μμ0
Oczywiście! (i +1, jeśli nie było to jasne). Ale poważnie, powinieneś być obeznany z testami równoważności: pojawił się w epidemiologii klinicznej i biostatystyce (honorowe dziedzictwo w tej dziedzinie!), ale ma ogólne znaczenie dla wnioskowania częstych. :)
Alexis,
1
@GermanDemidov Nie zgadzam się w tych sprawach: uważam, że nie należy brać pod uwagę skomplikowanych analiz, jeśli ich skutków nie można interpretować. Oni zrobić mają interpretację. Analiza przeżycia 2. edycja autorstwa Hosmer, Lemeshow, May ma cały rozdział (4) poświęcony interpretacji wyników modelu Coxa. Niedobór testów, takich jak Shapiro, najlepiej jest rozwiązać za pomocą wykresów (co często wyklucza sam test). Statystyki ponownego próbkowania zapewniają potężne środki do obliczania współczynników CI w szerokiej gamie warunków modelowania, ale wymagają prawidłowej teorii dźwięku.
AdamO,
3
αH0
12

H0H0HAHA

Możemy jednak rozpoznać, że istnieją różne rodzaje hipotez zerowych:

  • H0:θθ0H0:θθ0

  • H0:θ=θ0H0:θθ0=0H0:θ1=θ2H0:θ1θ2=0H0+kH0+:θi=θj;i,j{1,2,k};  and ij

  • H0:|θθ0|ΔH0:|θ1θ2|ΔΔH0±Δ|Δ|kH0:|θi=θj|Δ;i,j{1,2,k};  and ij

[tost]H0+H0+, czy to dlatego, że nie ma żadnego rzeczywistego efektu, czy dlatego, że wielkość próbki była zbyt mała, a test był za słaby? Testy trafności rozwiązują te problemy bezpośrednio.

Istnieje kilka sposobów przeprowadzania testów równoważności (niezależnie od tego, czy łączy się je z testami różnicowymi):

  • Dwa jednostronne testy (TOST) przekładają ogólną negatywistyczną hipotezę zerową wyrażoną powyżej na dwie konkretne jednostronne hipotezy zerowe:
    • H01:θθ0ΔH01:θ1θ2Δ
    • H02:θθ0ΔH01:θ1θ2Δ
  • Jednorodnie najsilniejsze testy równoważności, które zwykle są znacznie bardziej wyrafinowane pod względem arytmetycznym niż TOST. Wellek jest ich ostatecznym odniesieniem.
  • Podejście oparte na przedziale ufności, jak sądzę, najpierw motywowane przez Schuirmana, a udoskonalane przez innych, takich jak Tryon.


Referencje Reagle, DP i Vinod, HD (2003). Wnioskowanie dla teorii negatywistycznej przy użyciu obliczonych numerycznie regionów odrzucenia . Statystyka obliczeniowa i analiza danych , 42 (3): 491–512.

Schuirmann, DA (1987). Porównanie procedury dwustronnych testów i podejścia opartego na mocy do oceny równoważności średniej biodostępności . Journal of Pharmacokinetics and Biopharmaceutics , 15 (6): 657–680.

Tryon, WW i Lewis, C. (2008). Metoda inferencyjnego przedziału ufności służąca do ustalenia równoważności statystycznej, która koryguje współczynnik redukcji Tryona (2001) . Metody psychologiczne , 13 (3): 272–277.

Tryon, WW i Lewis, C. (2009). Ocena niezależnych proporcji dla różnicy statystycznej, równoważności, nieokreśloności i trywialnej różnicy przy użyciu wnioskowania przedziałów ufności . Journal of Educational and Behavioral Statistics , 34 (2): 171–189.

Wellek, S. (2010). Testowanie statystycznych hipotez równoważności i nieszeregowania . Chapman and Hall / CRC Press, drugie wydanie.

Alexis
źródło
1
Ktokolwiek oddelegował mnie w głosowaniu, powinien zintensyfikować swoją opinię na temat przyczyny: powinno być jasne, że udzielam szczegółowych odpowiedzi i reaguję na opinie.
Alexis,
9

Odwołujesz się do standardowej praktyki wnioskowania nauczanej na kursach statystycznych:

  1. H0,Ha
  2. α
  3. α
  4. H0HaH0

To jest w porządku i jest używane w praktyce. Zaryzykowałbym nawet przypuszczenie, że ta procedura może być obowiązkowa w niektórych regulowanych branżach, takich jak farmaceutyki.

Nie jest to jednak jedyny sposób, w jaki statystyki i wnioskowanie stosowane są w badaniach i praktyce. Na przykład spójrz na ten artykuł : „Obserwacja nowej cząstki w poszukiwaniu bozonu Standard Model Higgs za pomocą detektora ATLAS w LHC”. Artykuł jako pierwszy przedstawił dowody na istnienie bozonu Higgsa w tak zwanym eksperymencie ATLAS. Był to także jeden z tych artykułów, w których lista autorów jest tak długa, jak jej treść :)

  • H0HaH0
  • ασ
  • α
  • prezentują przedziały ufności na zwykłych poziomach ufności, takich jak 95%

Oto jak formułowany jest wniosek: „Wyniki te dostarczają rozstrzygających dowodów na odkrycie nowej cząstki o masie 126,0 ± 0,4 (stat) ± 0,4 (sys) GeV”. Słowa „stat” odnoszą się do statystyki, a „sys” do systematycznych niepewności.

Jak więc widzicie, nie wszyscy wykonują czteroetapową procedurę, którą nakreśliłem na początku tej odpowiedzi. Tutaj naukowcy pokazują wartość p bez wcześniejszego ustalenia progu, w przeciwieństwie do tego, czego naucza się w klasach statystycznych. Po drugie, nie tańczą „odrzuć / nie odrzuć”, przynajmniej formalnie. Przystąpili do sedna i powiedzieli „oto wartość p, i dlatego mówimy, że znaleźliśmy nową cząsteczkę o masie 126 GeV”.

Ważna uwaga

Autorzy pracy Higgsa jeszcze nie zadeklarowali bozonu Higgsa. Twierdzili jedynie, że nowa cząstka została znaleziona i że niektóre jej właściwości, takie jak masa, są zgodne z bozonem Higgsa.

Zbieranie dodatkowych dowodów zajęło kilka lat, zanim ustalono, że cząstka jest rzeczywiście bozonem Higgsa. Zobacz ten post na blogu z wczesną dyskusją o wynikach. Fizycy sprawdzili różne właściwości, takie jak spin zerowy. Podczas gdy w pewnym momencie zebrano dowody, CERN oświadczył, że cząstką jest bozon Higgsa.

Dlaczego to jest ważne? Ponieważ niemożliwe jest trywializowanie procesu odkrywania naukowego do sztywnej procedury wnioskowania statystycznego. Wnioskowanie statystyczne jest tylko jednym używanym narzędziem.

Kiedy CERN szukał tej cząstki, skupiono się na jej pierwszym znalezieniu. To był ostateczny cel. Fizyk miał pomysł, gdzie spojrzeć. Po znalezieniu kandydata skupili się na udowodnieniu, że to on. Ostatecznie całość dowodów, a nie pojedynczy eksperyment z wartością p i znaczeniem, przekonał wszystkich, że znaleźliśmy cząsteczkę. Podaj tutaj całą wcześniejszą wiedzę i standardowy model . Nie jest to wyłącznie wnioskowanie statystyczne, metoda naukowa jest szersza.

Aksakal
źródło
wow, twoja odpowiedź jest świetna! to naprawdę dobry przykład. Mam nadzieję, że za maksymalnie 10 lat naukowcy zajmujący się życiem również przejdą do tego stylu raportu!
Niemiecki Demidow
5

Istnieją sposoby podejścia do tego, które nie opierają się na obliczeniach mocy (patrz Wellek, 2010). W szczególności możesz również sprawdzić, czy odrzucisz wartość zerową, że efekt ma znaczącą wartość z góry .

Daniël Lakens opowiada się w tej sytuacji za testowaniem równoważności. Lakens w szczególności używa „ TOST ” (dwa jednostronne testy) do średnich porównań, ale istnieją inne sposoby na uzyskanie tego samego pomysłu.

W TOST testujesz złożony zerowy: jednostronną hipotezę zerową, że twój efekt jest bardziej negatywny niż najmniejsza ujemna różnica zainteresowania i zerowy, że twój efekt jest bardziej pozytywny niż najmniejsza dodatnia różnica interesów. Jeśli odrzucisz oba, możesz twierdzić, że nie ma znaczącej różnicy. Pamiętaj, że może się to zdarzyć, nawet jeśli efekt różni się znacznie od zera, ale w żadnym wypadku nie wymaga zatwierdzenia wartości null.

Lakens, D. (2017). Testy równoważności: praktyczny starter do testów t , korelacji i metaanaliz . Nauka o psychologii społecznej i osobowości , 8 (4), 355–362.

Wellek, S. (2010). Testowanie statystycznych hipotez równoważności i nieszeregowania . Chapman and Hall / CRC Press, drugie wydanie.

Patrick Malone
źródło