Pochodzenie progu „5 ” dla akceptacji dowodów w fizyce cząstek?

33

Wiadomości informują, że CERN ogłosi jutro, że bozon Higgsa został eksperymentalnie wykryty na podstawie dowodów 5 . Zgodnie z tym artykułem:σ

5 oznacza 99,99994% szansy, że dane, które widzą detektory CMS i ATLAS, to nie tylko przypadkowy szum - i 0,00006% szansy, że zostali oszukani; 5 \ sigma jest niezbędna dla pewności coś być oficjalnie oznaczony naukową „odkrycie”.σσ

Nie jest to zbyt rygorystyczne, ale wydaje się, że fizycy stosują standardową metodologię statystyczną „testowania hipotez”, ustawiając α na 0.0000006 , co odpowiada z=5 (dwustronne)? Czy jest jakieś inne znaczenie?

W większości nauk oczywiście ustawienie alfa na 0,05 odbywa się rutynowo. Byłoby to równoważne z dowodami „two- σ ”, chociaż nigdy nie słyszałem, by tak się to nazywało. Czy istnieją inne dziedziny (oprócz fizyki cząstek), w których znacznie bardziej rygorystyczna jest definicja alfa? Czy ktoś zna odniesienie do tego, jak fizyka cząstek przyjęła zasadę pięciu σ ?

Aktualizacja: zadaję to pytanie z prostego powodu. Moja książka Intuicyjna biostatystyka (jak większość książek ze statystykami) zawiera sekcję, która wyjaśnia, jak arbitralna jest zwykła reguła „P <0,05”. Chciałbym dodać ten przykład dziedziny naukowej, w której potrzebna jest znacznie (znacznie!) Mniejsza wartość . Ale jeśli przykład jest w rzeczywistości bardziej skomplikowany, z wykorzystaniem metod bayesowskich (jak sugerują niektóre komentarze poniżej), to nie byłby trafny lub wymagałby znacznie więcej wyjaśnień.α

Harvey Motulsky
źródło
2
Słyszałeś kiedyś o „Six Sigma” ?
Daniel R Hicks
W kontroli jakości bierze się pod uwagę sześć sigma, co Daniel sugeruje swoim pytaniem / uwagą. Wszystkie te prawdopodobieństwa odrzucenia zakładają próbkowanie z rozkładu normalnego, a prawdopodobieństwo ogona może być większe dla innych rozkładów. Używanie takich ekstremów jak 5 lub 6 sigma może być użyteczne tylko w szczególnych okolicznościach. W praktyce wielkość próby i zmienność danych sprawiają, że wnioskowanie powyżej 2 lub 3 sigma jest niemożliwe.
Michael R. Chernick
1
Zasadniczo większość fizyków cząstek czuje się bardziej komfortowo z ideami bayesowskimi podczas obliczania parametrów, więc są w rzeczywistości „ pewni, biorąc pod uwagę dane i a priori, że sygnał Higgsa nie jest równy zero”, co z pewnością różni się od stwierdzenia, że ​​istnieje jest tylko „0,01 procent szansy, że sygnał będzie szumem losowym” (istnieją także nielosowe wahania wynikające z systematyki!) [1]: physics.stackexchange.com/questions/8752/…X%
Néstor
3
@ Néstor: Teraz oglądam transmisję na żywo konferencji prasowej Higgsa i nikt nie wspomina o interpretacjach bayesowskich. używane są „wartości p” i „poziom istotności”, ale tylko okropnie błędnie poinformowany Bayesian zinterpretowałby je jako prawdopodobieństwo, że sygnał jest szumem losowym. Myślę, że tekst cytatu w pytaniu PO jest po prostu błędną interpretacją tego, czym tak naprawdę jest wartość p.
MånsT
1
BTW, napisałem na swoim blogu post na ten temat: randomastronomy.wordpress.com .
Néstor

Odpowiedzi:

13

W większości zastosowań statystyki jest taki stary kasztan o „wszystkie modele są złe, niektóre są przydatne”. W takim przypadku spodziewalibyśmy się, że model będzie działał tylko na danym poziomie, ponieważ opisujemy niewiarygodnie skomplikowany proces przy użyciu prostego modelu.

Fizyka jest bardzo różna, dlatego intuicja opracowana na podstawie modeli statystycznych nie jest tak właściwa. W fizyce, w szczególności w fizyce cząstek, która zajmuje się bezpośrednio podstawowymi prawami fizycznymi, model naprawdę powinien być dokładnym opisem rzeczywistości. Każde odstępstwo od tego, co przewiduje model, musi być całkowicie wyjaśnione hałasem eksperymentalnym, a nie ograniczeniem modelu. Oznacza to, że jeśli model jest dobry i poprawny, a aparat eksperymentalny zrozumiał, istotność statystyczna powinna być bardzo wysoka, stąd ustawiony wysoki słupek.

Drugi powód jest historyczny, społeczność fizyki cząstek została w przeszłości spalona przez „odkrycia” o niższym poziomie istotności, które później zostały wycofane, a zatem są one teraz bardziej ostrożne.

Bogdanovist
źródło
1
Czy zgadzasz się, że fizyka stosuje standardowe testy hipotez statystycznych z bardzo niskim poziomem alfa (w tym przypadku w każdym razie). A może używają jakiegoś rodzaju bayesowskiego podejścia, jak Nestor powiedział w komentarzu powyżej?
Harvey Motulsky
2
Rozumiem po rozmowie z niektórymi osobami, które znam, które pracują w ATLAS, że analiza jest bardzo Bayesowska. Są to jednak faceci niższego poziomu (tj. Ci, którzy faktycznie wykonują pracę). Nie zdziwiłoby mnie to, gdyby niektóre mówiące głowy wyżej w łańcuchu słabiej rozumiały interpretację. To powiedziawszy, prezentacja wyników LHC była dość słaba i tak naprawdę nie okazała się tak bardzo Bayesowska, jak zauważyli inni.
Bogdanovist
2
Zawsze uważałem, że w szczególności fizyka cząstek poradziła sobie z miliardami zdarzeń, więc musisz ustawić poprzeczkę bardzo wysoko.
Wayne
11

Historia i pochodzenie

Według Roberta D Cousins 1 i Tommaso Dorigo 2 , pochodzenie pochodzenia progowego 5 σ leży we wczesnych pracach fizyki cząstek w latach 60., kiedy badano liczne histogramy eksperymentów rozpraszania i poszukiwano pików / uderzeń, które mogłyby wskazywać na pewną nowo odkrytą cząsteczkę . Próg jest surową regułą uwzględniającą wiele dokonywanych porównań.125σ

Obaj autorzy odnoszą się do artykułu z Rosenfeld 3 z 1968 r. , Który dotyczył pytania, czy istnieją odległe mezony i bariony, dla których mierzono kilka efektów 4 σ . Artykuł odpowiedział negatywnie na to pytanie, argumentując, że liczba opublikowanych oświadczeń odpowiada statystycznie oczekiwanej liczbie wahań. Wraz z kilkoma obliczeniami popierającymi ten argument artykuł promował użycie poziomu 5 σ :34σ5σ

Rosenfeld: „Zanim przejdziemy do badania daleko poza widm masowych gdzie guzki zostały zgłoszone w (Kππ)3/2,(πρ) powinniśmy najpierw zdecydować, co próg istotności na zapotrzebowanie w 1968 roku chcę aby pokazać wam, że chociaż eksperymentatorzy prawdopodobnie powinni zauważyć efekty 3σ , teoretycy i fenomenolodzy powinni poczekać, aż efekt osiągnie >4σ . ”

a później w artykule (nacisk jest mój)

Rosenfeld: „Następnie, aby powtórzyć moje ostrzeżenie na początku tego rozdziału; generujemy co najmniej 100 000 potencjalnych guzów rocznie i powinniśmy oczekiwać kilku wahań 4σ i setek 3σ . Jakie są implikacje? Dla teoretyka lub fenomenologa morał jest prosty; poczekaj na efekty 5σ . ”

Tommaso wydaje się uważać, twierdząc, że zaczęło się od artykułu Rosenfelda

Tommaso: „Należy jednak zauważyć, że artykuł został napisany w 1968 r., Ale w latach siedemdziesiątych i osiemdziesiątych nie przyjęto ścisłego kryterium pięciu standardowych odchyleń w odniesieniu do wniosków o odkrycie. Na przykład nie zastosowano takiego kryterium, jak kryterium pięciu sigma za odkrycie bozonów W i Z, które zdobyły Nagrodę Nobla w dziedzinie fizyki Rubbii i Van der Meerowi w 1984 r. ”

5σ4

Schneider: „Często„ poziomy ufności ”wynoszące 95% lub 99% są podawane dla pozornie rozbieżnych danych, ale są to tylko dwa lub trzy sigmy statystyczne. Nauczono mnie nie wierzyć w mniej niż pięć sigma , co jeśli myślisz jest to absurdalnie surowe wymaganie --- coś w rodzaju poziomu ufności 99,9999%. Ale oczywiście taki limit jest stosowany, ponieważ rzeczywisty rozmiar sigmy prawie nigdy nie jest znany. W astronomii jest po prostu zbyt wiele wolnych zmiennych, które możemy nie kontroluj lub nie wiem o ”.

4σ5σ5

Franklin: Wydaje się, że do 2003 r. Obowiązywało kryterium 5-odchylenia standardowego dla „obserwacji”

...

Członek współpracy BaBar przypomina, że ​​mniej więcej w tym czasie redaktorzy „ Physical Review Letters” wydali kryterium 5-sigma


Nowoczesne zastosowanie

5σ67

Z=55σ2.87×107

5σ

  • 5σ3σ4σ

  • 5σ

  • σσσ6σ

  • 5σ

5σ8,912


Inne pola

Warto zauważyć, że wiele innych dziedzin naukowych nie ma podobnych progów lub w jakiś sposób nie zajmuje się tym problemem. Wyobrażam sobie, że ma to trochę sensu w przypadku eksperymentów z ludźmi, w których przedłużenie eksperymentu o wartości 0,05 lub 0,01 jest bardzo kosztowne (lub niemożliwe).

1011


  1. Cousins, RD (2017). Paradoks Jeffreysa-Lindleya i kryteria odkrycia w fizyce wysokich energii. Synthese, 194 (2), 395–432. link arxiv

  2. Dorigo, T. (2013) Demystifying The Five-Sigma Criterion, from science20.com 2019-03-07

  3. Rosenfeld, AH (1968). Czy są jakieś odległe mezony lub bariony? źródło internetowe: escholarship

  4. Burbidge, G., Roberts, M., Schneider, S., Sharp, N., i Tifft, W. (1990, listopad). Dyskusja panelowa: Problemy związane z Redshift. W publikacji konferencji NASA (t. 3098, s. 462). link do kserokopii na harvard.edu

  5. Franklin, A. (2013). Przesuwające się standardy: eksperymenty z fizyki cząstek elementarnych w XX wieku. University of Pittsburgh Press.

  6. Co oznacza sigma 5? od physics.org 2019-03-07

  7. Beringer, J., Arguin, JF, Barnett, RM, Copic, K., Dahl, O., Groom, DE, ... i Yao, WM (2012). Przegląd fizyki cząstek elementarnych. Przegląd fizyczny Cząstki D, pola, grawitacja i kosmologia, 86 (1), 010001. (sekcja 36.2.2. Testy istotności, strona 394, link aps.org )

  8. Lyons, L. (2013). Odkrywanie znaczenia 5 sigma. nadruk arXiv arXiv: 1310.1284. link arxiv

  9. Lyons, L. (2014). Zagadnienia statystyczne w poszukiwaniu nowej fizyki. arXiv preprint link arxiv

  10. Baker, M. (2015). Ponad połowa badań psychologicznych nie przejdzie testu odtwarzalności. Wiadomości natury. z nature.com 2019-03-07

  11. Horton, R. (2015). Offline: czym jest sigma 5 medycyny ?. The Lancet, 385 (9976), 1380. z thelancet.com 2019-03-07

Sextus Empiricus
źródło
4

Z zupełnie innych powodów niż fizyka istnieją inne dziedziny o znacznie bardziej rygorystycznych cechach, gdy biorą udział w testowaniu hipotez. Wśród nich znajduje się epidemia genetyczna, szczególnie gdy używają „GWAS” (Genome-Wide Association Association) do badania różnych markerów genetycznych chorób.

Ponieważ badanie GWAS jest ogromnym ćwiczeniem w testowaniu wielu hipotez, najnowocześniejsze techniki analizy są oparte na znacznie bardziej rygorystycznych wartościach alfa niż 0,05. Inne takie techniki badań „przesiewowych kandydatów”, które następują po badaniach genomicznych, prawdopodobnie zrobią to samo.

Fomite
źródło
2
To tylko małe lokalne αs. W GWAS nadal występuje ogólny błąd typu I wynoszący 5% za twierdzenie o sukcesie, którego nie ma w rzeczywistości.
Horst Grünbusch,