Co jest nie tak z komiksem Frequentists vs. Bayesians z XKCD?

113

komiks xkcd nr 1132

Ten komiks xkcd (Frequentists vs. Bayesians) naśmiewa się z częstych statystyk, którzy uzyskują oczywiście błędny wynik.

Wydaje mi się jednak, że jego rozumowanie jest właściwie prawidłowe w tym sensie, że jest zgodne ze standardową metodologią częstokroć.

Więc moje pytanie brzmi: „czy on właściwie stosuje metodologię częstokroć?”

  • Jeśli nie: co byłoby prawidłowym wnioskiem częstym w tym scenariuszu? Jak włączyć „wcześniejszą wiedzę” na temat stabilności Słońca do metodologii dla częstych?
  • Jeśli tak: wtf? ;-)
odparł2
źródło
17
Dyskusja na blogu Gelmana: andrewgelman.com/2012/11/16808
Glen
5
Myślę, że wiele jest nie tak, zarówno z punktu widzenia częstych, jak i bayesowskich. Moja największa krytyka: po pierwsze, wartości P są ostatecznie heurystyką i są właściwościami wielu rzeczy, w tym problemu statystycznego, danych i eksperymentu. Tutaj wszystkie trzy są rażąco wprowadzane w błąd w odniesieniu do tego konkretnego pytania. Po drugie, „Bayesian” stosuje teoretyczne podejście, które nie musi być Bayesowskie. Ale to zabawne.
Momo
5
Aby wyjąć go ze świata statystyk ... słońce nie jest wystarczająco masywne, aby przejść do nowej. QED, Bayesian ma rację. ( Słońce zamiast tego stanie się Czerwonym Olbrzymem )
Ben Brocka,
3
@Glen i in., W szczególności zwróć uwagę na odpowiedź Randalla Munroe na Gelmana: andrewgelman.com/2012/11/16808/#comment-109366
jthetzel
2
Powodem, dla którego statystyczny częstownik jest tutaj głupi, nie jest to, że jest częstym, ale dlatego, że oczywiście wie, jak działa maszyna, dlatego wie, że jest to niewłaściwy pomiar - i i tak wnioskuje.
rvl

Odpowiedzi:

44

Główny problem polega na tym, że pierwszy eksperyment (Sun Gone Nova) nie jest powtarzalny, co czyni go wysoce nieodpowiednim dla metodologii częstych, która interpretuje prawdopodobieństwo jako oszacowanie tego, jak często zdarzenie daje możliwość wielokrotnego powtarzania eksperymentu. Natomiast prawdopodobieństwo bayesowskie interpretowane jest jako nasz stopień przekonania, dający całą dostępną wcześniejszą wiedzę, dzięki czemu nadaje się do zdrowego rozsądku w odniesieniu do zdarzeń jednorazowych. Eksperyment z rzutem kostką jest powtarzalny, ale uważam, że jest bardzo mało prawdopodobne, aby jakikolwiek lobbysta umyślnie zignorowałby wpływ pierwszego eksperymentu i był tak pewny znaczenia uzyskanych wyników.

Chociaż wydaje się, że autor kpi z częstego polegania na powtarzalnych eksperymentach i nieufności wobec aureoli, nadając nieodpowiedni układ eksperymentalny metodologii częstokroć, powiedziałbym, że prawdziwym tematem tego komiksu nie jest metodologia częstokroć, ale ślepe stosowanie niewłaściwej metodologii w ogóle. To, czy to będzie śmieszne, czy nie, zależy od ciebie (dla mnie to jest), ale myślę, że bardziej wprowadza w błąd niż wyjaśnia różnice między tymi dwoma podejściami.

Matija Piskorec
źródło
1
(+1) Miłym odniesieniem do tego mocnego i kluczowego założenia powtarzalności w częstości jest Statyczne wnioskowanie w nauce (2000) , rozdział 1. (Chociaż jest tak wiele zagadnień, że trudno jest stwierdzić, który z nich jest główny )
36
Nie tak szybko z argumentem powtarzalności ... Po pierwsze, eksperyment, który jest powtarzalny jest zapytań o nie maszyny zachodzące Nova prawdy , że jest ustalona, ale nieznany przedmiot wnioskowania. Eksperyment kwerendy można z pewnością powtórzyć, a gdyby był jeszcze kilka razy, strategia częstokroć mogłaby wydawać się rozsądna.
conjugateprior
6
Po drugie, i tak nie należy zbyt rygorystycznie podchodzić do kwestii powtarzalności, aby grożący nie utknęli w niemożności wnioskowania w ogóle w sytuacjach nieeksperymentalnych. Załóżmy przez chwilę, że „słońce idzie nova” było wydarzeniem kandydującym. Nie jestem fizykiem, ale powiedziano mi, że wydarzenie „słońce przechodzi w nową” zdarza się dość często (po prostu tutaj nie tak wiele), więc brzmi to jak powtórzenie. W każdym razie ludzie tacy jak David Cox (w „Podstawach statystyki”) wesoło mówią takie rzeczy: „rozważane powtórzenia są prawie zawsze hipotetyczne . To samo w sobie nie wydaje się wadą”.
conjugateprior
7
Możemy postrzegać słońce jako losową próbkę z populacji słońc w równoległych wszechświatach, w których moglibyśmy w zasadzie powtórzyć eksperyment, gdybyśmy tylko mieli lustro kwantowe! ; o)
Dikran Torbacz
2
Dlaczego sprawdzanie, czy słońce eksploduje, nie jest powtarzalne? Sprawdzam codziennie rano, ale jeszcze się nie wysadził.
GKFX
27

Z tego, co widzę, częsty kawałek jest jak dotąd rozsądny:

H0H1H0H0

H1H0H0H1

Bayesian jest również zdrowym rozsądkiem, zauważając, że zakład nie ma nic do stracenia. Jestem pewien, że częste podejście, gdy uwzględni się fałszywie dodatnie i fałszywie ujemne koszty (Neyman-Peason?) Wyciągnie ten sam wniosek, co do najlepszej strategii pod względem długoterminowego zysku.

Podsumowując: Zarówno częsty, jak i Bayesian są tutaj niechlujni: Częstotliwy za ślepe przestrzeganie przepisu bez uwzględnienia odpowiedniego poziomu znaczenia, fałszywie dodatnich / fałszywie ujemnych kosztów lub fizyki problemu (tj. Nie stosując zdrowego rozsądku) . Bayesian jest niechlujny, ponieważ nie wypowiada się wyraźnie o swoich przeorach, ale z drugiej strony, używając zdrowego rozsądku, przeorowie, których używa, są oczywiście poprawne (bardziej prawdopodobne jest, że maszyna leży, niż słońce faktycznie eksplodowało), niechlujność jest być może usprawiedliwiona.

Dikran Torbacz
źródło
4
Odrzucenie hipotezy zerowej oznacza po prostu, że obserwacja byłaby mało prawdopodobna, gdyby H0 były prawdziwe. Nie powinieneś „akceptować” H1 na tej podstawie, ponieważ zasadniczo mówi, że H1 musi być prawdą, ponieważ obserwacje byłyby mało prawdopodobne, gdyby H0 było prawdziwe. Jednak obserwacje mogą być również mało prawdopodobne w przypadku H1 (który rytuał zerowy ignoruje), a H1 może być mniej prawdopodobne niż H0 a priori (który rytuał zerowy również ignoruje). Przyjmowanie hipotez jest śliskim krokiem w kierunku interpretacji testu częstokroć jako testu bayesowskiego, co zwykle skutkuje nieporozumieniami w mniej elementarnych przypadkach.
Dikran Torbacz
4
Natknąłem się na twój komentarz. I mam to samo pytanie, które miał @glassy. Chciałbym sprzeciwić się twojemu komentarzowi, że jeśli twoje hipotezy obejmują całą przestrzeń wydarzeń, oto {„Słońce poszło nowe”, „Słońce nie poszło nowe”}, mam trudności ze zrozumieniem, jak możesz odrzucić „ „Słońce poszło nowe” nie prowadzi automatycznie do „Słońce nie poszło nowe”. Uznanie twierdzenia za fałszywe oznacza, że ​​jego negacja musi być prawdziwa. Byłoby wspaniale, gdybyś dostarczył wiarygodny tekst referencyjny, w którym ten punkt jest wyjaśniony, jeśli to możliwe. Byłbym zainteresowany dowiedzieć się więcej na ten temat.
oznacza, co oznacza
3
Odrzucenie hipotezy zerowej nie oznacza automatycznie, że hipoteza zerowa jest prawdopodobnie fałszywa, po prostu rozsądne jest kontynuowanie alternatywnej hipotezy. Jest tak (częściowo), ponieważ test hipotezy częstości nie uwzględnia wcześniejszych prawdopodobieństw hipotez. Zasadniczo nie można zastosować metod częstych do przypisania prawdopodobieństwa prawdziwości jakiejkolwiek konkretnej hipotezy, więc związek między „możemy odrzucić hipotezę zerową” a „hipotezą zerową jest prawdopodobnie fałszywa” jest całkowicie subiektywny, o ile Widze.
Dikran Marsupial
2
To w pewnym sensie moja decyzja, czy akceptujemy H1, jest subiektywna i nie jest konieczną konsekwencją wyniku testu „odrzucenie H0 zwykle prowadzi do zaakceptowania H1”. Problem polega na tym, że informacje potrzebne do podjęcia decyzji [P (H0), P (H1), P (Z | H1)] nie pojawiają się w teście. Zasadniczo niektóre z tych informacji są częściowo uwzględnione przy ustalaniu progu, ale jest to na ogół niekompletne i często pozostaje nieokreślone i nieuzasadnione. Przeorowie wciąż są obecni w częstych testach, równie subiektywnych, ale pozostawionych domyślnie - najgorszy z obu światów! ; o)
Dikran Torbacz
3
α
25

Dlaczego ten wynik wydaje się „zły”? Bayesian powiedziałby, że wynik wydaje się sprzeczny z intuicją, ponieważ mamy „wcześniejsze” przekonania o tym, kiedy słońce eksploduje, a dowody dostarczone przez tę maszynę nie są wystarczające, aby zmyć te przekonania (głównie z powodu niepewności z powodu rzut monetą). Ale częsty jest w stanie dokonać takiej oceny, po prostu musi to zrobić w kontekście danych, w przeciwieństwie do przekonań.

Prawdziwym źródłem paradoksu jest fakt, że przeprowadzany częsty test statystyczny nie uwzględnia wszystkich dostępnych danych. W komiksie nie ma problemu z analizą, ale wynik wydaje się dziwny, ponieważ wiemy, że słońce najprawdopodobniej nie wybuchnie przez długi czas. Ale JAK to wiemy? Ponieważ wykonaliśmy pomiary, obserwacje i symulacje, które mogą ograniczyć czas wybuchu słońca. Zatem nasza pełna wiedza powinna uwzględniać te pomiary i punkty danych.

W analizie bayesowskiej odbywa się to za pomocą tych pomiarów do skonstruowania przeoratu (chociaż procedura przekształcenia pomiarów w przeorat nie jest dobrze zdefiniowana: w pewnym momencie musi istnieć wstępny przeor, w przeciwnym razie „wszystko żółwie” droga w dół ”). Tak więc, kiedy Bayesian używa swojego przeora, naprawdę bierze pod uwagę wiele dodatkowych informacji, których analiza wartości p częstego nie jest wtajemniczona.

Tak więc, aby pozostać na równi, pełna częsta analiza problemu powinna zawierać te same dodatkowe dane dotyczące wybuchu słońca, które są używane do konstruowania wcześniejszego bayesowskiego. Ale zamiast używać priorów, częsty zwyczajny po prostu zwiększyłby prawdopodobieństwo, że użyje tych innych pomiarów, a jego wartość p obliczono by na podstawie tego pełnego prawdopodobieństwa.

L=LL

Pełna analiza częstokroć wykazałaby najprawdopodobniej, że druga część prawdopodobieństwa będzie znacznie bardziej ograniczająca i będzie dominującym wkładem w obliczanie wartości p (ponieważ mamy wiele informacji na temat słońca i błędów w tych informacjach. są małe (mam nadzieję)).

Praktycznie nie trzeba wychodzić i zbierać wszystkich punktów danych uzyskanych w ciągu ostatnich 500 lat, aby wykonać częste obliczenia, można je zbliżyć jako prosty termin prawdopodobieństwa, który koduje niepewność, czy słońce eksplodowało, czy nie. Stanie się to wtedy podobne do przeora Bayesa, ale jest nieco inne filozoficznie, ponieważ jest to prawdopodobieństwo, co oznacza, że ​​koduje niektóre poprzednie pomiary (w przeciwieństwie do przejęcia, które koduje pewne przekonanie a priori). Ten nowy termin stanie się częścią prawdopodobieństwa i będzie używany do budowania przedziałów ufności (lub wartości p lub cokolwiek innego), w przeciwieństwie do bayesowskiego przeora, który jest integrowany w celu utworzenia wiarygodnych przedziałów lub późniejszych.

GeorgeLewis
źródło
1
To powinna być zaakceptowana lub najczęściej głosowana odpowiedź.
Amelio Vazquez-Reina
11

ptTProb[Tt|H0]Tχ2p0,1/36,2/36,

Oczywiście to „częste” podejście jest nienaukowe, ponieważ wynik będzie trudny do odtworzenia. Gdy Słońce przejdzie do supernowej, pozostanie supernową, więc detektor powinien ciągle powtarzać „Tak”. Jednak ponowne uruchomienie tego komputera raczej nie przyniesie wyniku „Tak”. Uznaje się to w obszarach, które chcą się przedstawić jako rygorystyczne i starają się odtworzyć swoje wyniki eksperymentów ... co, o ile rozumiem, dzieje się z prawdopodobieństwem pomiędzy 5% (opublikowanie oryginalnej pracy było błędem czystego typu I) i gdzieś około 30-40% w niektórych dziedzinach medycyny. Ludzie z metaanalizy mogą wypełnić cię lepszymi liczbami, to tylko szum, który od czasu do czasu napotyka mnie poprzez wykres statystyk.

Innym problemem z „właściwej” perspektywy częstokroć jest to, że rzucenie kostką jest najsłabszym testem, z mocą = poziomem istotności (jeśli nie niższym; 2,7% mocy dla poziomu 5% istotności nie ma się czym chwalić). Teoria Neymana-Pearsona dla testów T boleje nad wykazaniem, że jest to UMPT, a wiele teorii statystycznych o wysokim czole (które ledwo rozumiem, muszę przyznać) poświęca się wyprowadzaniu krzywych mocy i znajdowaniu warunków, gdy dane test jest najmocniejszy w danej klasie. (Kredyty: @Dikran Marsupial wspomniał o kwestii władzy w jednym z komentarzy).

Nie wiem, czy ci to przeszkadza, ale statystyki bayesowskie pokazane są tutaj jako facet, który nie zna matematyki i ma problem z hazardem. Właściwy statystyki bayesowskie postulowałby przeor, omawiałby stopień obiektywności, wyprowadził z tyłu i wykazał, jak wiele nauczył się z danych. Nic z tego nie zostało zrobione, więc proces bayesowski został uproszczony tak samo jak częsty.

Ta sytuacja pokazuje klasyczne badania przesiewowe w kierunku raka (i jestem pewien, że biostatystycy mogą to lepiej opisać). Podczas badań pod kątem rzadkiej choroby za pomocą niedoskonałego instrumentu większość wyników dodatnich okazuje się fałszywych. Inteligentni statystycy wiedzą o tym i wiedzą, jak śledzić tanie i brudne przesiewacze za pomocą droższych i dokładniejszych biopsji.

StasK
źródło
2
Jeśli dobrze rozumiem twój pierwszy akapit, mówisz, że próg (w komiksie 0,05) jest ustawiony zbyt wysoko. Gdyby komiks miał pięć kości zamiast dwóch, czy zaakceptowałbyś próg jako wystarczająco niski? Jak w ogóle decydujesz o progu?
ShreevatsaR
9
Myślałem, że statystyk bayesowski po prostu wziął pod uwagę, że szanse eksplozji słońca są znacznie, dużo mniejsze niż szanse leżącej maszyny (więc niekoniecznie nieświadomy hazardzista).
josh
8
Co więcej: JEŻELI słońce zajdzie w Nową, zwycięzca zakładu nie będzie w stanie
zrealizować
6
Myślę, że chodzi o to, że statystycy często przestrzegają przepisu, nie myśląc o prawdziwym celu analizy. Tak zwany „Bayesian” tak naprawdę nie jest Bayesianinem, tylko ktoś posługujący się zdrowym rozsądkiem. W czasopismach naukowych istnieje wiele przykładów ślepych przepisów, dlatego ta kreskówka jest zabawna.
Dikran Marsupial
3
Brak statystyk testowych nie może być problemem, nie sądzę. Statystyka testowa to tylko jedna z funkcji danych. Tak więc funkcja tożsamości, czyli tutaj sama baza danych, wydaje się działać, przynajmniej w zasadzie.
conjugateprior
6

Nie ma nic złego w tym komiksie, a powód nie ma nic wspólnego ze statystykami. To ekonomia. Jeśli częsty ma rację, Ziemia będzie równoznaczna z niezamieszkaniem w ciągu 48 godzin. Wartość 50 USD będzie faktycznie zerowa. Bayesian, uznając to, może sprawić, że zakład będzie wiedział, że jego korzyść wynosi 50 USD w normalnym przypadku, a marginalnie nic w przypadku eksplozji słońca.

Tony Boyles
źródło
Ma to „coś wspólnego ze statystykami”, ponieważ statystyki bayesowskie wyraźnie modelują to jako „minimalizowanie funkcji straty”;)
Fabio Beltramini,
5

Teraz, gdy CERN zdecydował, że neutrina nie są szybsze od światła - front uderzenia promieniowania elektromagnetycznego uderzyłby w ziemię, zanim zauważona zostanie zmiana neutrin. Miałoby to przynajmniej (w bardzo krótkim okresie) spektakularne efekty zorzy. Zatem fakt, że jest ciemno, nie zapobiegłby rozświetleniu nieba; księżyc z nadmiernie jasnego światła (por. „Niestały księżyc” Larry'ego Niven'a) i spektakularne błyski, gdy sztuczne satelity zostały odparowane i uległy samozapłonowi.

W sumie - może zły test? (I chociaż mogło być wcześniej - nie byłoby wystarczająco dużo czasu na realistyczne określenie tylnej pozycji.

SimonN
źródło
1
Tym bardziej zatem należy odrzucić hipotezę, że słońce eksplodowało. :-)
ShreevatsaR
Więc to ma na myśli na końcu artykułu, gdy autorzy mówią: „potrzebne są badania potwierdzające”?
DW
Właściwie, od czasu do czasu powracając do tego, jasne wnioskowanie znajduje się w tytule. Maszyna wykrywa, czy słońce zaszło już w nową. Nie ma szans na błąd w wykryciu. Bit neutrino jest nieistotny. Biorąc to pod uwagę, statystyki są takie, że maszyna odpowie „nie”, „nie”, „nie” ... z szansą 1/36 bycia fałszywym stwierdzeniem (tak), aż do jednorazowego zdarzenia kończącego statystyki proces zachodzi - będzie to również miało 1/36 szansy na fałszywe zgłoszenie (nie), jeśli maszyna zostanie zapytana w ciągu 8 nieparzystych minut, których potrzeba, aby stać się widocznym na ziemi.
SimonN
4

Zgadzam się z @GeorgeLewis, że stwierdzenie, że częste podejście jest błędne, może być przedwczesne - po prostu ponownie uruchom detektor neutrino kilka razy, aby zebrać więcej danych. Nie musisz zadzierać z priorami.

RobertF
źródło
2

Prostszym punktem, który można zgubić wśród wszystkich pełnych odpowiedzi tutaj, jest to, że częsty jest przedstawiony jako wyciągający wnioski na podstawie pojedynczej próbki. W praktyce nigdy byś tego nie zrobił.

Osiągnięcie prawidłowego wniosku wymaga statystycznie istotnej wielkości próby (lub innymi słowy, nauka musi być powtarzalna). W praktyce więc częstokroć uruchamiałby maszynę wiele razy, a następnie dochodził do wniosku na temat uzyskanych danych.

Przypuszczalnie wiązałoby się to z kilkukrotnym zadaniem maszynie tego samego pytania. I przypuszczalnie, jeśli maszyna jest w błędzie 1 na 36 razy, pojawi się wyraźny wzór. I z tego wzorca (a nie z jednego czytania) częsty wyciągnie (dość dokładny, powiedziałbym) wniosek, czy słońce eksplodowało, czy nie.

aroth
źródło
4
Co rozumiesz przez „statystycznie istotny rozmiar próby”?
Momo
@Momo - Na pewno więcej niż jedna próbka. Nie jest ważne obserwowanie nieprawdopodobnego wyniku, a następnie wyciąganie wniosków, że nieprawdopodobne wydarzyło się bez uprzedniego powtórzenia obserwacji, aby upewnić się, że nie jest to przypadek. Jeśli potrzebujesz dokładnej liczby reprezentującej statystycznie znaczącą wielkość próby lub algorytmu w celu ustalenia dokładnej liczby, prawdopodobnie statystyk może ją podać; ale nie jestem statystykiem.
aroth
3
Nie sądzę, że istnieje problem z posiadaniem próbki o wielkości 1, problemem jest to, że test nie ma mocy statystycznej (tj. Test nigdy nie odrzuci hipotezy zerowej, gdy jest fałszywa). Ujawnia to jednak problem z „rytuałem zerowym” w tym artykule, który ignoruje kwestię mocy statystycznej (i czym właściwie jest H1 lub wcześniejsze informacje istotne dla problemu).
Dikran Torbacz
1
@Dikran To jedna z najlepszych możliwych odpowiedzi! Problem z „częstym” w kreskówce polega na tym, że przestrzegano określonego rytuału statystycznego, nie przeprowadzając najpierw niezbędnej oceny właściwości testu. (Można nawet rozszerzyć analizę, rozważając, jaka powinna być odpowiednia funkcja straty dla tej decyzji.) W związku z tym kreskówka starannie wypacza wszystkie osoby, które stosują procedury statystyczne, nie rozumiejąc ich ani nie sprawdzając swoich założeń.
whuber
2

Odpowiedź na twoje pytanie: „czy on właściwie stosuje metodologię częstokroć?” nie, nie zastosował dokładnie podejścia częstokroć. Wartość p dla tego problemu nie jest dokładnie 1/36.

Najpierw musimy zauważyć, że zaangażowane hipotezy są

H0: Słońce nie wybuchło,

H1: Słońce eksplodowało.

Następnie,

wartość p = P („maszyna zwraca tak” | Słońce nie wybuchło).

Aby obliczyć to prawdopodobieństwo, musimy zauważyć, że „maszyna zwraca tak” jest równoznaczne z „detektorem neutrin mierzy eksplodujące Słońce ORAZ mówi prawdziwy wynik LUB detektor neutrin nie mierzy eksplodującego Słońca ORAZ nas”.

Zakładając, że rzucanie kostkami jest niezależne od pomiaru detektora neutrin, możemy obliczyć wartość p, definiując:

p0 = P („detektor neutrino mierzy wybuchające Słońce” | Słońce nie wybuchło),

Zatem wartość p wynosi

Wartość p = p0 x 35/36 + (1-p0) x 1/36 = (1/36) x (1+ 34 x p0).

W przypadku tego problemu wartość p wynosi od 1/36 do 35/36. Wartość p jest równa 1/36 wtedy i tylko wtedy, gdy p0 = 0. Oznacza to, że ukryte założenie w tej kreskówce jest takie, że maszyna wykrywająca nigdy nie mierzy wybuchającego Słońca, jeśli Słońce nie wybuchnie.

Co więcej, należy wprowadzić znacznie więcej informacji na temat prawdopodobieństwa wystąpienia zewnętrznych dowodów wybuchu anowej.

Wszystkiego najlepszego.

Alexandre Patriota
źródło
1

Nie widzę problemu z podejściem częstego. Jeśli hipoteza zerowa zostanie odrzucona, wartość p jest prawdopodobieństwem błędu typu 1. Błąd typu 1 odrzuca prawdziwą hipotezę zerową. W tym przypadku mamy wartość p wynoszącą 0,028. Oznacza to, że spośród wszystkich przeprowadzonych testów hipotez z tą wartością p, około 3 na sto odrzuci prawdziwą hipotezę zerową. Z założenia byłby to jeden z takich przypadków. Częstokroć akceptują fakt, że czasami odrzucają prawdziwą hipotezę zerową lub zachowują fałszywą hipotezę zerową (błędy typu 2), nigdy nie twierdzili inaczej. Co więcej, precyzyjnie kwantyfikują częstotliwość swoich błędnych wniosków na dłuższą metę.

Być może mniej mylącym sposobem patrzenia na ten wynik jest wymiana ról hipotez. Ponieważ dwie hipotezy są proste, jest to łatwe do zrobienia. Jeśli zerową wartością jest to, że słońce poszło w nową, to wartość p wynosi 35/36 = 0,972. Oznacza to, że nie ma to dowodów przeciwko hipotezie, że słońce poszło w nową, więc nie możemy go odrzucić na podstawie tego wyniku. To wydaje się bardziej rozsądne. Jeśli myślisz Dlaczego ktokolwiek miałby zakładać, że słońce zaszło w nowe? Zapytałbym cię Dlaczego ktoś miałby przeprowadzać taki eksperyment, skoro sama myśl o wybuchu słońca wydaje się śmieszna?

Myślę, że to po prostu pokazuje, że należy wcześniej ocenić przydatność eksperymentu. Ten eksperyment, na przykład, byłby całkowicie bezużyteczny, ponieważ testuje coś, co już wiemy, po prostu patrząc w niebo (co, jestem pewien, daje wartość p, która jest faktycznie zerowa). Zaprojektowanie dobrego eksperymentu jest warunkiem stworzenia dobrej nauki. Jeśli eksperyment jest źle zaplanowany, bez względu na to, jakiego narzędzia statystycznego używasz, wyniki raczej nie będą przydatne.

Jose Garmilla
źródło
Oczywiście, ale Bayesian wciąż może wyciągać rozsądne wnioski z podanych danych / wyników eksperymentów . Czasami nie można powtórzyć eksperymentu ani zaprojektować go tak, jak chcesz.
Amelio Vazquez-Reina
To słuszna kwestia, wnioskowanie bayesowskie może z łatwością uwzględniać wcześniejsze doświadczenia, które utrudniają, aby nadzwyczajne wyniki miały statystyczną wagę (chroni nas przed statystycznymi błędami). Jest to jednak bezużyteczny eksperyment w ramach Bayesa. Przeor jest tak zdecydowanie na rzecz jednego wniosku, że żaden wynik w tym eksperymencie nie może go zmienić. Jeśli przeor jest tak silny. Po co przeprowadzać eksperyment bez szans na jego modyfikację? Rozważając słabe priorytety (prawdopodobnie dane mogą ulec zmianie), myślę, że metody bayesowskie i częste zwykle dają „porównywalne” wyniki.
Jose Garmilla,
0

Jak włączyć „wcześniejszą wiedzę” na temat stabilności Słońca do metodologii dla częstych?

Bardzo ciekawy temat.

Oto tylko kilka myśli, a nie idealna analiza ...

Zastosowanie podejścia bayesowskiego z nieinformacyjnym przeorem zwykle zapewnia wnioskowanie statystyczne porównywalne z częstym.

Dlaczego Bayesian ma mocne przekonanie, że słońce nie wybuchło? Ponieważ jak wszyscy wie, że słońce nigdy nie wybuchło od samego początku.

Widzimy na niektórych prostych modelach statystycznych ze sprzężonymi priory, że użycie wcześniejszej dystrybucji jest równoważne z użyciem tylnej dystrybucji uzyskanej z nieinomatycznych wcześniejszych i wstępnych eksperymentów.

Powyższe zdanie sugeruje, że Frequentist powinien zakończyć jako Bayesian, włączając wyniki wstępnych eksperymentów do swojego modelu. I tak właśnie robi Bayesian : jego przeor pochodzi z wiedzy o wstępnych eksperymentach!

Nxiixiθxixi=1i=1,,N

N+1xiy={Yes}Pr(xN+1=0)θθx1,,xNy1Ny={Yes}θ. A Bayesian zamierza odzwierciedlić tę informację w swoim wcześniejszym rozpowszechnieniu na temat .θ

Z tej perspektywy nie widzę, jak sformułować to pytanie w kategoriach testowania hipotez. Przyjmowanie nie ma sensu, ponieważ jest to możliwy problem eksperymentu w mojej interpretacji, a nie prawdziwa / fałszywa hipoteza. Może to jest błąd Frequentist?H0={the sun has not exploded}

Stéphane Laurent
źródło
Fragment „... wie jak wszyscy, że słońce nigdy nie eksplodowało od samego początku” przywodzi na myśl opowieść o niedawnym amerykańskim święcie, w którym konsumowane są miliony indyków ( Meleagris gallopavo ). Z biegiem czasu każdy inteligentny indyk „wie jak wszyscy”, że będzie karmiony i opiekował się nim, aż do tego fatalnego (i zupełnie nieoczekiwanego dla niej) dnia w połowie listopada! Podobnie nasze zaufanie do stabilności Słońca powinno być niskie, jeśli jedyne, na czym musieliśmy polegać, to stosunkowo krótka historia jego obserwacji przez człowieka.
whuber
@whuber Wolałbym ci wysłać tę wiadomość prywatnie. Czy istnieje związek między Twoim komentarzem a tematem dyskusji? Nie wiem, czy to ja rodzą mnie pomysły, ale kilka razy mam wrażenie, że komentujesz moje odpowiedzi głównie po to, by powiedzieć coś przeciwko moim odpowiedziom. Ćwiczenie przedstawione przez OP to interpretacja kreskówki i czuję, że krytykujesz moją odpowiedź tak, jakbym mówił o prawdziwym problemie. Ostatnio nie doceniłem i nadal nie rozumiem, dlaczego wywołałeś prawdopodobną „intencję” za moimi odpowiedziami.
Stéphane Laurent
Nie było żadnej krytyki, domyślnej ani zamierzonej: czasami komentarz jest tak naprawdę tylko ... komentarzem. Próbowano podkreślić (w sposób humorystyczny) ważne pytania, na które wskazano, ale nie ujęto w nich odpowiedzi. Przykro mi, że postrzegasz to jako atak osobisty lub atak. BTW, to jest prawdziwe pytanie: pyta, jak włączyć „wcześniejszą wiedzę” ... do metodologii częstych? To pytanie przywołuje krytykę Hume'a dotyczącą wnioskowania indukcyjnego i dotyczy zagadnień filozofii nauki, a także samych podstaw statystyki. Warto dokładnie przemyśleć!
whuber
Warto również zauważyć, że znaczna część twojej reputacji wynika z moich głosów za twoimi odpowiedziami - które przedstawiam jako materialny dowód na to, że nie mam systematycznego zachowania z twojej strony przeciwko tobie.
whuber
2
Nie, rozumiem twój komentarz. Tłumaczenie Twojego komentarza na francuski Google jest już dziwne, ale łącząc moje umiejętności w języku angielskim i dziwne tłumaczenia Google, mogę uzyskać prawidłowe tłumaczenie. Prawdopodobnie odpocznę w przyszłym miesiącu.
Stéphane Laurent
0

Jest to oczywiście częsty test na poziomie 0,05 - hipoteza zerowa jest odrzucana w mniej niż 5% przypadków pod hipotezą zerową, a nawet moc alternatywna jest świetna.

Z drugiej strony wcześniejsze informacje mówią nam, że Słońce wschodzące do supernowej w określonym momencie jest mało prawdopodobne, ale bardziej prawdopodobne jest uzyskanie kłamstwa przez przypadek.

Podsumowując: w komiksie nie ma nic złego i pokazuje, że testowanie nieprawdopodobnych hipotez prowadzi do wysokiego wskaźnika fałszywych odkryć. Dodatkowo, prawdopodobnie chcesz wziąć pod uwagę wcześniejsze informacje przy ocenie oferowanych zakładów - dlatego tak popularny jest Bayesian posterior w połączeniu z analizą decyzji.

Björn
źródło
-2

Moim zdaniem bardziej poprawna analiza częstokrzyska byłaby następująca: H0: Słońce eksplodowało, a maszyna mówi prawdę. H1: Słońce nie wybuchło, a maszyna leży.

Wartość p tutaj wynosi = P (eksplodowało słońce). p (maszyna mówi prawdę) = 0,97. P (słońce eksplodowało)

Statystyk nie może dojść do wniosku bez znajomości natury drugiego prawdopodobieństwa.

Chociaż wiemy, że P (słońce eksplodowało) wynosi 0, ponieważ słońce jak gwiazdy nie eksploduje w supernowe.

Chaitanya Anand
źródło