Ten komiks xkcd (Frequentists vs. Bayesians) naśmiewa się z częstych statystyk, którzy uzyskują oczywiście błędny wynik.
Wydaje mi się jednak, że jego rozumowanie jest właściwie prawidłowe w tym sensie, że jest zgodne ze standardową metodologią częstokroć.
Więc moje pytanie brzmi: „czy on właściwie stosuje metodologię częstokroć?”
- Jeśli nie: co byłoby prawidłowym wnioskiem częstym w tym scenariuszu? Jak włączyć „wcześniejszą wiedzę” na temat stabilności Słońca do metodologii dla częstych?
- Jeśli tak: wtf? ;-)
bayesian
frequentist
odparł2
źródło
źródło
Odpowiedzi:
Główny problem polega na tym, że pierwszy eksperyment (Sun Gone Nova) nie jest powtarzalny, co czyni go wysoce nieodpowiednim dla metodologii częstych, która interpretuje prawdopodobieństwo jako oszacowanie tego, jak często zdarzenie daje możliwość wielokrotnego powtarzania eksperymentu. Natomiast prawdopodobieństwo bayesowskie interpretowane jest jako nasz stopień przekonania, dający całą dostępną wcześniejszą wiedzę, dzięki czemu nadaje się do zdrowego rozsądku w odniesieniu do zdarzeń jednorazowych. Eksperyment z rzutem kostką jest powtarzalny, ale uważam, że jest bardzo mało prawdopodobne, aby jakikolwiek lobbysta umyślnie zignorowałby wpływ pierwszego eksperymentu i był tak pewny znaczenia uzyskanych wyników.
Chociaż wydaje się, że autor kpi z częstego polegania na powtarzalnych eksperymentach i nieufności wobec aureoli, nadając nieodpowiedni układ eksperymentalny metodologii częstokroć, powiedziałbym, że prawdziwym tematem tego komiksu nie jest metodologia częstokroć, ale ślepe stosowanie niewłaściwej metodologii w ogóle. To, czy to będzie śmieszne, czy nie, zależy od ciebie (dla mnie to jest), ale myślę, że bardziej wprowadza w błąd niż wyjaśnia różnice między tymi dwoma podejściami.
źródło
Z tego, co widzę, częsty kawałek jest jak dotąd rozsądny:
Bayesian jest również zdrowym rozsądkiem, zauważając, że zakład nie ma nic do stracenia. Jestem pewien, że częste podejście, gdy uwzględni się fałszywie dodatnie i fałszywie ujemne koszty (Neyman-Peason?) Wyciągnie ten sam wniosek, co do najlepszej strategii pod względem długoterminowego zysku.
Podsumowując: Zarówno częsty, jak i Bayesian są tutaj niechlujni: Częstotliwy za ślepe przestrzeganie przepisu bez uwzględnienia odpowiedniego poziomu znaczenia, fałszywie dodatnich / fałszywie ujemnych kosztów lub fizyki problemu (tj. Nie stosując zdrowego rozsądku) . Bayesian jest niechlujny, ponieważ nie wypowiada się wyraźnie o swoich przeorach, ale z drugiej strony, używając zdrowego rozsądku, przeorowie, których używa, są oczywiście poprawne (bardziej prawdopodobne jest, że maszyna leży, niż słońce faktycznie eksplodowało), niechlujność jest być może usprawiedliwiona.
źródło
Dlaczego ten wynik wydaje się „zły”? Bayesian powiedziałby, że wynik wydaje się sprzeczny z intuicją, ponieważ mamy „wcześniejsze” przekonania o tym, kiedy słońce eksploduje, a dowody dostarczone przez tę maszynę nie są wystarczające, aby zmyć te przekonania (głównie z powodu niepewności z powodu rzut monetą). Ale częsty jest w stanie dokonać takiej oceny, po prostu musi to zrobić w kontekście danych, w przeciwieństwie do przekonań.
Prawdziwym źródłem paradoksu jest fakt, że przeprowadzany częsty test statystyczny nie uwzględnia wszystkich dostępnych danych. W komiksie nie ma problemu z analizą, ale wynik wydaje się dziwny, ponieważ wiemy, że słońce najprawdopodobniej nie wybuchnie przez długi czas. Ale JAK to wiemy? Ponieważ wykonaliśmy pomiary, obserwacje i symulacje, które mogą ograniczyć czas wybuchu słońca. Zatem nasza pełna wiedza powinna uwzględniać te pomiary i punkty danych.
W analizie bayesowskiej odbywa się to za pomocą tych pomiarów do skonstruowania przeoratu (chociaż procedura przekształcenia pomiarów w przeorat nie jest dobrze zdefiniowana: w pewnym momencie musi istnieć wstępny przeor, w przeciwnym razie „wszystko żółwie” droga w dół ”). Tak więc, kiedy Bayesian używa swojego przeora, naprawdę bierze pod uwagę wiele dodatkowych informacji, których analiza wartości p częstego nie jest wtajemniczona.
Tak więc, aby pozostać na równi, pełna częsta analiza problemu powinna zawierać te same dodatkowe dane dotyczące wybuchu słońca, które są używane do konstruowania wcześniejszego bayesowskiego. Ale zamiast używać priorów, częsty zwyczajny po prostu zwiększyłby prawdopodobieństwo, że użyje tych innych pomiarów, a jego wartość p obliczono by na podstawie tego pełnego prawdopodobieństwa.
Pełna analiza częstokroć wykazałaby najprawdopodobniej, że druga część prawdopodobieństwa będzie znacznie bardziej ograniczająca i będzie dominującym wkładem w obliczanie wartości p (ponieważ mamy wiele informacji na temat słońca i błędów w tych informacjach. są małe (mam nadzieję)).
Praktycznie nie trzeba wychodzić i zbierać wszystkich punktów danych uzyskanych w ciągu ostatnich 500 lat, aby wykonać częste obliczenia, można je zbliżyć jako prosty termin prawdopodobieństwa, który koduje niepewność, czy słońce eksplodowało, czy nie. Stanie się to wtedy podobne do przeora Bayesa, ale jest nieco inne filozoficznie, ponieważ jest to prawdopodobieństwo, co oznacza, że koduje niektóre poprzednie pomiary (w przeciwieństwie do przejęcia, które koduje pewne przekonanie a priori). Ten nowy termin stanie się częścią prawdopodobieństwa i będzie używany do budowania przedziałów ufności (lub wartości p lub cokolwiek innego), w przeciwieństwie do bayesowskiego przeora, który jest integrowany w celu utworzenia wiarygodnych przedziałów lub późniejszych.
źródło
Oczywiście to „częste” podejście jest nienaukowe, ponieważ wynik będzie trudny do odtworzenia. Gdy Słońce przejdzie do supernowej, pozostanie supernową, więc detektor powinien ciągle powtarzać „Tak”. Jednak ponowne uruchomienie tego komputera raczej nie przyniesie wyniku „Tak”. Uznaje się to w obszarach, które chcą się przedstawić jako rygorystyczne i starają się odtworzyć swoje wyniki eksperymentów ... co, o ile rozumiem, dzieje się z prawdopodobieństwem pomiędzy 5% (opublikowanie oryginalnej pracy było błędem czystego typu I) i gdzieś około 30-40% w niektórych dziedzinach medycyny. Ludzie z metaanalizy mogą wypełnić cię lepszymi liczbami, to tylko szum, który od czasu do czasu napotyka mnie poprzez wykres statystyk.
Innym problemem z „właściwej” perspektywy częstokroć jest to, że rzucenie kostką jest najsłabszym testem, z mocą = poziomem istotności (jeśli nie niższym; 2,7% mocy dla poziomu 5% istotności nie ma się czym chwalić). Teoria Neymana-Pearsona dla testów T boleje nad wykazaniem, że jest to UMPT, a wiele teorii statystycznych o wysokim czole (które ledwo rozumiem, muszę przyznać) poświęca się wyprowadzaniu krzywych mocy i znajdowaniu warunków, gdy dane test jest najmocniejszy w danej klasie. (Kredyty: @Dikran Marsupial wspomniał o kwestii władzy w jednym z komentarzy).
Nie wiem, czy ci to przeszkadza, ale statystyki bayesowskie pokazane są tutaj jako facet, który nie zna matematyki i ma problem z hazardem. Właściwy statystyki bayesowskie postulowałby przeor, omawiałby stopień obiektywności, wyprowadził z tyłu i wykazał, jak wiele nauczył się z danych. Nic z tego nie zostało zrobione, więc proces bayesowski został uproszczony tak samo jak częsty.
Ta sytuacja pokazuje klasyczne badania przesiewowe w kierunku raka (i jestem pewien, że biostatystycy mogą to lepiej opisać). Podczas badań pod kątem rzadkiej choroby za pomocą niedoskonałego instrumentu większość wyników dodatnich okazuje się fałszywych. Inteligentni statystycy wiedzą o tym i wiedzą, jak śledzić tanie i brudne przesiewacze za pomocą droższych i dokładniejszych biopsji.
źródło
Nie ma nic złego w tym komiksie, a powód nie ma nic wspólnego ze statystykami. To ekonomia. Jeśli częsty ma rację, Ziemia będzie równoznaczna z niezamieszkaniem w ciągu 48 godzin. Wartość 50 USD będzie faktycznie zerowa. Bayesian, uznając to, może sprawić, że zakład będzie wiedział, że jego korzyść wynosi 50 USD w normalnym przypadku, a marginalnie nic w przypadku eksplozji słońca.
źródło
Teraz, gdy CERN zdecydował, że neutrina nie są szybsze od światła - front uderzenia promieniowania elektromagnetycznego uderzyłby w ziemię, zanim zauważona zostanie zmiana neutrin. Miałoby to przynajmniej (w bardzo krótkim okresie) spektakularne efekty zorzy. Zatem fakt, że jest ciemno, nie zapobiegłby rozświetleniu nieba; księżyc z nadmiernie jasnego światła (por. „Niestały księżyc” Larry'ego Niven'a) i spektakularne błyski, gdy sztuczne satelity zostały odparowane i uległy samozapłonowi.
W sumie - może zły test? (I chociaż mogło być wcześniej - nie byłoby wystarczająco dużo czasu na realistyczne określenie tylnej pozycji.
źródło
Zgadzam się z @GeorgeLewis, że stwierdzenie, że częste podejście jest błędne, może być przedwczesne - po prostu ponownie uruchom detektor neutrino kilka razy, aby zebrać więcej danych. Nie musisz zadzierać z priorami.
źródło
Prostszym punktem, który można zgubić wśród wszystkich pełnych odpowiedzi tutaj, jest to, że częsty jest przedstawiony jako wyciągający wnioski na podstawie pojedynczej próbki. W praktyce nigdy byś tego nie zrobił.
Osiągnięcie prawidłowego wniosku wymaga statystycznie istotnej wielkości próby (lub innymi słowy, nauka musi być powtarzalna). W praktyce więc częstokroć uruchamiałby maszynę wiele razy, a następnie dochodził do wniosku na temat uzyskanych danych.
Przypuszczalnie wiązałoby się to z kilkukrotnym zadaniem maszynie tego samego pytania. I przypuszczalnie, jeśli maszyna jest w błędzie 1 na 36 razy, pojawi się wyraźny wzór. I z tego wzorca (a nie z jednego czytania) częsty wyciągnie (dość dokładny, powiedziałbym) wniosek, czy słońce eksplodowało, czy nie.
źródło
Odpowiedź na twoje pytanie: „czy on właściwie stosuje metodologię częstokroć?” nie, nie zastosował dokładnie podejścia częstokroć. Wartość p dla tego problemu nie jest dokładnie 1/36.
Najpierw musimy zauważyć, że zaangażowane hipotezy są
H0: Słońce nie wybuchło,
H1: Słońce eksplodowało.
Następnie,
wartość p = P („maszyna zwraca tak” | Słońce nie wybuchło).
Aby obliczyć to prawdopodobieństwo, musimy zauważyć, że „maszyna zwraca tak” jest równoznaczne z „detektorem neutrin mierzy eksplodujące Słońce ORAZ mówi prawdziwy wynik LUB detektor neutrin nie mierzy eksplodującego Słońca ORAZ nas”.
Zakładając, że rzucanie kostkami jest niezależne od pomiaru detektora neutrin, możemy obliczyć wartość p, definiując:
p0 = P („detektor neutrino mierzy wybuchające Słońce” | Słońce nie wybuchło),
Zatem wartość p wynosi
Wartość p = p0 x 35/36 + (1-p0) x 1/36 = (1/36) x (1+ 34 x p0).
W przypadku tego problemu wartość p wynosi od 1/36 do 35/36. Wartość p jest równa 1/36 wtedy i tylko wtedy, gdy p0 = 0. Oznacza to, że ukryte założenie w tej kreskówce jest takie, że maszyna wykrywająca nigdy nie mierzy wybuchającego Słońca, jeśli Słońce nie wybuchnie.
Co więcej, należy wprowadzić znacznie więcej informacji na temat prawdopodobieństwa wystąpienia zewnętrznych dowodów wybuchu anowej.
Wszystkiego najlepszego.
źródło
Nie widzę problemu z podejściem częstego. Jeśli hipoteza zerowa zostanie odrzucona, wartość p jest prawdopodobieństwem błędu typu 1. Błąd typu 1 odrzuca prawdziwą hipotezę zerową. W tym przypadku mamy wartość p wynoszącą 0,028. Oznacza to, że spośród wszystkich przeprowadzonych testów hipotez z tą wartością p, około 3 na sto odrzuci prawdziwą hipotezę zerową. Z założenia byłby to jeden z takich przypadków. Częstokroć akceptują fakt, że czasami odrzucają prawdziwą hipotezę zerową lub zachowują fałszywą hipotezę zerową (błędy typu 2), nigdy nie twierdzili inaczej. Co więcej, precyzyjnie kwantyfikują częstotliwość swoich błędnych wniosków na dłuższą metę.
Być może mniej mylącym sposobem patrzenia na ten wynik jest wymiana ról hipotez. Ponieważ dwie hipotezy są proste, jest to łatwe do zrobienia. Jeśli zerową wartością jest to, że słońce poszło w nową, to wartość p wynosi 35/36 = 0,972. Oznacza to, że nie ma to dowodów przeciwko hipotezie, że słońce poszło w nową, więc nie możemy go odrzucić na podstawie tego wyniku. To wydaje się bardziej rozsądne. Jeśli myślisz Dlaczego ktokolwiek miałby zakładać, że słońce zaszło w nowe? Zapytałbym cię Dlaczego ktoś miałby przeprowadzać taki eksperyment, skoro sama myśl o wybuchu słońca wydaje się śmieszna?
Myślę, że to po prostu pokazuje, że należy wcześniej ocenić przydatność eksperymentu. Ten eksperyment, na przykład, byłby całkowicie bezużyteczny, ponieważ testuje coś, co już wiemy, po prostu patrząc w niebo (co, jestem pewien, daje wartość p, która jest faktycznie zerowa). Zaprojektowanie dobrego eksperymentu jest warunkiem stworzenia dobrej nauki. Jeśli eksperyment jest źle zaplanowany, bez względu na to, jakiego narzędzia statystycznego używasz, wyniki raczej nie będą przydatne.
źródło
Bardzo ciekawy temat.
Oto tylko kilka myśli, a nie idealna analiza ...
Zastosowanie podejścia bayesowskiego z nieinformacyjnym przeorem zwykle zapewnia wnioskowanie statystyczne porównywalne z częstym.
Dlaczego Bayesian ma mocne przekonanie, że słońce nie wybuchło? Ponieważ jak wszyscy wie, że słońce nigdy nie wybuchło od samego początku.
Widzimy na niektórych prostych modelach statystycznych ze sprzężonymi priory, że użycie wcześniejszej dystrybucji jest równoważne z użyciem tylnej dystrybucji uzyskanej z nieinomatycznych wcześniejszych i wstępnych eksperymentów.
Powyższe zdanie sugeruje, że Frequentist powinien zakończyć jako Bayesian, włączając wyniki wstępnych eksperymentów do swojego modelu. I tak właśnie robi Bayesian : jego przeor pochodzi z wiedzy o wstępnych eksperymentach!
Z tej perspektywy nie widzę, jak sformułować to pytanie w kategoriach testowania hipotez. Przyjmowanie nie ma sensu, ponieważ jest to możliwy problem eksperymentu w mojej interpretacji, a nie prawdziwa / fałszywa hipoteza. Może to jest błąd Frequentist?H0={the sun has not exploded}
źródło
Jest to oczywiście częsty test na poziomie 0,05 - hipoteza zerowa jest odrzucana w mniej niż 5% przypadków pod hipotezą zerową, a nawet moc alternatywna jest świetna.
Z drugiej strony wcześniejsze informacje mówią nam, że Słońce wschodzące do supernowej w określonym momencie jest mało prawdopodobne, ale bardziej prawdopodobne jest uzyskanie kłamstwa przez przypadek.
Podsumowując: w komiksie nie ma nic złego i pokazuje, że testowanie nieprawdopodobnych hipotez prowadzi do wysokiego wskaźnika fałszywych odkryć. Dodatkowo, prawdopodobnie chcesz wziąć pod uwagę wcześniejsze informacje przy ocenie oferowanych zakładów - dlatego tak popularny jest Bayesian posterior w połączeniu z analizą decyzji.
źródło
Moim zdaniem bardziej poprawna analiza częstokrzyska byłaby następująca: H0: Słońce eksplodowało, a maszyna mówi prawdę. H1: Słońce nie wybuchło, a maszyna leży.
Wartość p tutaj wynosi = P (eksplodowało słońce). p (maszyna mówi prawdę) = 0,97. P (słońce eksplodowało)
Statystyk nie może dojść do wniosku bez znajomości natury drugiego prawdopodobieństwa.
Chociaż wiemy, że P (słońce eksplodowało) wynosi 0, ponieważ słońce jak gwiazdy nie eksploduje w supernowe.
źródło