W Wikipedii jest napisane, że:
matematyka [prawdopodobieństwa] jest w dużej mierze niezależna od jakiejkolwiek interpretacji prawdopodobieństwa.
Pytanie: Zatem jeśli chcemy być matematycznie poprawni, czy nie powinniśmy nie dopuścić do jakiejkolwiek interpretacji prawdopodobieństwa? Tj. Czy zarówno bayesowski, jak i częstościowy są matematycznie niepoprawne?
Nie lubię filozofii, ale lubię matematykę i chcę pracować wyłącznie w ramach aksjomatów Kołmogorowa. Jeśli to jest mój cel, czy powinno wynikać z tego, co na Wikipedii mówi, że powinienem odrzucić zarówno bayesianizm, jak i częstotliwość? Jeśli pojęcia są czysto filozoficzne, a nie matematyczne, to dlaczego pojawiają się w statystykach?
Tło / Kontekst:
Ten post na blogu nie mówi dokładnie tego samego, ale dowodzi, że próba sklasyfikowania technik jako „bayesowskich” lub „częstych” przynosi efekt przeciwny do zamierzonego z pragmatycznego punktu widzenia.
Jeśli cytat z Wikipedii jest prawdziwy, to wydaje się, że z filozoficznego punktu widzenia próba sklasyfikowania metod statystycznych również przynosi efekt przeciwny do zamierzonego - jeśli metoda jest matematycznie poprawna, wówczas można zastosować tę metodę, gdy założenia matematyki leżącej u jej podstaw wstrzymaj, w przeciwnym razie, jeśli nie jest to poprawne matematycznie lub jeśli założenia się nie utrzymują, użycie go jest nieprawidłowe.
Z drugiej strony wydaje się, że wiele osób utożsamia „wnioskowanie bayesowskie” z teorią prawdopodobieństwa (tj. Aksjomatami Kołmogorowa), chociaż nie jestem do końca pewien, dlaczego. Niektóre przykłady to rozprawa Jaynesa o wnioskowaniu Bayesa zatytułowana „Prawdopodobieństwo”, a także książka Jamesa Stone'a „Reguła Bayesa”. Jeśli więc przyjmuję te twierdzenia za wartość nominalną, oznacza to, że wolę Bayesianizm.
Jednak książka Caselli i Bergera wydaje się być częsta, ponieważ omawia estymatory maksymalnego prawdopodobieństwa, ale ignoruje maksymalne estymatory a posteriori, ale wydaje się również, że wszystko w nim jest matematycznie poprawne.
Czy zatem nie wynika z tego, że jedyną poprawną matematycznie wersją statystyki jest ta, która nie jest całkowicie agnostyczna w odniesieniu do bayesianizmu i częstości? Jeśli metody z obu klasyfikacjami są poprawne matematycznie, to czy nie jest niewłaściwą praktyką preferowanie niektórych spośród innych, ponieważ oznaczałoby to nadanie priorytetu niejasnej, źle zdefiniowanej filozofii przed precyzyjną, dobrze zdefiniowaną matematyką?
Podsumowanie: Krótko mówiąc, nie rozumiem, jakie są podstawy matematyczne dla debaty bayesowskiej i częstej, a jeśli nie ma matematycznych podstaw dla debaty (jak twierdzi Wikipedia), nie rozumiem, dlaczego jest ona tolerowana wszystko w dyskursie akademickim.
źródło
Odpowiedzi:
Przestrzenie prawdopodobieństwa i aksjomaty Kołmogorowa
Przestrzeń prawdopodobieństwa jest z definicji potrójnym gdzie jest zbiorem wyników, jest -algebra na podzbiory i to miara prawdopodobieństwa, która spełnia aksjomaty Kołmogorowa, tzn. jest funkcją od do tak że a dla rozłącznych w utrzymuje, że ( Ω , F , P ) Ω F σ Ω P P F [ 0 , 1 ] P ( Ω ) = 1 E 1 , E 2 , … F P ( ∪ ∞ j = 1 E j ) = ∑ ∞ j = 1 P ( E j )P (Ω,F,P) Ω F σ Ω P P F [0,1] P(Ω)=1 E1,E2,… F P(∪∞j=1Ej)=∑∞j=1P(Ej) .
W takiej przestrzeni prawdopodobieństwa można dla dwóch zdarzeń w zdefiniować prawdopodobieństwo warunkowe jakoF P ( E 1 | E 2 ) d e f = P ( E 1 ∩ E 2 )E1,E2 F P(E1|E2)=defP(E1∩E2)P(E2)
Uwaga:
Więcej szczegółów można znaleźć w tym linku
Reguła Bayesa obowiązuje w dowolnej (prawidłowej) przestrzeni prawdopodobieństwa
Z definicji prawdopodobieństwa warunkowego wynika również, że . Z dwóch ostatnich równań odnajdujemy zasadę Bayesa. Tak więc reguła Bayesa (z definicji prawdopodobieństwa warunkowego) zachowuje się w dowolnej przestrzeni prawdopodobieństwa (aby to pokazać, wyprowadza i z każdego równania i równania je (są równe, ponieważ przecięcie jest przemienne)). P(E1∩E2)P(E2∩E1)P(E2|E1)=P(E2∩E1)P(E1) P(E1∩E2) P(E2∩E1)
Ponieważ reguła Bayesa jest podstawą wnioskowania bayesowskiego, można przeprowadzić analizę bayesowską w dowolnej prawidłowej (tj. Spełniającej wszystkie warunki, np. Aksjomaty Kołmogorowa).
Częstotliwościowa definicja prawdopodobieństwa jest „przypadkiem szczególnym”
Powyższe dotyczy „w ogóle”, tzn. Nie mamy na myśli konkretnego , , , o ile jest -algebra na podzbiorach a spełnia aksjomaty Kołmogorowa.F P F σ Ω PΩ F P F σ Ω P
Pokażemy teraz, że definicja „ „ częstego ” spełnia aksjomaty Kołomogorowa. W takim przypadku prawdopodobieństwa „częstych” są jedynie szczególnym przypadkiem ogólnego i abstrakcyjnego prawdopodobieństwa Kołmogorowa.P
Weźmy przykład i rzuć kostką. Zatem zestaw wszystkich możliwych wyników to . Potrzebujemy również -algebra na tym zestawie i bierzemy zestaw wszystkich podzbiorów , tj. .Ω = { 1 , 2 , 3 , 4 , 5 , 6 } σ Ω F Ω F = 2 ΩΩ Ω={1,2,3,4,5,6} σ Ω F Ω F=2Ω
Nadal musimy często określać miarę prawdopodobieństwa . Dlatego definiujemy jako gdzie jest liczbą uzyskanych w rzutach kości. Podobnie jest w przypadku , ... .P P({1}) n11nP({2})P({6})P({1})=deflimn→+∞n1n n1 1 n P({2}) P({6})
W ten sposób zdefiniowano dla wszystkich singletonów w . Dla każdego innego zestawu w , np. , definiujemy w częsty sposób, tj. , ale według liniowości „lim” jest to równe , co oznacza, że trzymają się aksjomaty Kołmogorowa.P F F {1,2} P({1,2}) P({1,2})=deflimn→+∞n1+n2n P({1})+P({2})
Tak więc częstokształtna definicja prawdopodobieństwa jest tylko szczególnym przypadkiem ogólnej i abstrakcyjnej definicji miary prawdopodobieństwa Kołomogorowa.
Zauważ, że istnieją inne sposoby zdefiniowania miary prawdopodobieństwa, która spełnia aksjomaty Kołmogorowa, więc definicja częstokroć nie jest jedyną możliwą.
Wniosek
Prawdopodobieństwo w systemie aksjomatycznym Kołmogorowa jest „abstrakcyjne”, nie ma rzeczywistego znaczenia, musi jedynie spełniać warunki zwane „aksjomatami”. Używając tylko tych aksjomatów Kołmogorow był w stanie wyprowadzić bardzo bogaty zestaw twierdzeń.
Częstotliwościowa definicja prawdopodobieństwa wypełnia aksjomaty, a zatem zastępując abstrakcyjne „bez znaczenia” prawdopodobieństwem zdefiniowanym w częsty sposób, wszystkie te twierdzenia są ważne, ponieważ „prawdopodobieństwo częstości” przypadek abstrakcyjnego prawdopodobieństwa Kołmogorowa (tzn. spełnia aksjomaty).P
Jedną z właściwości, które można uzyskać w ogólnych ramach Kołmogorowa, jest reguła Bayesa. Jak ma to miejsce w ogólnych i abstrakcyjnych ramach, będzie również utrzymywał (cfr supra) w konkretnym przypadku, że prawdopodobieństwa są definiowane w sposób częsty (ponieważ definicja częstościowa spełnia aksjomaty i te aksjomaty były jedyną rzeczą, która jest potrzebna do wyprowadzić wszystkie twierdzenia). Można więc przeprowadzić analizę bayesowską z częstokroć definiującą prawdopodobieństwem.
Definiowanie w częsty sposób nie jest jedyną możliwością, istnieją inne sposoby zdefiniowania go tak, aby spełniał abstrakcyjne aksjomaty Kołmogorowa. Zasada Bayesa obowiązuje również w tych „szczególnych przypadkach”. Tak też można zrobić analizę Bayesa z nieprzestrzegania -frequentist definicji prawdopodobieństwa.P
EDYCJA 23.08.2016
Reakcja @mpiktas na Twój komentarz:
Jak powiedziałem, zbiory i miara prawdopodobieństwa nie mają szczególnego znaczenia w systemie aksjomatycznym, są abstrakcyjne.Ω,F P
Aby zastosować tę teorię, musisz podać dalsze definicje (więc to, co mówisz w swoim komentarzu „nie ma potrzeby dalszego pomieszania z niektórymi dziwacznymi definicjami” jest błędne, potrzebujesz dodatkowych definicji ).
Zastosujmy to do przypadku rzutu uczciwą monetą. Zbiór w teorii Kołmogorowa nie ma szczególnego znaczenia, musi po prostu być „zbiorem”. Musimy więc określić, czym jest ten zestaw w przypadku uczciwej monety, tzn. Musimy zdefiniować zestaw . Jeśli reprezentujemy głowę jako H, a ogon jako T, to zestaw jest z definicji .Ω Ω Ω Ω=def{H,T}
Musimy także zdefiniować zdarzenia, tj. -algebra . Definiujemy jako . Łatwo jest zweryfikować, że to -algebra.σ F F=def{∅,{H},{T},{H,T}} F σ
Następnie musimy zdefiniować dla każdego zdarzenia w jego miarę. Musimy więc zdefiniować mapę z w . Zdefiniuję to w sposób częsty, dla uczciwej monety, jeśli rzuciłem ją ogromną liczbę razy, wówczas ułamek głów wyniesie 0,5, więc zdefiniuję . Podobnie definiuję , i . Zauważ, że jest mapą z w i że spełnia aksjomaty Kołmogorowa.E∈F F [0,1] P({H})=def0.5 P({T})=def0.5 P({H,T})=def1 P(∅)=def0 P F [0,1]
Odwołanie do częstokształtnej definicji prawdopodobieństwa znajduje się w tym łączu (na końcu sekcji „definicja”) i w tym łączu .
źródło
Statystyki to nie matematyka
Po pierwsze, kradnę słowa @ whubera z komentarza w Stats to nie matematyka? (stosowane w innym kontekście, więc kradnę słowa, nie cytuję):
Wszystkie te pola mogą istnieć i mieć pytania, których nie można rozwiązać tylko poprzez sprawdzenie, które twierdzenia są poprawne. Chociaż niektóre odpowiedzi w Stats to nie matematyka? nie zgadzam się, myślę, że jasne jest, że statystyka nie jest (czystą) matematyką. Jeśli chcesz zrobić teorię prawdopodobieństwa, gałąź (czystej) matematyki, możesz rzeczywiście zignorować wszystkie debaty, o które pytasz. Jeśli chcesz zastosować teorię prawdopodobieństwa do modelowania niektórych pytań w świecie rzeczywistym, potrzebujesz czegoś więcej, niż tylko aksjomatów i twierdzeń ram matematycznych. Pozostała część odpowiedzi rozmyśla o tym punkcie.
Twierdzenie „jeśli chcemy być matematycznie poprawni, nie powinniśmy zaprzeczać jakiejkolwiek interpretacji prawdopodobieństwa” również wydaje się nieuzasadnione. Umieszczenie interpretacji na ramie matematycznej nie powoduje, że matematyka jest niepoprawna (o ile interpretacja nie jest twierdzeniem w ramach matematycznych).
Debata nie dotyczy (głównie) aksjomatów
Chociaż istnieją alternatywne aksjatyzacje *, debata (?) Nie dotyczy kwestionowania aksjomatów Kołmogorowa. Ignorując niektóre subtelności ze zdarzeniami warunkowania zerowej miary, prowadzącymi do regularnego prawdopodobieństwa warunkowego itp., O których nie wiem wystarczająco, aksjomaty Kołmogorowa i prawdopodobieństwo warunkowe implikują zasadę Bayesa, o której nikt nie kwestionuje. Jeśli jednak nie jest nawet zmienną losową w twoim modelu (model w sensie układu matematycznego składającego się z przestrzeni prawdopodobieństwa lub ich rodziny, zmiennych losowych itp.), Oczywiście nie jest możliwe obliczenie warunkowego rozkład . Nikt też nie kwestionuje, że właściwości częstotliwości, jeśli są poprawnie obliczone, są konsekwencjami modelu. Na przykład rozkłady warunkoweP ( X ∣ Y ) p ( y ∣ θ ) p ( y ; θ ) p ( y ∣ θ ) = p ( y ; θ ) θ θX P(X∣Y) p(y∣θ) w modelu bayesowskim zdefiniuj indeksowaną rodzinę rozkładów prawdopodobieństwa , po prostu pozwalając i jeśli niektóre wyniki zachowają się dla wszystkich w tym ostatnim, posiadają one dla wszystkich w byłej, zbyt.p(y;θ) p(y∣θ)=p(y;θ) θ θ
Debata dotyczy sposobu zastosowania matematyki
Debaty (jakkolwiek istnieją **) dotyczą zamiast tego, jak zdecydować, jaki rodzaj modelu prawdopodobieństwa należy skonfigurować dla (rzeczywistego, niematematycznego) problemu i jakie implikacje modelu są istotne dla rysowania (realne -life) wnioski. Ale pytania te istniałyby, nawet gdyby wszyscy statystycy się zgodzili. Cytując z posta na blogu, do którego linkujesz [1], chcemy odpowiedzieć na pytania takie jak
Aksjomaty teorii prawdopodobieństwa nawet nie zawierają definicji baseballu, więc jest oczywiste, że „Red Sox powinien zawrzeć kontrakt z baseballistą X” nie jest twierdzeniem w teorii prawdopodobieństwa.
Uwaga na temat matematycznych uzasadnień podejścia bayesowskiego
Istnieją „matematyczne uzasadnienia” dla uznania wszystkich niewiadomych za probabilistyczne, takie jak twierdzenie Coxa, do którego odnosi się Jaynes (chociaż słyszę, że ma problemy matematyczne, które mogły zostać naprawione, nie wiem, patrz [2] i odniesienia w nim) lub (subiektywne bayesowskie) podejście Savage'a (słyszałem o tym w [3], ale nigdy nie czytałem książki), co dowodzi, że przy pewnych założeniach racjonalny decydent będzie miał rozkład prawdopodobieństwa między stanami świata i wybierz jego działanie w oparciu o maksymalizację oczekiwanej wartości funkcji użyteczności. Jednak tego, czy kierownik Red Sox powinien zaakceptować założenia, czy też powinniśmy zaakceptować teorię, że palenie powoduje raka, nie można wywnioskować z żadnych ram matematycznych,
Przypisy
* Nie studiowałem tego, ale słyszałem, że de Finetti ma podejście, w którym prawdopodobieństwa warunkowe są prymitywami, a nie uzyskiwane z (bezwarunkowej) miary przez warunkowanie. [4] wspomina o debacie pomiędzy (Bayesianami) José Bernardo, Dennisem Lindleyem i Bruno de Finetti w przytulnej francuskiej restauracji na temat tego, czy potrzebna jest czułość .σ
** jak wspomniano w poście na blogu, do którego linkujesz [1], może nie być wyraźnej debaty z każdym statystykiem należącym do jednego zespołu i gardzącym drugim zespołem. Słyszałem, jak mówiono, że wszyscy jesteśmy dziś pragmatykami i bezużyteczna debata dobiegła końca. Jednak z mojego doświadczenia wynika, że różnice te występują na przykład w tym, czy pierwszym podejściem kogoś jest modelowanie wszystkich niewiadomych jako zmiennych losowych, czy nie, oraz to, jak zainteresowana jest gwarancją częstotliwości.
Bibliografia
[1] Simply Statistics, blog statystyczny Rafa Irizarry, Rogera Penga i Jeffa Leka: „Deklaruję debatę Bayesian vs. Frequentist dla badaczy danych”, 13 października 2014 r., Http://simplystatistics.org/2014/10 / 13 / as-an-Applied-Statistics-I-Find-The-Frequists-vs.-Bayesians-Debut-Całkowicie bez znaczenia /
[2] Dupré, MJ i Tipler, FJ (2009). Nowe aksjomaty dla rygorystycznego prawdopodobieństwa Bayesa. Analiza Bayesowska, 4 (3), 599-606. http://projecteuclid.org/download/pdf_1/euclid.ba/1340369856
[3] Savage, LJ (1972). Podstawy statystyki. Courier Corporation.
[4] Bernardo, JM The Valencia Story - Niektóre szczegóły dotyczące powstania i rozwoju międzynarodowych spotkań w Walencji na temat statystyki bayesowskiej. http://www.uv.es/bernardo/ValenciaStory.pdf
źródło
Podstawa matematyczna debaty bayesowskiej i częstej jest bardzo prosta. W statystyce bayesowskiej nieznany parametr jest traktowany jako zmienna losowa; w statystykach częstych jest to traktowane jako element stały. Ponieważ zmienna losowa jest znacznie bardziej skomplikowanym obiektem matematycznym niż prostym elementem zbioru, różnica matematyczna jest dość oczywista.
Okazuje się jednak, że rzeczywiste wyniki pod względem modeli mogą być zaskakująco podobne. Weźmy na przykład regresję liniową. Bayesowska regresja liniowa z nieinformacyjnymi priorytetami prowadzi do rozkładu oszacowania parametru regresji, którego średnia jest równa oszacowaniu parametru częstościowej regresji liniowej, co jest rozwiązaniem problemu najmniejszych kwadratów, który nie jest nawet problemem z teorii prawdopodobieństwa . Niemniej jednak matematyka zastosowana do uzyskania podobnego rozwiązania jest zupełnie inna, z podanego powyżej powodu.
Oczywiście ze względu na różnicę w traktowaniu nieznanych parametrów właściwości matematycznych (zmienna losowa vs element zestawu) zarówno statystyki bayesowskie, jak i częste trafiły w przypadki, w których mogłoby się wydawać, że korzystniejsze jest stosowanie podejścia konkurencyjnego. Przedziały ufności są doskonałym przykładem. Kolejnym jest fakt, że nie trzeba polegać na MCMC, aby uzyskać proste oszacowanie. Zazwyczaj są to jednak kwestie gustu, a nie matematyki.
źródło
Jak dokładnie zastosowałbyś aksjomaty Kołmogorowa samodzielnie, bez żadnej interpretacji? Jak to interpretować prawdopodobieństwo? Co powiedziałbyś komuś, kto zapytał: „Co oznacza twoje oszacowanie prawdopodobieństwa ?”0.5 Czy powiedziałbyś, że twój wynik to liczba0.5 , co jest poprawne, ponieważ jest zgodne z aksjomatami? Bez żadnej interpretacji nie można powiedzieć, że sugeruje to, jak często spodziewalibyśmy się rezultatu, gdybyśmy powtórzyli nasz eksperyment. Nie możesz też powiedzieć, że ta liczba mówi ci, jak bardzo jesteś pewien szansy na wydarzenie. Nie możesz też odpowiedzieć, że to mówi ci, jak prawdopodobne jest to wydarzenie. Jak interpretowałbyś wartość oczekiwaną - ponieważ niektóre liczby pomnożone przez inne liczby i zsumowane razem są ważne, ponieważ są zgodne z aksjomatami i kilkoma innymi twierdzeniami?
Jeśli chcesz zastosować matematykę do prawdziwego świata, musisz ją zinterpretować. Same liczby bez interpretacji to ... liczby. Ludzie nie obliczają wartości oczekiwanych w celu oszacowania wartości oczekiwanych, ale aby dowiedzieć się czegoś o rzeczywistości.
Co więcej, prawdopodobieństwo jest abstrakcyjne, podczas gdy my stosujemy statystyki (i prawdopodobieństwo jako takie) do rzeczywistych wydarzeń. Weźmy najbardziej podstawowy przykład: uczciwą monetę. W interpretacji częstokrzyskiej, jeśli rzuciłeś taką monetę wiele razy, spodziewałbyś się takiej samej liczby głów i ogonów. Jednak w prawdziwym eksperymencie prawie nigdy by się to nie zdarzyło. Zatem prawdopodobieństwo nie ma nic wspólnego z żadną konkretną monetą wyrzuconą określoną liczbę razy.0.5
- Bruno de Finetti
źródło
Moim zdaniem kontrast między wnioskowaniem bayesowskim a częstym jest taki, że pierwszą kwestią jest wybór zdarzenia, dla którego chcesz mieć prawdopodobieństwo. Częstokroć zakładają to, co próbujesz udowodnić (np. Hipoteza zerowa), a następnie obliczają prawdopodobieństwo zaobserwowania czegoś, co już zaobserwowałeś, przy takim założeniu. Istnieje dokładna analogia między takimi prawdopodobieństwami kolejności przepływu informacji zwrotnej a wrażliwością i swoistością w diagnozie medycznej, które spowodowały ogromne nieporozumienia i muszą być ratowane przez zasadę Bayesa, aby uzyskać prawdopodobieństwo („prawdopodobieństwa po badaniu”). Bayesianie obliczają prawdopodobieństwo zdarzenia, a absolutnych prawdopodobieństw nie da się obliczyć bez kotwicy (wcześniej). Bayesowskie prawdopodobieństwo prawdziwości stwierdzenia znacznie różni się od częstościowego prawdopodobieństwa obserwacji danych przy pewnym niepoznawalnym założeniu. Różnice są bardziej wyraźne, gdy częsty musi dostosować się do innych analiz, które zostały wykonane lub mogłyby zostać wykonane (wielokrotność; testy sekwencyjne itp.).
Dyskusja na temat podstaw matematycznych jest więc bardzo interesująca i bardzo odpowiednia. Ale trzeba dokonać fundamentalnego wyboru prawdopodobieństw do przodu i do tyłu. Dlatego to, co jest uwarunkowane, co nie jest dokładnie matematyką, jest niezwykle ważne. Bayesianie uważają, że pełne uwarunkowanie tego, co już wiesz, jest kluczowe. Częstokroć częściej uzależniają matematykę od prostoty.
źródło
Podzielę to na dwa osobne pytania i udzielę odpowiedzi na każde z nich.
1.) Biorąc pod uwagę różne filozoficzne poglądy na temat prawdopodobieństwa w perspektywie częstokrzyskiego i bayesowskiego, czy istnieją matematyczne reguły prawdopodobieństwa, które odnoszą się do jednej interpretacji, a nie do innej?
Nie. Reguły prawdopodobieństwa pozostają dokładnie takie same między dwiema grupami.
2.) Czy bayesianie i częste osoby używają tych samych modeli matematycznych do analizy danych?
Ogólnie rzecz biorąc, nie. Jest tak, ponieważ dwie różne interpretacje sugerują, że badacz może uzyskać wgląd z różnych źródeł. W szczególności często uważa się, że ramy Frequentist sugerują, że można wnioskować na temat interesujących parametrów tylko na podstawie zaobserwowanych danych, podczas gdy perspektywa bayesowska sugeruje, że należy również uwzględnić niezależną wiedzę ekspercką na ten temat. Różne źródła danych oznaczają, że do analizy zostaną wykorzystane różne modele matematyczne.
Należy również zauważyć, że istnieje wiele różnic między modelami stosowanymi przez dwa obozy, które są bardziej związane z tym, co zostało zrobione, niż z tym, co możebyć zrobione (tzn. wiele modeli tradycyjnie używanych przez jeden obóz może być uzasadnionych przez drugi obóz). Na przykład modele BUG (wnioskowanie bayesowskie Korzystanie z próbkowania Gibbsa, nazwa, która z wielu powodów nie jest już dokładnym opisem zestawu modeli) są tradycyjnie analizowane metodami bayesowskimi, głównie ze względu na dostępność świetnych pakietów oprogramowania do tego celu (JAG, Stan na przykład). Jednak nic nie mówi, że te modele muszą być ściśle bayesowskie. W rzeczywistości pracowałem nad projektem NIMBLE, który buduje te modele w środowisku BUG, ale daje użytkownikowi znacznie więcej swobody w zakresie wnioskowania na ich temat. Podczas gdy zdecydowana większość dostarczonych przez nas narzędzi to konfigurowalne metody MCMC Bayesa, można również użyć oszacowania maksymalnego prawdopodobieństwa, tradycyjnie częstej metody, również dla tych modeli. Podobnie, priory są często uważane za to, co można zrobić z Bayesianem, czego nie można zrobić z modelami Frequentist. Jednak oszacowanie karne może zapewnić te same modele przy użyciu oszacowań parametrów regularyzacji (chociaż struktura Bayesa zapewnia łatwiejszy sposób uzasadnienia i wyboru parametrów regularyzacji, podczas gdy częstokroć pozostawia, w najlepszym przypadku, wiele danych ”, wybraliśmy te parametry regularyzacji, ponieważ w dużej liczbie próbek poddanych walidacji krzyżowej obniżyły szacowany błąd braku próby „... na lepsze lub gorsze).
źródło
Bayesianie i częste osoby uważają, że prawdopodobieństwa reprezentują różne rzeczy. Częstokroć uważają, że są one związane z częstotliwościami i mają sens tylko w kontekstach, w których częstotliwości są możliwe. Bayesianie postrzegają je jako sposoby reprezentowania niepewności. Ponieważ każdy fakt może być niepewny, możesz mówić o prawdopodobieństwie czegokolwiek.
Konsekwencją matematyczną jest to, że osoby często uczące się uważają, że podstawowe równania prawdopodobieństwa mają zastosowanie tylko czasami, a Bayesianie uważają, że zawsze mają zastosowanie. Uważają więc te same równania za poprawne, ale różnią się tym, jak ogólne są.
Ma to następujące praktyczne konsekwencje:
(1) Bayesianie będą czerpać swoje metody z podstawowych równań teorii prawdopodobieństwa (których twierdzenie Bayesa jest tylko jednym przykładem), podczas gdy częstokroć wymyślają jedno intuicyjne podejście ad hoc po drugim, aby rozwiązać każdy problem.
(2) Istnieją twierdzenia wskazujące, że jeśli wnioskujesz z niepełnych informacji, lepiej konsekwentnie korzystaj z podstawowych równań teorii prawdopodobieństwa, w przeciwnym razie będziesz miał kłopoty. Wiele osób ma wątpliwości co do znaczenia takich twierdzeń, ale to właśnie widzimy w praktyce.
Na przykład możliwe jest, że w prawdziwym świecie niewinnie wyglądające przedziały ufności 95% składają się całkowicie z wartości, które są możliwe do udowodnienia (na podstawie tych samych informacji, które posłużyły do ustalenia przedziału ufności). Innymi słowy, metody Frequentist mogą być sprzeczne z prostą logiką dedukcyjną. Metody bayesowskie wywodzące się całkowicie z podstawowych równań teorii prawdopodobieństwa nie mają tego problemu.
(3) Bayesian jest ściśle bardziej ogólny niż Frequentist. Ponieważ każdy fakt może być niepewny, każdemu faktowi można przypisać prawdopodobieństwo. W szczególności, jeśli fakty, nad którymi pracujesz, są związane z częstotliwościami w świecie rzeczywistym (albo jako coś, co przewidujesz, albo jako część danych), wówczas metody bayesowskie mogą je rozważyć i wykorzystać tak, jak w przypadku innych faktów z prawdziwego świata.
W związku z tym każdy problem, który częste osoby czują, że ich metody mają zastosowanie do Bayesianów, może również działać w sposób naturalny. Jednak odwrotność często nie jest prawdą, chyba że częstokroć wymyślą podstępy, aby zinterpretować swoje prawdopodobieństwo jako „częstotliwość”, taką jak na przykład wyobrażenie sobie wielu wszechświatów lub wymyślenie hipotetycznych powtórzeń do nieskończoności, które nigdy nie są wykonywane i często nie mogą być w zasadzie .
źródło
Tak, i dokładnie to robią ludzie zarówno w filozofii nauki, jak iw matematyce.
Podejście filozoficzne. Wikipedia stanowi kompendium interpretacji / definicji prawdopodobieństwa .
Matematycy nie są bezpieczni. W przeszłości szkoła w Kołmogorowie posiadała monopol prawdopodobieństwa: prawdopodobieństwo definiuje się jako miarę skończoną, która przypisuje 1 całej przestrzeni ... Ta hegemonia nie jest już aktualna, ponieważ istnieją nowe trendy w definiowaniu prawdopodobieństwa, takie jak prawdopodobieństwo kwantowe i Bezpłatne prawdopodobieństwo .
źródło
Debata bayesowska / częsty opiera się na wielu podstawach. Jeśli mówisz o podstawach matematycznych, nie sądzę, że jest wiele.
Obaj muszą stosować różne przybliżone metody w przypadku złożonych problemów. Dwa przykłady to „bootstrap” dla częstego i „mcmc” dla bayesowskiego.
Oba pochodzą z rytuałów / procedur dotyczących ich używania. Częstym przykładem jest „zaproponowanie estymatora czegoś i oszacowanie jego właściwości przy powtarzanym próbkowaniu”, podczas gdy przykład bayesowski to „obliczenie rozkładów prawdopodobieństwa dla tego, czego nie znasz, w zależności od tego, co wiesz”. Nie ma matematycznej podstawy do wykorzystania prawdopodobieństw w ten sposób.
Debata dotyczy bardziej zastosowania, interpretacji i umiejętności rozwiązywania rzeczywistych problemów.
W rzeczywistości jest to często używane przez ludzi debatujących nad „swoją stroną”, gdzie zastosują określony „rytuał / procedurę” zastosowany przez „drugą stronę”, aby argumentować, że cała teoria powinna zostać odrzucona za nich. Niektóre przykłady obejmują ...
źródło
Nie. Nie następuje. Osoby, które nie są w stanie poczuć swoich emocji, są biologicznie niezdolne do podejmowania decyzji, w tym decyzji, które wydają się mieć tylko jedno obiektywne rozwiązanie. Powodem jest to, że racjonalne podejmowanie decyzji zależy od naszej zdolności emocjonalnej i naszych preferencji zarówno poznawczych, jak i emocjonalnych. Choć jest to przerażające, jest to rzeczywistość empiryczna.
Osoba, która woli jabłka od pomarańczy, nie może tego bronić, ponieważ jest to preferencja. I odwrotnie, osoba, która woli jabłka od pomarańczy, nie może tego racjonalnie bronić, ponieważ jest to preferencja. Ludzie, którzy wolą jabłka, często jedzą pomarańcze, ponieważ koszt jabłek jest zbyt wysoki w porównaniu do kosztu pomarańczy.
Znaczna część debaty bayesowskiej i częstej, a także debaty likwializmowej i częstej, koncentrowała się wokół błędów w zrozumieniu. Niemniej jednak, jeśli wyobrażamy sobie, że mamy osobę, która jest dobrze wyszkolona we wszystkich metodach, w tym w metodach mniejszych lub już nieużywanych, takich jak prawdopodobieństwo Karnapiana lub statystyki powiernicze, wówczas rozsądne jest, aby woleli niektóre narzędzia od innych narzędzi.
Racjonalność zależy tylko od preferencji; zachowanie zależy od preferencji i kosztów.
Może się zdarzyć, że z czysto matematycznego punktu widzenia jedno narzędzie jest lepsze od drugiego, gdzie lepiej definiuje się za pomocą funkcji kosztu lub użyteczności, ale o ile nie ma jednoznacznej odpowiedzi, w której tylko jedno narzędzie mogłoby działać, wówczas zarówno koszty, jak i preferencje należy zważyć.
Rozważ problem bukmachera rozważającego oferowanie złożonego zakładu. Oczywiście bukmacher powinien w tym przypadku stosować metody bayesowskie, ponieważ są one spójne i mają inne miłe właściwości, ale wyobraź sobie również, że bukmacher ma tylko kalkulator, a nawet ołówek i papier. Może się zdarzyć, że bukmacher, korzystając ze swojego kalkulatora i śledząc rzeczy w swojej głowie, może obliczyć rozwiązanie Frequentist i nie ma na Ziemi szansy na obliczenie Bayesian. Jeśli jest skłonny zaryzykować bycie „rezerwatorem holenderskim”, a także stwierdzi, że potencjalny koszt jest wystarczająco mały, rozsądne jest, aby oferował zakłady przy użyciu metod Frequentist.
To jest racjonalne dla ty być agnostykiem , bo twoje preferencje emocjonalne okaże się, że będzie lepiej dla ciebie. Nie jest racjonalne, aby pole było agnostyczne, chyba że uważasz, że wszyscy ludzie podzielają twoje preferencje emocjonalne i poznawcze, co, jak wiemy, nie jest prawdą.
Celem debaty akademickiej jest ukazanie zarówno starych, jak i nowych pomysłów. Duża część debaty bayesowskiej i częstokrzyskiej oraz debaty likwializmistycznej i częstokrzyskiej wynikała z nieporozumień i niechlujstwa myśli. Niektóre z nich wynikały z braku przywołania preferencji dotyczących tego, czym są. Dyskusja na temat zalet obiektywnego i hałaśliwego estymatora w porównaniu z uprzedzeniem i dokładnością estymatora jest dyskusją na temat preferencji emocjonalnych, ale dopóki ktoś go nie ma, jest całkiem prawdopodobne, że myślenie o nim pozostanie mętne na całym polu.
Dlaczego? Ponieważ wolisz Kołmogorowa niż Coxa, de Finetti czy Savage'a? Czy ta preferencja się wkrada? Również prawdopodobieństwo i statystyki nie są matematyką, używają matematyki. Jest to gałąź retoryki. Aby zrozumieć, dlaczego może to mieć znaczenie, rozważ swoje oświadczenie:
To nie jest prawda. Jest ładny artykuł na temat przedziałów ufności i ich nadużywania, cytowanie to:
Jeśli przeczytasz różne potencjalne przedziały ufności w artykule, każdy z nich jest poprawny matematycznie, ale jeśli następnie ocenisz ich właściwości, różnią się one znacznie. Rzeczywiście, niektóre z podanych przedziałów ufności można uznać za mające „złe” właściwości, chociaż spełniają wszystkie założenia problemu. Jeśli usuniesz interwał bayesowski z listy i skupisz się tylko na czterech interwałach częstych, to jeśli wykonasz głębszą analizę, kiedy interwały są szerokie, wąskie lub stałe, okaże się, że interwały mogą nie być „równe” „chociaż każdy spełnia założenia i wymagania.
Nie wystarczy, aby był on poprawny matematycznie, aby był użyteczny lub, alternatywnie, tak użyteczny, jak to możliwe. Podobnie może być matematycznie prawdziwe, ale szkodliwe. W artykule jest przedział, który jest najbardziej wąski, kiedy jest najmniej informacji o prawdziwej lokalizacji, a najszerszy, gdy istnieje idealna wiedza lub prawie idealna wiedza na temat lokalizacji parametru. Niezależnie od tego spełnia wymagania dotyczące zasięgu i spełnia założenia.
Matematyka nigdy nie wystarczy.
źródło