To pytanie zostało zainspirowane dwiema niedawnymi interakcjami, które miałem, jedną tutaj w CV , drugą w ekonomics.se.
Tam miałem wysłana odpowiedź do znanego „Koperta Paradox” (Pamiętaj, a nie jak w „poprawnej odpowiedzi”, ale jako odpowiedź płynącą z określonych założeń o strukturze sytuacji). Po pewnym czasie użytkownik opublikował krytyczny komentarz, a ja zaangażowałem się w rozmowę, próbując zrozumieć jego punkt widzenia. Było oczywiste, że myślał tak Bayesa i przestawał mówić o priors-i wtedy dotarło do mnie, a ja powiedziałem do mojej jaźni: "Chwileczkę, który powiedział coś o dowolny przed? W sposób, jaki sformułował problem, nie ma tu żadnych priorytetów, po prostu nie wchodzą na obraz i nie muszą ".
Ostatnio widziałem tę odpowiedź tutaj w CV, dotyczącą znaczenia niezależności statystycznej. Skomentowałem autorowi, że jego zdanie
„... jeśli zdarzenia są statystycznie niezależne, to (z definicji) nie możemy dowiedzieć się o jednym z obserwacji drugiego”.
rażąco się mylił. W ramach wymiany komentarzy wciąż powracał do kwestii (swoich słów)
„Czy„ uczenie się ”nie oznaczałoby zmiany naszych przekonań na temat rzeczy opartych na obserwacji innej osoby? Jeśli tak, to czy niezależność (definitywnie) nie wyklucza tego?
Po raz kolejny było oczywiste, że myślał w sposób bayesowski i że uważał za oczywiste, że zaczynamy od pewnych przekonań (tj. Wcześniejszych) , a następnie kwestią jest to, jak możemy je zmienić / zaktualizować. Ale jak powstaje pierwsze przekonanie?
Ponieważ nauka musi być zgodna z rzeczywistością, zauważam, że istnieją sytuacje, w których zaangażowani ludzie nie mają żadnych priorytetów (po pierwsze, wchodzę w sytuacje bez wcześniejszego czasu - i proszę, nie twierdzę, że mam takie priorytety, ale ja tylko nie zdawaj sobie z tego sprawy, oszczędzajmy sobie tutaj fałszywej psychoanalizy).
Ponieważ zdarzyło mi się słyszeć termin „nieinformacyjne priory”, dzielę swoje pytanie na dwie części i jestem całkiem pewien, że użytkownicy tutaj, którzy są bystrzy w teorii bayesowskiej, wiedzą dokładnie, o co zamierzam zapytać:
P1: Czy brak wcześniejszego ekwiwalentu (w ścisłym sensie teoretycznym) posiadania nieinformacyjnego przeora?
Jeśli odpowiedź na pytanie 1 brzmi „tak” (proszę o pewne rozwinięcie), oznacza to, że podejście bayesowskie ma zastosowanie uniwersalne i od samego początku , ponieważ w każdym przypadku zaangażowana osoba deklaruje „nie mam żadnych priorytetów”, które możemy uzupełnić jego miejsce nie jest pouczające dla omawianej sprawy.
Ale jeśli odpowiedź na Q1 jest „Nie”, a następnie Q2 przychodzi:
Pytanie 2: Jeśli odpowiedź na pytanie 1 brzmi „Nie”, oznacza to, że w przypadkach, w których nie ma żadnych priorytetów, podejście bayesowskie nie ma zastosowania od samego początku i musimy najpierw utworzyć przeorat w jakiś sposób nie bayesowski, abyśmy mogli następnie zastosować podejście bayesowskie?
źródło
Odpowiedzi:
P1: Czy brak wcześniejszego ekwiwalentu (w ścisłym sensie teoretycznym) posiadania nieinformacyjnego przeora?
Nie.
Po pierwsze, nie ma matematycznej definicji „nieinformacyjnego przeora”. To słowo jest używane tylko nieoficjalnie, aby opisać niektóre priorytety.
Na przykład przeor Jeffreya jest często nazywany „nieinformacyjnym”. To wcześniejsze uogólnienie ujednoliconego wcześniejszego dla problemów niezmiennych w tłumaczeniu. Wcześniej Jeffrey w jakiś sposób dostosowuje się do (teoretycznej informacji) geometrii modelu Riemanniana, a zatem jest niezależny od parametryzacji, zależny tylko od geometrii rozmaitości (w przestrzeni rozkładów), która jest modelem. Może to być postrzegane jako kanoniczne, ale to tylko wybór. To tylko mundur wcześniejszy według struktury Riemanniana. Nie jest absurdem definiowanie „nieinformacyjny = mundur” jako uproszczenia pytania. Dotyczy to wielu przypadków i pomaga zadać jasne i proste pytanie.
Podejścia bayesowskie i częste po prostu odpowiadają na różne pytania. Na przykład o estymatorach, które mogą być najprostsze:
Jakoś częstokroć dąży do kontroli najgorszego przypadku i nie potrzebuje uprzedniego. Bayesian dąży do średniej kontroli i wymaga uprzedniego powiedzenia „średnia w jakim sensie”.
Pytanie 2: Jeśli odpowiedź na pytanie 1 brzmi „Nie”, oznacza to, że w przypadkach, w których nie ma żadnych priorytetów, podejście bayesowskie nie ma zastosowania od samego początku i musimy najpierw utworzyć przeorat w jakiś sposób nie bayesowski, abyśmy mogli następnie zastosować podejście bayesowskie?
Tak.
Moim zdaniem prawdziwe problemy z wcześniejszą specyfikacją zdarzają się w bardziej skomplikowanych problemach. Ważne jest, aby zrozumieć, co mówi pewien uprzedni.
źródło
Przede wszystkim często stosuje się podejście bayesowskie, ponieważ chcesz uwzględnić wcześniejszą wiedzę w swoim modelu, aby ją wzbogacić. Jeśli nie masz żadnej wcześniejszej wiedzy, trzymaj się tak zwanych „nieinformacyjnych” lub cotygodniowych informacji. Zauważ, że jednolity przełożony nie jest z definicji „nieinformacyjny”, ponieważ założenie o jednolitości jest założeniem. Nie ma czegoś takiego jak naprawdę nieinformacyjny przeor. Są przypadki, w których „to może być cokolwiek” jest rozsądnym „nieinformacyjnym” wcześniejszym założeniem, ale są też przypadki, w których stwierdzenie, że „wszystkie wartości są jednakowo prawdopodobne” jest bardzo mocnym i nieuzasadnionym założeniem. Na przykład, jeśli przyjmiesz, że mój wzrost może wynosić od 0 centymetrów do 3 metrów, a wszystkie wartości są równie prawdopodobne z góry a priori, nie byłoby to rozsądnym założeniem i nadałoby zbyt duże znaczenie wartościom ekstremalnym, więc może to zniekształcić twój tył.
Z drugiej strony Bayesian argumentowałby, że tak naprawdę nie ma sytuacji, w których nie ma się żadnej wiedzy ani przekonań. Zawsze możesz coś założyć i jako człowiek robisz to przez cały czas (psychologowie i ekonomiści behawioralni przeprowadzili mnóstwo badań na ten temat). Cały zamieszanie bayesowskie z priorami dotyczy kwantyfikacji tych uprzedzeń i wyrażenia ich wprost w twoim modelu, ponieważ wnioskowanie bayesowskie dotyczy aktualizacji twoich przekonań .
Łatwo jest wymyślić argumenty „bez wcześniejszych założeń” lub jednolite priorytety dla abstrakcyjnych problemów, ale dla rzeczywistych problemów, które posiadasz wcześniej. Gdybyś musiał postawić zakład o kwotę pieniędzy w kopercie, wiedziałbyś, że kwota musi być nieujemna i skończona. Możesz również zgadnąć, co to jest górna granica możliwej kwoty pieniędzy, biorąc pod uwagę swoją wiedzę na temat zasad konkursu, środków dostępnych dla przeciwnika, wiedzę o fizycznym rozmiarze koperty i ilości pieniędzy, które mogłyby fizycznie zmieścić w nim itp. Możesz także zgadywać, ile pieniędzy twój przeciwnik może chcieć włożyć do koperty i być może stracić. Jest wiele rzeczy, które powinieneś znać jako podstawę swojego przeora.
źródło
pytanie 1 Myślę, że odpowiedź brzmi prawdopodobnie nie. Moim powodem jest to, że tak naprawdę nie mamy definicji terminu „nieinformacyjny”, z wyjątkiem mierzenia, jak daleko jest ostateczna odpowiedź od jakiegoś arbitralnie informacyjnego modelu / prawdopodobieństwa. Wiele nieinformacyjnych priorytetów jest sprawdzanych na podstawie „intuicyjnych” przykładów, w których mamy już na myśli „model / prawdopodobieństwo” i „odpowiedź”. Następnie pytamy osoby pozbawione informacji przed udzieleniem nam odpowiedzi, której oczekujemy.
Mój problem polega na tym, że mam trudności z przekonaniem, że ktoś może mieć naprawdę dobry, dobrze poinformowany model lub strukturę modelu dla swojej populacji, a jednocześnie nie ma „informacji” na temat prawdopodobnych i mało prawdopodobnych wartości parametrów dla tego modelu. Na przykład przy użyciu regresji logistycznej, patrz „DOMYŚLNIE INFORMACYJNA DOMYŚLNA DYSTRYBUCJA WCZEŚNIEJ DLA MODELI LOGISTYCZNYCH I INNYCH REJESTRACJI”
Myślę, że dyskretny jednolity przeor jest jedynym, który można zasadnie powiedzieć, że jest to przeor „pierwszy na pierwszym”. Ale napotykasz problemy z używaniem go, myśląc, że nie masz „żadnych informacji”, ale nagle reagujesz na „nieintuicyjne” odpowiedzi (wskazówka: jeśli nie podoba ci się odpowiedź bayesowska - możesz pominąć informacje z poprzedniego lub prawdopodobieństwo!). Innym problemem, na który napotykasz, jest dostosowanie dyskretyzacji do twojego problemu. Nawet o tym myśląc, musisz znać liczbę dyskretnych wartości, aby zastosować dyskretny jednolity wcześniej.
Inną właściwością, którą należy wziąć pod uwagę w przypadku swojego przeora, jest „zachowanie ogona” w stosunku do prawdopodobieństwa, z którego korzystasz.
do pytania 2
Pod względem koncepcyjnym nie widzę nic złego w określaniu dystrybucji bez użycia uprzedniego lub prawdopodobieństwa. Możesz zacząć problem od powiedzenia „mój pdf to… i chcę obliczyć… wrt ten pdf”. Następnie tworzysz ograniczenie dla wcześniejszej, wcześniejszej predykcji i prawdopodobieństwa. Metoda bayesowska ma zastosowanie, gdy masz pierwszeństwo i prawdopodobieństwo, i chcesz połączyć je w rozkład boczny.
Prawdopodobnie chodzi o wyjaśnienie, jakie są twoje prawdopodobieństwa. Następnie argument zmienia się na „czy ten pdf / pmf reprezentuje to, co mówię, że reprezentuje?” - myślę, że jest to przestrzeń, w której chcesz być. W swoim przykładzie mówisz, że pojedyncza dystrybucja odzwierciedla wszystkie dostępne informacje - nie ma „wcześniejszej”, ponieważ jest już zawarta (domyślnie) w używanej dystrybucji.
w sprawie tak rażąco błędnego komentarza
Szczerze mówiąc, bardzo chciałbym zobaczyć, jak można wykorzystać dowolną liczbę obserwacji do przewidzenia obserwacji „statystycznie niezależnej”. Na przykład, jeśli powiem, wygeneruję 100 standardowych zmiennych normalnych. Daję ci 99, i daj mi najlepszą prognozę na 100. miejsce. Mówię, że nie można dokonać lepszej prognozy dla setnego niż 0. Ale to jest to samo, co można przewidzieć dla setnego, gdybym nie dał wam żadnych danych. Dlatego nie uczysz się niczego z 99 punktów danych.
Jeśli jednak powiem ci, że był to „rozkład normalny”, możesz użyć 99 punktów danych do oszacowania parametrów. Następnie dane nie są już „statystycznie niezależne”, ponieważ dowiadujemy się więcej o wspólnej strukturze, gdy obserwujemy więcej danych. Twoja najlepsza prognoza wykorzystuje teraz wszystkie 99 punktów danych
źródło
To tylko krótka uwaga jako dodatek do innych doskonałych odpowiedzi. Często, a przynajmniej czasami, nieco arbitralne (lub konwencjonalne) jest to, która część informacji wprowadzana do analizy statystycznej nazywa się danymi, a która część nazywa się wcześniej . Lub, bardziej ogólnie, możemy powiedzieć, że informacje w analizie statystycznej pochodzą z trzech źródeł: modelu , danych i wcześniejszego . W niektórych przypadkach, takich jak modele liniowe lub GLM, separacja jest dość wyraźna, przynajmniej konwencjonalnie.
Ponownie wykorzystam przykład z oszacowania maksymalnego prawdopodobieństwa (MLE) dla laika, aby zilustrować mój punkt widzenia. Powiedzmy, że pacjent wchodzi do gabinetu lekarskiego, a niektóre problemy medyczne okazują się trudne do zdiagnozowania. Ten lekarz nie widział wcześniej czegoś całkiem podobnego. Następnie, rozmawiając z pacjentem, pojawia się kilka nowych informacji: ten pacjent niedawno odwiedził tropikalną Afrykę. Następnie lekarzowi wydaje się, że może to być malaria lub inna choroba tropikalna. Pamiętaj jednak, że ta informacja jest dla nas wyraźnie danymi, ale przynajmniej w wielu modelach statystycznych, które mogłyby zostać zastosowane, przejdzie ono do analizy w postaci wcześniejszej dystrybucji, wcześniejszej dystrybucji dającej większe prawdopodobieństwo niektórych chorób tropikalnych. Ale moglibyśmy stworzyć (większy), bardziej kompletny model, w którym informacje te wprowadzane są jako dane. Tak więc przynajmniej częściowo dane dotyczące rozróżnienia / uprzedniej są konwencjonalne.
Jesteśmy przyzwyczajeni do tej konwencji i akceptujemy ją, ponieważ kładziemy nacisk na niektóre klasy modeli konwencjonalnych. Ale w większym schemacie rzeczy, poza światem stylizowanych modeli statystycznych, sytuacja jest mniej jasna.
źródło