Powiedzmy, że mam trzy niezależne źródła i każde z nich przewiduje prognozy pogody na jutro. Pierwszy mówi, że prawdopodobieństwo jutra deszczu wynosi 0, następnie drugi mówi, że prawdopodobieństwo wynosi 1, a na koniec ostatni mówi, że prawdopodobieństwo wynosi 50%. Chciałbym poznać całkowite prawdopodobieństwo, biorąc pod uwagę tę informację.
Jeśli zastosuję twierdzenie o mnożeniu dla niezależnych zdarzeń, otrzymam 0, co nie wydaje się poprawne. Dlaczego nie można pomnożyć wszystkich trzech, jeśli wszystkie źródła są niezależne? Czy istnieje jakiś bayesowski sposób na aktualizację przeora, gdy otrzymam nowe informacje?
Uwaga: To nie jest praca domowa, to coś, o czym myślałem.
probability
bayesian
pooling
model-averaging
forecast-combination
Biela Diela
źródło
źródło
Odpowiedzi:
Pytasz o trzy rzeczy: (a) jak połączyć kilka prognoz, aby uzyskać pojedynczą prognozę, (b) czy można tu zastosować podejście bayesowskie, oraz (c) jak radzić sobie z zerowymi prawdopodobieństwami.
Łączenie prognoz jest powszechną praktyką . Jeśli masz kilka prognoz, niż jeśli weźmiesz średnią z tych prognoz, wynikowa połączona prognoza powinna być lepsza pod względem dokładności niż jakakolwiek z poszczególnych prognoz. Aby je uśrednić, można użyć średniej ważonej, gdy wagi oparte są na błędach odwrotnych (tj. Precyzji) lub zawartości informacyjnej . Jeśli posiadasz wiedzę na temat niezawodności każdego źródła, możesz przypisać wagi proporcjonalne do niezawodności każdego źródła, więc bardziej niezawodne źródła mają większy wpływ na ostateczną łączną prognozę. W twoim przypadku nie masz żadnej wiedzy na temat ich wiarygodności, więc każda z prognoz ma taką samą wagę i dlatego możesz użyć prostej średniej arytmetycznej z trzech prognoz
Jak zasugerowali w komentarzach @AndyW i @ArthurB. , dostępne są inne metody oprócz prostej średniej ważonej. Wiele takich metod jest opisanych w literaturze na temat uśredniania prognoz ekspertów, których wcześniej nie znałem, więc dziękuję. W uśrednianiu prognoz ekspertów czasami chcemy skorygować fakt, że eksperci mają tendencję do regresji do średniej (Baron i in., 2013), lub też czynią swoje prognozy bardziej ekstremalnymi (Ariely i in., 2000; Erev i in., 1994). Aby to osiągnąć, można wykorzystać przekształcenia poszczególnych prognoz , np. Funkcję logitpi
szanse na potęgęa
gdzie lub bardziej ogólna transformacja formy0<a<1
gdzie jeśli = 1 nie transformacja jest stosowana, jeśli > 1 poszczególne prognozy są bardziej ekstremalne, jeśli 0 < a < 1 prognozy są mniej ekstremalne, co jest pokazane na rysunku poniżej (patrz Karmarkar, 1978; Baron et al, 2013 ).a=1 a>1 0<a<1
Po takiej transformacji prognozy są uśredniane (przy użyciu średniej arytmetycznej, mediany, średniej ważonej lub innej metody). Jeśli zastosowano równania (1) lub (2), wyniki należy przekształcić wstecznie za pomocą odwrotnego logitu dla (1) i odwrotnych szans dla (2). Alternatywnie można zastosować średnią geometryczną (patrz Genest i Zidek, 1986; por. Dietrich i List, 2014)
lub podejście zaproponowane przez Satopää i in. (2014)
gdzie są ciężary. W większości przypadków stosuje się jednakowe wagi w i = 1 / N, chyba że istnieją informacje a priori sugerujące istnienie innego wyboru. Takie metody stosuje się w uśrednianiu prognoz ekspertów, aby skorygować niedostateczną lub nadmierną pewność siebie. W innych przypadkach należy rozważyć, czy przekształcenie prognoz na bardziej lub mniej ekstremalne jest uzasadnione, ponieważ może to spowodować, że wynikowe oszacowania zagregowane wypadną poza granice wyznaczone przez najniższą i największą indywidualną prognozę.wi wi=1/N
Jeśli masz wiedzę a priori o prawdopodobieństwie deszczu, możesz zastosować twierdzenie Bayesa, aby zaktualizować prognozy, biorąc pod uwagę prawdopodobieństwo a priori deszczu w podobny sposób, jak opisano tutaj . Istnieje również proste podejście, które można zastosować, tj. Obliczyć średnią ważoną swoich prognoz (jak opisano powyżej), w których wcześniejsze prawdopodobieństwo π jest traktowane jako dodatkowy punkt danych z pewną wcześniej określoną wagą w π jak w tym przykładzie IMDB (patrz także źródło , lub tu i tutaj do dyskusji; por. Genest i Schervish, 1985), tjpi π wπ
Z twojego pytania nie wynika jednak, że masz jakąś a priori wiedzę na temat swojego problemu, więc prawdopodobnie użyłbyś jednolitego przeora, tj. Zakładałbyś z góry szansę na deszcz, a to tak naprawdę niewiele się zmienia w przypadku podanego przez ciebie przykładu.50%
Do radzenia sobie z zerami istnieje kilka różnych podejść. Najpierw powinieneś zauważyć, że szansy na deszcz nie jest tak naprawdę wiarygodną wartością, ponieważ mówi, że nie jest możliwe , aby padało. Podobne problemy często występują w przetwarzaniu języka naturalnego, gdy w danych nie obserwuje się niektórych wartości, które mogą wystąpić (np. Liczone są częstotliwości liter, aw danych nie występuje żadna niezwykła litera). W tym przypadku klasyczny estymator prawdopodobieństwa, tj0%
gdzie jest liczbą wystąpień i tej wartości (spośród kategorii d ), daje ci p i = 0, jeśli n i = 0 . Nazywa się to problemem zerowej częstotliwości . W przypadku takich wartości wiadomo, że ich prawdopodobieństwo jest niezerowe (istnieją!), Więc ta ocena jest oczywiście nieprawidłowa. Istnieje również praktyczny problem: mnożenie i dzielenie przez zera prowadzi do zer lub niezdefiniowanych wyników, więc zerowanie jest problematyczne.ni i d pi=0 ni=0
Łatwą i powszechnie stosowaną poprawką jest dodanie do obliczeń stałej wartości , aby to zrobićβ
Wspólnym miejscem na jest 1 , to znaczy zastosowanie jednolitych przed oparciu o reguły Laplace'a dziedziczenia , 1 / 2 do oszacowania Krichevsky-Trofimov lub 1 / d do Schurmann-Grassberger (1996) estymatora. Zauważ jednak, że to, co tu robisz, polega na stosowaniu w swoim modelu informacji o braku danych (wcześniejszych), dzięki czemu uzyskuje subiektywny, bayesowski smak. Stosując to podejście, musisz pamiętać o przyjętych założeniach i brać je pod uwagę. Fakt, że mamy silne a prioriβ 1 1/2 1/d wiedza, że w naszych danych nie powinno być żadnych zerowych prawdopodobieństw, bezpośrednio uzasadnia tu podejście bayesowskie. W twoim przypadku nie masz częstotliwości, ale prawdopodobieństwa, więc dodajesz bardzo małą wartość, aby skorygować zera. Zauważ jednak, że w niektórych przypadkach takie podejście może mieć złe konsekwencje (np. Przy logowaniu ), dlatego należy zachować ostrożność.
Schurmann, T. i P. Grassberger. (1996). Oszacowanie entropii sekwencji symboli. Chaos, 6, 41–427.
Ariely, D., Tung Au, W., Bender, RH, Budescu, DV, Dietz, CB, Gu, H., Wallsten, TS and Zauberman, G. (2000). Skutki uśrednienia subiektywnych szacunków prawdopodobieństwa między sędziami i wewnątrz nich. Journal of Experimental Psychology: Applied, 6 (2), 130.
Baron, J., Mellers, BA, Tetlock, PE, Stone, E. and Ungar, LH (2014). Dwa powody, dla których zagregowane prognozy prawdopodobieństwa są bardziej ekstremalne. Analiza decyzji, 11 (2), 133-145.
Erev, I., Wallsten, TS i Budescu, DV (1994). Jednoczesna nadmierna i zbytnia pewność siebie: rola błędu w procesach oceny. Przegląd psychologiczny, 101 (3), 519.
Karmarkar, US (1978). Subiektywnie ważona użyteczność: opisowe rozszerzenie oczekiwanego modelu użyteczności. Zachowania organizacyjne i wydajność człowieka, 21 (1), 61–72.
Turner, BM, Steyvers, M., Merkle, EC, Budescu, DV i Wallsten, TS (2014). Agregacja prognoz poprzez rekalibrację. Uczenie maszynowe, 95 (3), 261–289.
Genest, C., i Zidek, JV (1986). Łączenie rozkładów prawdopodobieństwa: krytyka i bibliografia z adnotacjami. Nauki statystyczne, 1 , 114–135.
Satopää, VA, Baron, J., Foster, DP, Mellers, BA, Tetlock, PE i Ungar, LH (2014). Łączenie wielu prognoz prawdopodobieństwa za pomocą prostego modelu logit. International Journal of Forecasting, 30 (2), 344–356.
Genest, C., i Schervish, MJ (1985). Modelowanie osądów ekspertów dla aktualizacji bayesowskiej. The Annals of Statistics , 1198-1212.
Dietrich, F., i List, C. (2014). Probabilistyczne zestawianie opinii. (Niepublikowane)
źródło
Istnieją dwa sposoby myślenia o tym problemie. Można powiedzieć, że źródła obserwują hałaśliwą wersję ukrytej zmiennej „będzie padać / nie będzie padać”.
Ten model działa lepiej, jeśli myślisz o tym, że trzy osoby mówią ci, czy wczoraj padało. W praktyce wiemy, że w pogodzie występuje nieredukowalny komponent losowy, dlatego lepiej założyć, że natura najpierw wybiera prawdopodobieństwo deszczu, które jest głośno obserwowane przez źródła, a następnie rzuca stronniczą monetę, aby zdecydować, czy albo nie będzie padać.
W takim przypadku połączone szacunki wyglądałyby bardziej jak średnia między różnymi szacunkami.
źródło
W ramach Transferable Belief Model (TBM) możliwe jest łączenie różnych prognoz przy użyciu na przykład „spójnej reguły kombinacji”. Aby zastosować tę regułę, musisz przekształcić prawdopodobieństwa prognoz w podstawowe przypisania przekonań. Można to osiągnąć za pomocą tak zwanej zasady najmniejszego zaangażowania. W R:
W drugim przykładzie z trzech niezależnych prognoz o wartości 0,75 podejście to zwraca wyższą wartość:
Nie jest to bardzo dalekie od podejścia bayesowskiego pokazanego w odpowiedzi Artura B.
źródło
źródło
Ich liczba dla prawdopodobieństwa opadów deszczu to tylko połowa historii, ponieważ musielibyśmy ograniczyć ich przewidywania z prawdopodobieństwem, że są trafne podczas zgadywania.
Ponieważ coś takiego jak deszcz wyklucza się wzajemnie (albo pada deszcz, albo nie, w tym układzie), nie wszystkie mogą być jednocześnie poprawne z 75% prawdopodobieństwem, jak sugerowała Karsten (myślę, że trudno powiedzieć z zamieszaniem, słyszę o tym, co to znaczy znaleźć „połączone prawdopodobieństwo”).
Biorąc pod uwagę ich indywidualne zdolności przewidywania pogody, możemy spróbować (a la Thomas Bayes, jak na ogół ślepy strzał w ciemności), jaka jest szansa na jutro.
Stacja 1 ma rację w swoich prognozach w 60% przypadków, w drugich 30% przypadków, a ostatnia stacja w słabych 10% przypadków.
E [deszcz] = Px X + Py Y + Pz * Z to forma, na którą patrzymy tutaj:
(.6) (0) + (. 3) (1) + (. 1) (. 5) = E [deszcz] = 35% szansy na deszcz z podanymi dokładnościami prognozowania.
źródło
Istnieje wiele skomplikowanych odpowiedzi na to pytanie, ale co z średnią ważoną wariancją wariancji: https://en.wikipedia.org/wiki/Inverse-variance_weighting
Średnia ważona wariancją odwrotną wydaje się bardzo łatwa do obliczenia, a jako bonus ma najmniejszą wariancję spośród wszystkich średnich ważonych.
źródło
Aby połączyć niezawodność, moja formuła przejścia to r1xr2xr3 ÷ (r1xr2xr3 + (1-r1) x (1-r2) x (1-r3). Tak więc dla 3 źródeł niezawodności 75% wszystkich mówi to samo, miałbym .75 ^ 3 ÷ (.75 ^ 3 + .25 ^ 3) => 96% niezawodności połączonej odpowiedzi
źródło