Łączenie prawdopodobieństwa / informacji z różnych źródeł

26

Powiedzmy, że mam trzy niezależne źródła i każde z nich przewiduje prognozy pogody na jutro. Pierwszy mówi, że prawdopodobieństwo jutra deszczu wynosi 0, następnie drugi mówi, że prawdopodobieństwo wynosi 1, a na koniec ostatni mówi, że prawdopodobieństwo wynosi 50%. Chciałbym poznać całkowite prawdopodobieństwo, biorąc pod uwagę tę informację.

Jeśli zastosuję twierdzenie o mnożeniu dla niezależnych zdarzeń, otrzymam 0, co nie wydaje się poprawne. Dlaczego nie można pomnożyć wszystkich trzech, jeśli wszystkie źródła są niezależne? Czy istnieje jakiś bayesowski sposób na aktualizację przeora, gdy otrzymam nowe informacje?

Uwaga: To nie jest praca domowa, to coś, o czym myślałem.

Biela Diela
źródło
1
Czy wiesz, jak wiarygodne są niezależne źródła
Dilip Sarwate
Nie, z góry zakładam, że wszystkie źródła są jednakowo wiarygodne.
Biela Diela,
3
To też dobre pytanie, o którym myślę. Dodałbym drugie pytanie: Gdyby wszystkie prognozy wynosiły 0,75, jakie byłoby połączone prawdopodobieństwo? Wyższy niż 0,75? Jakie byłyby formalne ramy dla analizy tego rodzaju pytań?
Karsten W.,
2
Naprawdę nie ma wystarczająco dużo informacji; potrzebujemy jakiegoś modelu tego, w jaki sposób przewidywania mają odnosić się do rzeczywistości.
Glen_b
Nie jestem do końca pewien, co należy rozumieć przez „wszystkie źródła są jednakowo wiarygodne”, gdy źródła podają stwierdzenia dotyczące prawdopodobieństwa lub poziomów zaufania / zaufania. Jeśli mówimy o prawdopodobieństwie, że pewne prawdopodobieństwo ma określoną wartość, która wydaje się rodzić problemy pojęciowe. BTW, jeśli źródła 1 i 2 są równie niezawodne, oba muszą mieć rację z prawdopodobieństwem 0,50 ... (a prawdopodobieństwo deszczu wynosi 1/2).
AG

Odpowiedzi:

32

Pytasz o trzy rzeczy: (a) jak połączyć kilka prognoz, aby uzyskać pojedynczą prognozę, (b) czy można tu zastosować podejście bayesowskie, oraz (c) jak radzić sobie z zerowymi prawdopodobieństwami.

Łączenie prognoz jest powszechną praktyką . Jeśli masz kilka prognoz, niż jeśli weźmiesz średnią z tych prognoz, wynikowa połączona prognoza powinna być lepsza pod względem dokładności niż jakakolwiek z poszczególnych prognoz. Aby je uśrednić, można użyć średniej ważonej, gdy wagi oparte są na błędach odwrotnych (tj. Precyzji) lub zawartości informacyjnej . Jeśli posiadasz wiedzę na temat niezawodności każdego źródła, możesz przypisać wagi proporcjonalne do niezawodności każdego źródła, więc bardziej niezawodne źródła mają większy wpływ na ostateczną łączną prognozę. W twoim przypadku nie masz żadnej wiedzy na temat ich wiarygodności, więc każda z prognoz ma taką samą wagę i dlatego możesz użyć prostej średniej arytmetycznej z trzech prognoz

0%×.33+50%×.33+100%×.33=(0%+50%+100%)/3=50%

Jak zasugerowali w komentarzach @AndyW i @ArthurB. , dostępne są inne metody oprócz prostej średniej ważonej. Wiele takich metod jest opisanych w literaturze na temat uśredniania prognoz ekspertów, których wcześniej nie znałem, więc dziękuję. W uśrednianiu prognoz ekspertów czasami chcemy skorygować fakt, że eksperci mają tendencję do regresji do średniej (Baron i in., 2013), lub też czynią swoje prognozy bardziej ekstremalnymi (Ariely i in., 2000; Erev i in., 1994). Aby to osiągnąć, można wykorzystać przekształcenia poszczególnych prognoz , np. Funkcję logitpi

(1)logit(pi)=log(pi1pi)

szanse na potęgęa

(2)g(pi)=(pi1pi)a

gdzie lub bardziej ogólna transformacja formy0<a<1

(3)t(pi)=piapia+(1pi)a

gdzie jeśli = 1 nie transformacja jest stosowana, jeśli > 1 poszczególne prognozy są bardziej ekstremalne, jeśli 0 < a < 1 prognozy są mniej ekstremalne, co jest pokazane na rysunku poniżej (patrz Karmarkar, 1978; Baron et al, 2013 ).a=1a>10<a<1

wprowadź opis zdjęcia tutaj

Po takiej transformacji prognozy są uśredniane (przy użyciu średniej arytmetycznej, mediany, średniej ważonej lub innej metody). Jeśli zastosowano równania (1) lub (2), wyniki należy przekształcić wstecznie za pomocą odwrotnego logitu dla (1) i odwrotnych szans dla (2). Alternatywnie można zastosować średnią geometryczną (patrz Genest i Zidek, 1986; por. Dietrich i List, 2014)

(4)p^=i=1Npiwii=1Npiwi+i=1N(1pi)wi

lub podejście zaproponowane przez Satopää i in. (2014)

(5)p^=[i=1N(pi1pi)wi]a1+[i=1N(pi1pi)wi]a

gdzie są ciężary. W większości przypadków stosuje się jednakowe wagi w i = 1 / N, chyba że istnieją informacje a priori sugerujące istnienie innego wyboru. Takie metody stosuje się w uśrednianiu prognoz ekspertów, aby skorygować niedostateczną lub nadmierną pewność siebie. W innych przypadkach należy rozważyć, czy przekształcenie prognoz na bardziej lub mniej ekstremalne jest uzasadnione, ponieważ może to spowodować, że wynikowe oszacowania zagregowane wypadną poza granice wyznaczone przez najniższą i największą indywidualną prognozę.wiwi=1/N

Jeśli masz wiedzę a priori o prawdopodobieństwie deszczu, możesz zastosować twierdzenie Bayesa, aby zaktualizować prognozy, biorąc pod uwagę prawdopodobieństwo a priori deszczu w podobny sposób, jak opisano tutaj . Istnieje również proste podejście, które można zastosować, tj. Obliczyć średnią ważoną swoich prognoz (jak opisano powyżej), w których wcześniejsze prawdopodobieństwo π jest traktowane jako dodatkowy punkt danych z pewną wcześniej określoną wagą w π jak w tym przykładzie IMDB (patrz także źródło , lub tu i tutaj do dyskusji; por. Genest i Schervish, 1985), tjpiπwπ

(6)p^=(i=1Npiwi)+πwπ(i=1Nwi)+wπ

Z twojego pytania nie wynika jednak, że masz jakąś a priori wiedzę na temat swojego problemu, więc prawdopodobnie użyłbyś jednolitego przeora, tj. Zakładałbyś z góry szansę na deszcz, a to tak naprawdę niewiele się zmienia w przypadku podanego przez ciebie przykładu.50%

Do radzenia sobie z zerami istnieje kilka różnych podejść. Najpierw powinieneś zauważyć, że szansy na deszcz nie jest tak naprawdę wiarygodną wartością, ponieważ mówi, że nie jest możliwe , aby padało. Podobne problemy często występują w przetwarzaniu języka naturalnego, gdy w danych nie obserwuje się niektórych wartości, które mogą wystąpić (np. Liczone są częstotliwości liter, aw danych nie występuje żadna niezwykła litera). W tym przypadku klasyczny estymator prawdopodobieństwa, tj0%

pi=niini

gdzie jest liczbą wystąpień i tej wartości (spośród kategorii d ), daje ci p i = 0, jeśli n i = 0 . Nazywa się to problemem zerowej częstotliwości . W przypadku takich wartości wiadomo, że ich prawdopodobieństwo jest niezerowe (istnieją!), Więc ta ocena jest oczywiście nieprawidłowa. Istnieje również praktyczny problem: mnożenie i dzielenie przez zera prowadzi do zer lub niezdefiniowanych wyników, więc zerowanie jest problematyczne.niidpi=0ni=0

Łatwą i powszechnie stosowaną poprawką jest dodanie do obliczeń stałej wartości , aby to zrobićβ

pi=ni+β(ini)+dβ

Wspólnym miejscem na jest 1 , to znaczy zastosowanie jednolitych przed oparciu o reguły Laplace'a dziedziczenia , 1 / 2 do oszacowania Krichevsky-Trofimov lub 1 / d do Schurmann-Grassberger (1996) estymatora. Zauważ jednak, że to, co tu robisz, polega na stosowaniu w swoim modelu informacji o braku danych (wcześniejszych), dzięki czemu uzyskuje subiektywny, bayesowski smak. Stosując to podejście, musisz pamiętać o przyjętych założeniach i brać je pod uwagę. Fakt, że mamy silne a prioriβ11/21/dwiedza, że ​​w naszych danych nie powinno być żadnych zerowych prawdopodobieństw, bezpośrednio uzasadnia tu podejście bayesowskie. W twoim przypadku nie masz częstotliwości, ale prawdopodobieństwa, więc dodajesz bardzo małą wartość, aby skorygować zera. Zauważ jednak, że w niektórych przypadkach takie podejście może mieć złe konsekwencje (np. Przy logowaniu ), dlatego należy zachować ostrożność.


Schurmann, T. i P. Grassberger. (1996). Oszacowanie entropii sekwencji symboli. Chaos, 6, 41–427.

Ariely, D., Tung Au, W., Bender, RH, Budescu, DV, Dietz, CB, Gu, H., Wallsten, TS and Zauberman, G. (2000). Skutki uśrednienia subiektywnych szacunków prawdopodobieństwa między sędziami i wewnątrz nich. Journal of Experimental Psychology: Applied, 6 (2), 130.

Baron, J., Mellers, BA, Tetlock, PE, Stone, E. and Ungar, LH (2014). Dwa powody, dla których zagregowane prognozy prawdopodobieństwa są bardziej ekstremalne. Analiza decyzji, 11 (2), 133-145.

Erev, I., Wallsten, TS i Budescu, DV (1994). Jednoczesna nadmierna i zbytnia pewność siebie: rola błędu w procesach oceny. Przegląd psychologiczny, 101 (3), 519.

Karmarkar, US (1978). Subiektywnie ważona użyteczność: opisowe rozszerzenie oczekiwanego modelu użyteczności. Zachowania organizacyjne i wydajność człowieka, 21 (1), 61–72.

Turner, BM, Steyvers, M., Merkle, EC, Budescu, DV i Wallsten, TS (2014). Agregacja prognoz poprzez rekalibrację. Uczenie maszynowe, 95 (3), 261–289.

Genest, C., i Zidek, JV (1986). Łączenie rozkładów prawdopodobieństwa: krytyka i bibliografia z adnotacjami. Nauki statystyczne, 1 , 114–135.

Satopää, VA, Baron, J., Foster, DP, Mellers, BA, Tetlock, PE i Ungar, LH (2014). Łączenie wielu prognoz prawdopodobieństwa za pomocą prostego modelu logit. International Journal of Forecasting, 30 (2), 344–356.

Genest, C., i Schervish, MJ (1985). Modelowanie osądów ekspertów dla aktualizacji bayesowskiej. The Annals of Statistics , 1198-1212.

Dietrich, F., i List, C. (2014). Probabilistyczne zestawianie opinii. (Niepublikowane)

Tim
źródło
2
Chciałem dodać do tego, a nie zacząć nową odpowiedź. Inną dobrze znaną metodą jest połączenie tych trzech (lub N) prawdopodobieństw przez wzięcie ich średniej geometrycznej (zamiast średniej arytmetycznej). Hinton zwraca uwagę, że daje to modelowi z bardzo dużym lub niskim prawdopodobieństwem, między innymi siłę „wetowania”, zamiast uśredniać wszystko, co czasami może działać przeciwko tobie.
Zhubarb,
Więc jeśli wszystkie trzy prognozy wynosiłyby 75%, a żadne informacje dotyczące ich wiarygodności nie byłyby dostępne, ostateczna prognoza wynosiłaby 75%?
Karsten W.,
@KarstenW. tak, dlaczego miałbyś oczekiwać czegoś innego? Jeśli nie masz informacji a priori, to jest to jedyna informacja, którą masz, więc nie masz powodu, aby uważać, że ostateczny wynik jest inny ...
Tim
1
Nie czytałem żadnych artykułów naukowych Tetlocka, ale zacznę od tego. Takich jak dwa powody, by zagregowane prognozy prawdopodobieństwa były bardziej ekstremalne . Sprawdzę dokładne sformułowania Phila, być może źle pamiętam słowo ekstremate .
Andy W
1
Byłem blisko z ekstremistycznymi , ale niezupełnie. Powinienem był użyć ekstremalnych , patrz tutaj . Oprócz Barona i in. wspomniany artykuł, widzę, że Ville Satopää ma trochę pracy na ten temat arxiv.org/abs/1506.06405 .
Andy W
6

Istnieją dwa sposoby myślenia o tym problemie. Można powiedzieć, że źródła obserwują hałaśliwą wersję ukrytej zmiennej „będzie padać / nie będzie padać”.

Beta(a+b,a)Beta(a,a+b)

axyz

p=11+(1x1)b(1y1)b(1z1)b

bb>1b<1b=1

p1p=x1xy1yz1z

10

Ten model działa lepiej, jeśli myślisz o tym, że trzy osoby mówią ci, czy wczoraj padało. W praktyce wiemy, że w pogodzie występuje nieredukowalny komponent losowy, dlatego lepiej założyć, że natura najpierw wybiera prawdopodobieństwo deszczu, które jest głośno obserwowane przez źródła, a następnie rzuca stronniczą monetę, aby zdecydować, czy albo nie będzie padać.

W takim przypadku połączone szacunki wyglądałyby bardziej jak średnia między różnymi szacunkami.

Arthur B.
źródło
Czym byłyby x, y, z w tym modelu?
Karsten W.,
Byłyby to trzy różne prognozy.
Arthur B.,
x=y=z=34p=2728342728
Przejście z 3/4 do 27/28 jest nieco ekstremalne, to tak, jakby trzy osoby mówiły ci, że niebo jest ciemnoniebieskie i doszedłeś do wniosku, że jest czarne ...
Tim
To zależy od modelu. Tutaj zakładam, że każde źródło ma hałaśliwy widok na ukrytą zmienną binarną, deszcz lub brak deszczu. To bardziej, jak trzy różne osoby mówią ci, że wczoraj padało. Możesz również modelować system, ponieważ istnieje utajone prawdopodobieństwo deszczu, a źródła prognozy - jak uzyskać głośną wersję tej prognozy.
Arthur B.
3

W ramach Transferable Belief Model (TBM) możliwe jest łączenie różnych prognoz przy użyciu na przykład „spójnej reguły kombinacji”. Aby zastosować tę regułę, musisz przekształcić prawdopodobieństwa prognoz w podstawowe przypisania przekonań. Można to osiągnąć za pomocą tak zwanej zasady najmniejszego zaangażowania. W R:

library(ibelief)
#probabilities
p1 <- c(0.99, 0.01) # bad results for 0 and 1
p2 <- c(0.01, 0.99)
p3 <- c(0.5, 0.5)

# basic belief assignment, 
# each row represents a subset of (rain, not rain)
# each column represents one prediction
Mat <- LCPrincple(rbind(p1,p2,p3))

# combine beliefs
m <- DST(Mat, 1)

# resulting probability distribution (pignistic probability)
mtobetp(m)
# returns 0.5 and 0.5

W drugim przykładzie z trzech niezależnych prognoz o wartości 0,75 podejście to zwraca wyższą wartość:

p4 <- c(0.75, 0.25)
Mat <- LCPrincple(rbind(p4,p4,p4))
m <- DST(Mat, 1)
mtobetp(m)
#returns 0.9375 0.0625

Nie jest to bardzo dalekie od podejścia bayesowskiego pokazanego w odpowiedzi Artura B.

Karsten W.
źródło
2

w1=σ22σ32σ12σ22+σ12σ32+σ22σ32, w2=σ12σ32σ12σ22+σ12σ32+σ22σ32, w3=σ12σ22σ12σ22+σ12σ32+σ22σ32.

13

σiσ12:σ22:σ32=1:2:4,

f=814(0)+414(1)+214(0.5)=0.3571
soakley
źródło
1

Ich liczba dla prawdopodobieństwa opadów deszczu to tylko połowa historii, ponieważ musielibyśmy ograniczyć ich przewidywania z prawdopodobieństwem, że są trafne podczas zgadywania.

Ponieważ coś takiego jak deszcz wyklucza się wzajemnie (albo pada deszcz, albo nie, w tym układzie), nie wszystkie mogą być jednocześnie poprawne z 75% prawdopodobieństwem, jak sugerowała Karsten (myślę, że trudno powiedzieć z zamieszaniem, słyszę o tym, co to znaczy znaleźć „połączone prawdopodobieństwo”).

Biorąc pod uwagę ich indywidualne zdolności przewidywania pogody, możemy spróbować (a la Thomas Bayes, jak na ogół ślepy strzał w ciemności), jaka jest szansa na jutro.

Stacja 1 ma rację w swoich prognozach w 60% przypadków, w drugich 30% przypadków, a ostatnia stacja w słabych 10% przypadków.

E [deszcz] = Px X + Py Y + Pz * Z to forma, na którą patrzymy tutaj:

(.6) (0) + (. 3) (1) + (. 1) (. 5) = E [deszcz] = 35% szansy na deszcz z podanymi dokładnościami prognozowania.

Havok
źródło
1
Ten algorytm może dawać wartości powyżej 1.
Andy W
1

Istnieje wiele skomplikowanych odpowiedzi na to pytanie, ale co z średnią ważoną wariancją wariancji: https://en.wikipedia.org/wiki/Inverse-variance_weighting

Zamiast n powtarzanych pomiarów za pomocą jednego przyrządu, jeśli eksperymentator wykonuje n tej samej ilości za pomocą n różnych przyrządów o różnej jakości pomiarów ...

Każda zmienna losowa jest ważona odwrotnie proporcjonalnie do jej wariancji.

Średnia ważona wariancją odwrotną wydaje się bardzo łatwa do obliczenia, a jako bonus ma najmniejszą wariancję spośród wszystkich średnich ważonych.

Loterie
źródło
-1

Aby połączyć niezawodność, moja formuła przejścia to r1xr2xr3 ÷ (r1xr2xr3 + (1-r1) x (1-r2) x (1-r3). Tak więc dla 3 źródeł niezawodności 75% wszystkich mówi to samo, miałbym .75 ^ 3 ÷ (.75 ​​^ 3 + .25 ^ 3) => 96% niezawodności połączonej odpowiedzi

użytkownik3902302
źródło
1
To nie wydaje się być właściwą odpowiedzią na pytanie.
Michael R. Chernick,
Trzeba przyznać, że była to raczej odpowiedź na komentarze KarstenW niż bezpośrednia odpowiedź na pytanie.
user3902302