Czy kierunek krawędzi w sieci Bayes jest nieistotny?

10

Dzisiaj w wykładzie twierdzono, że kierunek krawędzi w sieci Bayesa nie ma tak naprawdę znaczenia. Nie muszą reprezentować przyczynowości.

Oczywiste jest, że nie można zmienić żadnego pojedynczego brzegu w sieci Bayes. Na przykład, niech z V = { v 1 , v 2 , v 3 } i E = { ( v 1 , v 2 ) , ( v 1 , v 3 ) , ( v 2 , v 3 ) } . Jeśli chcesz przełączyć ( vG=(V,E)V={v1,v2,v3}E={(v1,v2),(v1,v3),(v2,v3)} do ( v 3 , v 1 ) , wówczas G nie byłby już acykliczny, a zatem nie byłby siecią Bayesa. Wydaje się, że jest to głównie praktyczny problem, jak oszacować prawdopodobieństwo. Wydaje się, że na tę sprawę trudniej jest odpowiedzieć, więc pominę ją.(v1,v3)(v3,v1)G

To sprawiło, że zadałem następujące pytania, na które mam nadzieję uzyskać odpowiedzi tutaj:

  1. Czy jest możliwe, aby jakikolwiek ukierunkowany wykres acykliczny (DAG) odwrócił wszystkie krawędzie i nadal miał DAG?
  2. Załóżmy, że DAG i dane są podane. Teraz konstruujemy odwrotną DAG G inv . W przypadku obu DAG dopasowujemy dane do odpowiednich sieci Bayes. Teraz mamy zestaw danych, dla których chcemy wykorzystać sieć Bayesa do przewidywania brakujących atrybutów. Czy mogą istnieć różne wyniki dla obu grup DAG? (Bonus, jeśli wymyślisz przykład)GGinv
  3. Podobne do 2, ale prostsze: Załóżmy, że DAG i dane są podane. Możesz utworzyć nowy wykres G ' , odwracając dowolny zestaw krawędzi, dopóki G ' pozostanie acykliczny. Czy sieci Bayes są równoważne, jeśli chodzi o ich prognozy?GGG
  4. Czy coś osiągamy, jeśli mamy krawędzie reprezentujące przyczynowość?
Martin Thoma
źródło

Odpowiedzi:

6

TL; DR: czasami można stworzyć równoważną sieć bayesowską, odwracając strzałki, a czasem nie.

Po prostu odwrócenie kierunku strzałek daje inny skierowany wykres, ale ten wykres niekoniecznie jest wykresem równoważnej sieci bayesowskiej, ponieważ relacje zależności reprezentowane przez wykres odwróconej strzałki mogą być inne niż te reprezentowane przez oryginalny wykres. Jeśli wykres odwróconej strzałki reprezentuje inne relacje zależności niż oryginał, w niektórych przypadkach można utworzyć równoważną sieć bayesowską, dodając więcej strzałek, aby uchwycić relacje zależności, których brakuje na wykresie odwróconej strzałki. Ale w niektórych przypadkach nie ma dokładnie takiej samej sieci bayesowskiej. Jeśli musisz dodać strzałki, aby uchwycić zależności,

Na przykład a -> b -> creprezentuje te same zależności i niezależności co a <- b <- ci takie same jak a <- b -> c, ale nie takie same jak a -> b <- c. Ten ostatni wykres mówi to ai cjest niezależny, jeśli bnie jest przestrzegany, ale a <- b -> cmówi ai cjest zależny w tym przypadku. Możemy dodać przewagę bezpośrednio ado cuchwycić, ale potem ai csą niezależne, gdy bobserwuje się nie jest reprezentowana. Oznacza to, że istnieje co najmniej jedna faktoryzacja, której nie możemy wykorzystać przy obliczaniu prawdopodobieństw późniejszych.

Wszystkie te rzeczy na temat zależności / niezależności, strzałek i ich odwrócenia itp. Są omówione w standardowych tekstach w sieciach bayesowskich. Mogę wykopać jakieś referencje, jeśli chcesz.

Sieci bayesowskie nie wyrażają przyczynowości. Judea Pearl, który dużo pracował w sieciach bayesowskich, pracował także nad tak zwanymi sieciami przyczynowymi (zasadniczo sieci bayesowskie opatrzone relacjami przyczynowymi).

Robert Dodier
źródło
To odpowiada na pytania (2) i (3). Czy masz również pomysł na pytanie (1) i (4)? (Tak, referencje byłyby fajne)
Martin Thoma,
(1) Rozważmy przeciwieństwo: jeśli wykres ze strzałką odwróconą ma cykl skierowany, to podążanie za strzałkami wokół cyklu do tyłu musi być kierunkiem cyklu na oryginalnym wykresie. (4) Sieci bayesowskie są modelami probabilistycznymi i jako takie nie reprezentują związku przyczynowego. Możliwe, że niektóre strzałki faktycznie odnoszą się do związków przyczynowych, ale jest to zagubione w modelu probabilistycznym. Może aprzyczyny b, ale a -> bi a <- bsą równie poprawnymi modelami probabilistycznymi.
Robert Dodier,
Niektóre odniesienia wprowadzające. Koller & Friedman: „Probabilistyczne modele graficzne”. Cowell, Dawid, Lauritzen i Spiegelhalter: „Sieci probabilistyczne i systemy eksperckie”. Castillo, Gutierrez i Hadi: „Systemy ekspertowe i probabilistyczne modele sieciowe”.
Robert Dodier,
Możesz odwrócić dowolną strzałkę i uzyskać równoważną sieć bayesowską, o ile
zachowasz
1

Może to być nieco niezadowalające, więc nie przyjmuj tej odpowiedzi i z góry przepraszamy.

W sieci Bayesa węzły reprezentują zmienne losowe, a krawędzie reprezentują zależności warunkowe. Kiedy interpretujesz węzły w określony sposób, warunkowanie płynie w pewien sposób w naturalny sposób. Arbitralne odwracanie ich nie ma sensu w kontekście modelowania danych. I dużo czasu, strzałki reprezentują przyczynowość.

Taylor
źródło
1
To dość daleko od celu. „Naturalna” interpretacja jest czymś narzuconym modelowi, nie jest częścią samego modelu. Możesz odwrócić zależności (dodając dodatkowe krawędzie, jeśli jest to konieczne, aby zachować zestaw zależności reprezentowanych przez sieć) i nadal jest to sieć bayesowska. Czy ma to sens, nie można odpowiedzieć, badając samą sieć. Nawiasem mówiąc, Judea Pearl, jedna z największych twórczyń sieci bayesowskich w latach 80. i 90., ostatnio pracowała nad formalnymi modelami przyczynowości, które wyrażają związki przyczynowe w modelu.
Robert Dodier 19.04.16
Mówicie: „czy to ma sens, nie można odpowiedzieć, badając samą sieć”. Nigdy nie powiedziałem, że tak. Powiedziałem „kiedy interpretujesz węzły w określony sposób, uwarunkowania płyną w określony sposób…” To prawdopodobnie odzwierciedla moją stronniczość; rzeczy, które pracuję, można nazwać siecią Bayesa, ale to pytanie nigdy mnie nie spotkało. Na przykład, jeśli dwa węzły reprezentują tę samą zmienną w różnym czasie, nie byłoby wątpliwości, w którym kierunku płynie kondycjonowanie. Akceptuję jednak możliwość, że istnieją sytuacje, w których ludzie mogą korzystać z tych sieci Baye'a w mniej sztywny sposób.
Taylor
0

pytanie 3

synergy.st-andrews.ac.uk/vannesmithlab twierdzi, że wykresy

G1 = o->o->o and
G2 = o<-o->o

są w jednej klasie równoważności. Według tego źródła modele reprezentują dokładnie taki sam rozkład prawdopodobieństwa łącznego.

Martin Thoma
źródło
To nie może być prawda. Dla G1, pierwsza i ostatnia zależą od braku znanych wartości. W przypadku G2 pierwsza i ostatnia nie są zależne od braku znanych wartości. Czy G2 = o <- o -> ozamiast tego chciałeś napisać ? W każdym razie nie widzę roszczeń do tych konkretnych wykresów na stronie, do której się odwoływałeś; być może możesz być bardziej szczegółowy.
Robert Dodier