Zrozumienie teorii separacji d w przyczynowych sieciach bayesowskich

15

Próbuję zrozumieć logikę d-separacji w przyczynowych sieciach bayesowskich. Wiem, jak działa algorytm, ale nie do końca rozumiem, dlaczego „przepływ informacji” działa zgodnie z tym, co podano w algorytmie.

wprowadź opis zdjęcia tutaj

Na przykład na powyższym wykresie, zastanówmy się, że podano nam tylko X i nie zaobserwowano żadnej innej zmiennej. Następnie zgodnie z zasadami separacji d przepływ informacji z X do D:

  1. X wpływa na A, czyli P(A)P(A|X) . Jest to w porządku, ponieważ A powoduje X i jeśli wiemy o efekcie X, wpływa to na nasze przekonanie o przyczynie A. Przepływy informacji.

  2. X wpływa na B, czyli . Jest to w porządku, ponieważ A została zmieniona przez naszą wiedzę o X, zmiana w A może wpłynąć również na nasze przekonania na temat jego przyczyny, B, również.P(B)P(B|X)

  3. X wpływa na C, czyli . Jest to w porządku, ponieważ wiemy, że B jest stronniczy na podstawie naszej wiedzy o jego pośrednim działaniu, X, a ponieważ B jest stronniczy na X, wpłynie to na wszystkie bezpośrednie i pośrednie skutki B. C jest bezpośrednim efektem B, na który wpływa nasza wiedza na temat X.P(C)P(C|X)

Cóż, do tego momentu wszystko jest dla mnie OK, ponieważ przepływ informacji odbywa się zgodnie z intuicyjnymi relacjami przyczynowo-skutkowymi. Ale w tym schemacie nie dostaję specjalnego zachowania tak zwanych „struktur V” lub „zderzaczy”. Zgodnie z teorią d-separacji, B i D są częstymi przyczynami C na powyższym wykresie i mówi, że jeśli nie zaobserwowaliśmy C lub któregokolwiek z jego potomków, informacje o przepływie z X są blokowane w C. Cóż, OK , ale moje pytanie brzmi: dlaczego?

Z powyższych trzech kroków, poczynając od X, widzieliśmy, że nasza wiedza o X wpływa na C, a przepływ informacji następował zgodnie z relacją przyczynowo-skutkową. Teoria d-separacji mówi, że nie możemy przejść z C do D, ponieważ C nie jest przestrzegane. Sądzę jednak, że skoro wiemy, że C jest stronnicze, a D jest przyczyną C, D również powinien zostać zmieniony, podczas gdy teoria mówi coś przeciwnego. Wyraźnie brakuje mi czegoś w moim schemacie myślenia, ale nie widzę, co to jest.

Potrzebuję więc wyjaśnienia, dlaczego przepływ informacji zablokowany w C, jeśli C nie jest przestrzegany.

Ufuk Can Bicici
źródło
Nie płynie z X do D, jeśli tylko X jest obserwowany. Stwierdzasz to tuż pod zdjęciem. (Chociaż poprawnie opisujesz to w dalszej części).
ziggystar
Wiem już to, że przepływ informacji jest zablokowany w C, gdzie mamy „strukturę V”. Chcę wiedzieć, dlaczego; dlaczego struktura V blokuje przepływ informacji, gdy nie obserwujemy C, z punktu widzenia relacji przyczyna-skutek.
Ufuk Can Bicici

Odpowiedzi:

6

Czy nie jest intuicyjne, że nie możesz rozumować od przyczyny do nieobserwowanego efektu do innej przyczyny? Jeśli deszcz (B) i zraszacz (D) są przyczyną mokrej ziemi (C), to czy możesz argumentować, że widząc deszcz oznacza, że ​​ziemia jest prawdopodobnie mokra, i nadal uzasadniaj, że zraszacz musi być włączony od ziemi jest mokry?! Oczywiście nie. Twierdziłeś, że ziemia była mokra z powodu deszczu - nie możesz szukać dodatkowych przyczyn!

Jeśli obserwujesz mokrą ziemię, oczywiście sytuacja się zmienia. Teraz możesz rozumować z jednej przyczyny do drugiej, jak wyjaśnia Frank.

Neil G.
źródło
4

Zapomnijmy na chwilę o X i rozważmy tylko zderzacz B, C i D. Powodem, dla którego struktura v może blokować ścieżkę między B i D, jest to, na ogół, jeśli masz dwie niezależne zmienne losowe (B i D), które wpływają na ten sam wynik (C), a następnie znajomość wyniku może pozwolić na wyciągnięcie wniosków na temat związku między zmiennymi losowymi, umożliwiając w ten sposób przepływ informacji.

P(B|D)P(B)P(D|B)P(D)). Dlatego świadomość, że trawnik jest mokry, odblokowuje ścieżkę i uzależnia B i D.

Aby lepiej to zrozumieć, warto spojrzeć na Paradoks Berksona , który opisuje tę samą sytuację.

FrankD
źródło
1) Mam trudności ze zrozumieniem, czym jest niezależna przyczyna, zanim zdefiniuję cokolwiek na temat D-separacji. Wielu autorów definiuje D-separację za pomocą intuicyjnych relacji przyczynowo-skutkowych. Staram się zbudować system rozumowania na podstawie tego, co czytam z różnych źródeł i na podstawie moich intuicji, aby pogodzić się z tym twierdzeniem. Wygląda to tak: „Jeśli nie zostanie zaobserwowana żadna zmienna inna niż X, wówczas wiedza o X może wpływać na efekty X (wszyscy potomkowie), bezpośrednie lub pośrednie przyczyny X (przodkowie) i wszystkie inne skutki przyczyn X”.
Ufuk Can Bicici
2) Tak uzasadniam tę myśl: A) X może oczywiście wpływać na jego bezpośrednie i pośrednie skutki, ponieważ różne wartości X będą generować różne przyczyny. B) X może wpływać na jego bezpośrednie i pośrednie przyczyny, ponieważ obserwując efekt, możemy uzyskać nowe informacje o przyczynach w podejściu diagnostycznym. C) X wpływa na inne skutki (wyłączając się) wszystkich jego bezpośrednich i pośrednich przyczyn, ponieważ wiedza o X zmieniła nasze przekonania na temat tych przyczyn, które z kolei wpływają na wszystkie skutki. Próbuję interpretować takie przyczynowe sieci bayesowskie według tego wzoru. Czy to jest poprawne na początek?
Ufuk Can Bicici
3) To tak, jakbym starał się stworzyć intuicyjny wzorzec „przepływu informacji”, aby zrozumieć zachowania zmiennych zależne od niezależności. Dzięki temu wzorowi nie widzę, czym jest niezależna przyczyna i właśnie w tym tkwię. Najwyraźniej coś mi umknęło lub mogę się całkowicie mylić z tym schematem myślenia.
Ufuk Can Bicici
Myślę, że moja pierwotna odpowiedź była nieco myląca, ponieważ określiłem B i D jako „przyczyny” (teraz ustalone). Przepływ informacji to koncepcja powiązana z obserwacjami, a nie interwencjami przyczynowymi. Jak wiadomo, dwie zmienne losowe są niezależne, jeśli zaobserwowanie jednej nie daje informacji o drugiej. Twoje wypowiedzi zdają się łączyć obserwację i wnioskowanie. Obserwacja X pozwala nam skorygować nasze wnioskowanie o jego rodzicach (stwierdzenie A) i jego bezpośrednich przyczynach, ale jeśli struktura v blokuje ścieżkę, nie możemy dostosować wnioskowania z przyczyn pośrednich, z powodów opisanych powyżej.
FrankD
1

Cóż, do tego momentu wszystko jest dla mnie OK, ponieważ przepływ informacji odbywa się zgodnie z intuicyjnymi relacjami przyczynowo-skutkowymi. Ale w tym schemacie nie dostaję specjalnego zachowania tak zwanych „struktur V” lub „zderzaczy”.

Zatem twardym orzechem do zgryzienia jest tutaj struktura V. Chciałbym zilustrować różnicę między prawdopodobieństwem zmiennej S uwarunkowanej jedynie obserwacją efektu a wpływem obserwacji innej zmiennej D, która jest niezależna od S w tej samej sytuacji na fikcyjnym przykładzie.

Powiedzmy, że ktoś bierze kurs, powiedzmy algebra liniowa. To, czy zda egzamin, zależy głównie od trudności egzaminu. Oznaczmy zdarzenie, w którym kurs przechodzi przez P, w przeciwnym razie podaje 1 i 0; a trudność egzaminu jako D, trudna jako 1 i łatwa jako 0. A coś bzdury może również wpływać na jego wyniki lub wynik, powiedzmy, że zdarza się osobliwość i byłby poddany praniu mózgu przez maszynę, a następnie postanowił nie podejść do egzaminu. Oznaczamy to zdarzenie przez S, a jego prawdopodobieństwo wynosi 0,0001. Wydaje się to niemożliwe, ale z definicji jego szansa nie powinna wynosić zero.

Stąd mamy teraz wykres postaci v-struktury:

 D   S
  | |
 \| |/ 
   P  

P.(¬P.|S.)=0,999999P.(P.|S.)=0,000001

| d0   | d1      |      
|:-----|--------:|   
| 0.5  | 0.5     |  

| s0     | s1      |      
|:-------|--------:|   
| 0.9999 | 0.0001  |

| S     | D    | P(p0|S,D) | P(p1|S,D) |  
|:------|-----:|----------:|----------:|
|s0     | d0   |   0.20    |   0.80    |
|s0     | d1   |   0.90    |   0.10    |
|s1     | d0   |   0.999999|   0.000001|
|s1     | d1   |   0.999999|   0.000001| 

P.(S.|P.)P.(S.|P.,re) . Jeśli są równe, możemy powiedzieć, że obowiązuje warunkowa niezależność, w przeciwnym razie nie.

1) Jeśli nie znamy wyniku, możemy obliczyć prawdopodobieństwo wystąpienia osobliwości, biorąc pod uwagę, że kurs jest łatwy.

P.(S.|¬re)=P.(S.,P.|¬re)+P.(S.,¬P.|¬re)=P.(S.=1,P.=1,re=0)P.(re=0)+P.(S.=1,P.=0,re=0)P.(re=0)=P.(S.=1)P.(re=0|S.=1)P.(P.=1|re=0,S.=1)P.(re=0)+P.(S.=1)P.(re=0|S.=1)P.(P.=0|re=0,S.=1)P.(re=0)=P.(S.=1)P.(re=0|S.=1)P.(re=0)=P.(S.=1)P.(re=0)P.(re=0)=P.(S.=1)=0,0001

Jak widać powyżej, nie ma znaczenia, czy egzamin został zdany czy nie. Co przychodzi tak, jak powinno. Można to postrzegać jako marginalne prawdopodobieństwo nad P.

Możemy także ustalić prawdopodobieństwo wystąpienia osobliwości, biorąc pod uwagę, że uczeń nie zda egzaminu:

P(S,|¬P)=P(S,¬P)P(¬P)=P(S,¬p,D)+P(S,¬P,¬D)P(¬P)=P(¬P|S,D)P(S)P(D)+P(¬P|S,¬D)P(S)P(¬D)S,DP(¬P|S,D)P(S)P(D)=0.0001818

Knowing that the guy doesn't pass the exam we can guess that he may be brainwashed by a machine is 0.0001818 which is a little bigger than when we don't know it.

2) But what if we know that the guy failed the exam and the exam is easy?

P(S,|¬P,¬D)=P(S=1,P=0,D=0)P(P=0,D=0)=P(P=0|S=1,D=0)P(S=1)P(D=0)P(P=0|S=1,D=0)P(S=1)P(D=0)+P(P=0|S=0,D=0)P(S=0)P(D=0)=0.999999×0.0001×0.50.2×0.9999×0.5+0.999999×0.0001×0.5=0.0004998

Lo and behold, the change is much bigger than we just know he doesn't plass the exam. Then we see that P(S|P)P(S|P,D) we can infer that SD|PI(P(P,S,D)) which means D can influence S via P.

May this detailed derivation be of hlep.

Lerner Zhang
źródło