Za zasłoną stoi osoba - nie wiem, czy jest to kobieta czy mężczyzna.
Wiem, że ta osoba ma długie włosy i że 90% wszystkich ludzi z długimi włosami to kobiety
Wiem, że ta osoba ma rzadką grupę krwi AX3 i że 80% wszystkich osób z tą grupą krwi to kobiety.
Jakie jest prawdopodobieństwo, że dana osoba jest kobietą?
UWAGA: ten oryginalny preparat został rozszerzony o dwa dalsze założenia: 1. Grupa krwi i długość włosów są niezależne 2. Stosunek mężczyzn do kobiet w populacji wynosi 50:50
(Konkretny scenariusz tutaj nie jest tak istotny - raczej mam pilny projekt, który wymaga ode mnie zastanowienia się nad właściwym podejściem do odpowiedzi na to pytanie. Mam wrażenie, że chodzi o proste prawdopodobieństwo, z prostą, ostateczną odpowiedzią, a raczej niż coś z wieloma dyskusyjnymi odpowiedziami według różnych teorii statystycznych).
źródło
Odpowiedzi:
Wiele osób uważa, że pomocne jest myślenie w kategoriach „populacji”, podgrup w niej i proporcji (a nie prawdopodobieństw). To nadaje się do rozumowania wizualnego.
Szczegółowo wyjaśnię te liczby, ale intencją jest, aby szybkie porównanie tych dwóch liczb natychmiast i przekonująco wskazało, w jaki sposób i dlaczego nie można udzielić konkretnej odpowiedzi na pytanie. Nieco dłuższe badanie zasugeruje, jakie dodatkowe informacje byłyby przydatne do ustalenia odpowiedzi lub przynajmniej uzyskania granic odpowiedzi.
Legenda
Kreskowanie : samica / Solid background : male.
Góra : długowłosy / Dół : krótkowłosy.
Prawa (i kolorowa) : AX3 / Lewa (bezbarwna) : bez AX3.
Dane
Wylęg górny stanowi 90% górnego prostokąta („90% wszystkich osób o długich włosach to kobiety”).
Całkowite kreskowanie w prostokącie w odpowiednim kolorze wynosi 80% tego prostokąta („80% wszystkich osób z tą grupą krwi to kobiety”).
Wyjaśnienie
Ten schemat pokazuje schematycznie, w jaki sposób populację (wszystkich rozważanych kobiet i nie-kobiet) można jednocześnie podzielić na kobiety / kobiety, AX3 / inne niż AX3 i długie włosy / długie włosy („krótkie”). Wykorzystuje obszar, przynajmniej w przybliżeniu, do przedstawienia proporcji (jest trochę przesady, aby obraz był wyraźniejszy).
Oczywiste jest, że te trzy binarne klasyfikacje tworzą osiem możliwych grup. Każda grupa pojawia się tutaj.
Z podanych informacji wynika, że górny zakreskowany prostokąt (kobiety o długich włosach) stanowi 90% górnego prostokąta (wszyscy ludzie o długich włosach). Stwierdzono również, że połączone kreskowane części kolorowych prostokątów (kobiety o długich włosach z AX3 i kobiety o krótkich włosach z AX3) stanowią 80% obszaru po prawej stronie (wszystkie osoby z AX3). Powiedziano nam, że ktoś leży w prawym górnym rogu (strzałka): długowłose osoby z AX3. Jaka część tego prostokąta jest kreskowana (żeńska)?
Przyjąłem również (domyślnie), że grupa krwi i długość włosów są niezależne : proporcja górnego prostokąta (długie włosy), który jest zabarwiony (AX3) równa się proporcji dolnego prostokąta (krótkie włosy), który jest zabarwiony (AX3). To właśnie oznacza niezależność. Jest to słuszne i naturalne założenie przy rozwiązywaniu takich pytań, ale oczywiście należy to stwierdzić.
Położenie górnego prostokąta w kształcie krzyża (kobiety o długich włosach) jest nieznane. Możemy sobie wyobrazić przesuwanie górnego kreskowanego prostokąta na boki i przesuwanie dolnego kreskowanego prostokąta na boki i ewentualnie zmianę jego szerokości. Jeśli zrobimy to, aby 80% kolorowego prostokąta pozostało kreskowanymi, taka zmiana nie zmieni żadnej z podanych informacji, ale może zmienić proporcję kobiet w prawym górnym prostokącie. Oczywiście proporcja może wynosić od 0% do 100% i nadal być zgodna z podanymi informacjami, jak na tym obrazku:
Jedną z zalet tej metody jest ustalenie istnienia wielu odpowiedzi na pytanie. Można to wszystko przetłumaczyć algebraicznie i, poprzez ustalenie prawdopodobieństw, podać konkretne sytuacje jako możliwe przykłady, ale wtedy powstałoby pytanie, czy takie przykłady są naprawdę zgodne z danymi. Na przykład, jeśli ktoś zasugeruje, że być może 50% długowłosych ludzi to AX3, na początku nie jest oczywiste, że jest to nawet możliwe, biorąc pod uwagę wszystkie dostępne informacje. Te (Venn) diagramy populacji i jej podgrup wyjaśniają takie rzeczy.
źródło
Jest to kwestia prawdopodobieństwa warunkowego. Wiesz, że osoba ma długie włosy i grupę krwi Ax3. Niech A = { „Osoba ma długie włosy” } Więc szukasz P ( C | A i B ) . Wiesz, że P ( C | A ) = 0,9 i P ( C | B ) = 0,8 . Czy to wystarczy, aby obliczyć P ( C | A i B ) ? Załóżmy, że P ( A i B i C ) = 0,7
Teraz oba są możliwe, gdy i P ( C | B ) = 0,8 . Nie możemy więc powiedzieć na pewno, co to jest P ( C | A i B ) .P(C|A)=0.9 P(C|B)=0.8 P(C|A and B)
źródło
Fascynująca dyskusja! Zastanawiam się, czy określono również P (A) i P (B), czy też zakresy P (C | A, B) nie będą znacznie węższe niż pełny przedział [0,1], po prostu z powodu wielu ograniczeń mamy.
Trzymając się notacji wprowadzonej powyżej:
A = zdarzenie, że dana osoba ma długie włosy
B = zdarzenie, że dana osoba ma grupę krwi AX3
C = zdarzenie, że ta osoba jest kobietą
P (C | A) = 0,9
P (C | B) = 0,8
P (C) = 0,5 (tzn. Załóżmy jednakowy stosunek mężczyzn i kobiet w populacji ogółem)
nie wydaje się możliwe założenie, że zdarzenia A i B są warunkowo niezależne, biorąc pod uwagę C! Prowadzi to bezpośrednio do sprzeczności: jeśliP(A∧B|C)=P(A|C)⋅P(B|C)=P(C|A)P(A)P(C)⋅P(C|B)P(B)P(C)
następnie
Jeśli teraz założymy, że A i B są również niezależne: większość terminów zostanie anulowana i otrzymamyP(A∧B)=P(A)P(B)
4. (trywialny) Górnego prostokąta nie można przesunąć poza lewą granicę i nie należy go przesuwać poza jego minimalną zakładkę w lewo.
5. (trywialny) Dolny prostokąt nie może być przesuwany poza prawą granicę i nie powinien być przesuwany poza maksymalne zachodzenie na prawo.
Przeszukanie zakresu możliwych wartości dla P (A) i P (B) ( skrypt R ) generuje ten wykres
Podsumowując, możemy obniżyć granicę prawdopodobieństwa warunkowego P (c | A, B) dla danego P (A), P (B)
źródło
Stawić hipotezę, że osobą za zasłoną jest kobieta.
Otrzymaliśmy 2 dowody, a mianowicie:
Dowód 1: Wiemy, że dana osoba ma długie włosy (i powiedziano nam, że 90% wszystkich osób z długimi włosami to kobiety)
Dowód 2: Wiemy, że osoba ma rzadką grupę krwi AX3 (i powiedziano nam, że 80% wszystkich osób z tą grupą krwi to kobiety)
Biorąc pod uwagę tylko Dowód 1, możemy stwierdzić, że osoba za zasłoną ma wartość prawdopodobieństwa bycia kobietą wynoszącą 0,9 (zakładając podział 50:50 między mężczyznami i kobietami).
Odnośnie pytania postawionego wcześniej w wątku, a mianowicie: „Czy zgodziłbyś się, że odpowiedź musi być WIĘKSZA niż 0,9?”, Bez robienia matematyki, powiedziałbym intuicyjnie, odpowiedź musi być „tak” (jest WIĘKSZA niż 0,9). Logika jest taka, że Dowód 2 popiera dowody (ponownie, zakładając podział 50:50 na liczbę mężczyzn i kobiet na świecie). Gdyby powiedziano nam, że 50% wszystkich osób z krwią typu AX3 to kobiety, to Dowód 2 byłby neutralny i nie miałby żadnego wpływu. Ale ponieważ powiedziano nam, że 80% wszystkich osób z tą grupą krwi to kobiety, Dowód 2 popiera dowody i logicznie powinien zwiększyć ostateczne prawdopodobieństwo kobiety powyżej 0,9.
Aby obliczyć konkretne prawdopodobieństwo, możemy zastosować regułę Bayesa dla Dowodu 1, a następnie użyć aktualizacji Bayesa, aby zastosować Dowód 2 do nowej hipotezy.
Przypuszczać:
A = zdarzenie, że dana osoba ma długie włosy
B = zdarzenie, że dana osoba ma grupę krwi AX3
C = zdarzenie, że ta osoba jest kobietą (załóż 50%)
Zastosowanie reguły Bayesa do dowodów 1:
P (C | A) = (P (A | C) * P (C)) / P (A)
W tym przypadku ponownie, jeśli założymy podział 50:50 między mężczyznami i kobietami:
P (A) = (0,5 * 0,9) + (0,5 * 0,1) = 0,5
Zatem P (C | A) = (0,9 * 0,5) / 0,5 = 0,9 (nic dziwnego, ale byłoby inaczej, gdybyśmy nie mieli podziału 50:50 między mężczyznami i kobietami)
Korzystając z aktualizacji bayesowskiej w celu zastosowania dowodu 2 i podłączając 0,9 jako nowe wcześniejsze prawdopodobieństwo, mamy:
P (C | A AND B) = (P (B | C) * 0,9) / P (E)
Tutaj P (E) oznacza prawdopodobieństwo Dowodu 2, biorąc pod uwagę hipotezy, że dana osoba ma już 90% szans na bycie kobietą.
P (E) = (0,9 * 0,8) + (0,1 * 0,2) [jest to prawo całkowitego prawdopodobieństwa: (P (kobieta) * P (AX3 | kobieta) + P (mężczyzna) * P (AX3 | mężczyzna)] Tak , P (E) = 0,74
Zatem P (C | A i B) = (0,8 * 0,9) / 0,74 = 0,97297
źródło
Przekształcenie i uogólnienie pytań
Odpowiedzi
Przypadek 1
Wykazano za pomocą różnych ezoterycznych środków, że rozkład do przypisania, gdy informacja inaczej nie określa rozwiązania, jest tym, który ze wszystkich rozkładów zgodnych ze znanymi informacjami ma największą entropię. Każda inna dystrybucja sugeruje, że wiemy więcej niż znane informacje, co oczywiście jest sprzecznością.
Przypadek 2
Przypadek 3
Teraz usuwamy warunek niezależności i zastępujemy go wcześniejszym warunkiem, że istnieje równa szansa, że dana osoba jest mężczyzną lub kobietą:( A0| ja) = 12)to znaczy∑j , k( A0bjotdok| ja) = 12)
Tym razem ( A1| b1do1ja) ≃ 0,973 , więc prawdopodobieństwo, że osoba za zasłoną jest kobietą, biorąc pod uwagę, że ma on długie włosy i grupę krwi AX3, wynosi 0,973.
Przypadek 4
Wreszcie ponownie wprowadzamy ograniczenia niezależności w przypadku 2 i znajdujemy to( A1| b1do1ja) ≃ 0,989 . Dlatego prawdopodobieństwo, że osoba za zasłoną jest kobietą, biorąc pod uwagę, że ma on długie włosy i grupę krwi AX3, wynosi 0,989.
źródło
Wierzę teraz, że jeśli przyjmiemy proporcję mężczyzn i kobiet w całej populacji, istnieje jedna niepodważalna odpowiedź.
A = zdarzenie, że dana osoba ma długie włosy
B = zdarzenie, że dana osoba ma grupę krwi AX3
C = zdarzenie, że ta osoba jest kobietą
P (C | A) = 0,9
P (C | B) = 0,8
P (C) = 0,5 (tzn. Załóżmy jednakowy stosunek mężczyzn i kobiet w populacji ogółem)
Następnie P (C | A i B) = [P (C | A) x P (C | B) / P (C)] / [[P (C | A) x P (C | B) / P (C )] + [[1-P (C | A)] x [1-P (C | B)] / [1-P (C)]]]
w tym przypadku P (C | A i B) = 0,972973
źródło
Uwaga: Aby uzyskać ostateczną odpowiedź, poniższe odpowiedzi zakładają, że prawdopodobieństwo osoby, długowłosego mężczyzny i długowłosych kobiet mających AX3 jest w przybliżeniu takie samo. Jeśli wymagana jest większa dokładność, należy to zweryfikować.
Zaczynasz ze świadomością, że dana osoba ma długie włosy, więc w tym momencie szanse są następujące:
Uwaga:
stosunek mężczyzn do kobiet w populacji ogólnej nie ma dla nas znaczenia, gdy dowiemy się, że dana osoba ma długie włosy. Na przykład, jeśli w populacji ogólnej będzie 1 kobieta na sto, losowo wybrana długowłosa osoba nadal będzie kobietą w 90% przypadków.Stosunek kobiet do mężczyzn NIE MA znaczenia! (szczegóły znajdziesz w aktualizacji poniżej)Następnie dowiadujemy się, że dana osoba ma AX3. Ponieważ AX3 nie ma związku z długimi włosami, wiadomo, że stosunek mężczyzn do kobiet wynosi 50:50, a ponieważ zakładamy, że prawdopodobieństwa są takie same, możemy po prostu pomnożyć każdą stronę prawdopodobieństwa i znormalizować, aby suma boki prawdopodobieństwa wynoszą 100:
Zatem prawdopodobieństwo, że osoba za zasłoną jest kobietą, wynosi około 97,297%.
AKTUALIZACJA
Oto dalsze badanie problemu:
Definicje:
Po pierwsze, otrzymujemy, że 90% długowłosych ludzi to kobiety, a 80% osób z AX3 to kobiety, więc:
Ponieważ przyjęliśmy, że prawdopodobieństwo wystąpienia AX3 jest niezależne od płci i długich włosów, nasze obliczone pfx będzie miało zastosowanie do kobiet o długich włosach, a pmx będzie miało zastosowanie do mężczyzn o długich włosach, aby znaleźć liczbę tych, którzy prawdopodobnie mają AX3:
Zatem prawdopodobny stosunek liczby kobiet o długich włosach i AX3 do liczby mężczyzn o długich włosach i AX3 wynosi:
Ponieważ podano, że jest równa 50:50, możesz anulować obie strony i skończyć z 36 kobietami dla każdego mężczyzny. W przeciwnym razie dla każdego mężczyzny w określonej podgrupie przypada 36 * m / k kobiet. Na przykład, gdyby było dwa razy więcej kobiet niż mężczyzn, na każdego mężczyznę przypadałyby 72 kobiety z długimi włosami i AX3.
źródło
98% Kobieta, prosta interpolacja. Pierwsza przesłanka 90% kobiet, pozostawia 10%, druga przesłanka pozostawia tylko 2% istniejących 10%, stąd 98% kobiet
źródło