Na stronie Wikipedii o naiwnych klasyfikatorach Bayesa znajduje się następujący wiersz:
(rozkład prawdopodobieństwa na 1 jest OK. Jest to obszar pod krzywą dzwonową równy 1.)
Jak wartość być OK? Myślałem, że wszystkie wartości prawdopodobieństwa zostały wyrażone w zakresie . Ponadto, biorąc pod uwagę, że można mieć taką wartość, w jaki sposób wartość ta jest uzyskiwana w przykładzie pokazanym na stronie?
distributions
probability
normal-distribution
pdf
czytnik babelproofreader
źródło
źródło
p
dla gęstości prawdopodobieństwa i wielkich literP
dla prawdopodobieństwaOdpowiedzi:
Ta strona Wiki nadużywa języka, odwołując się do tego numeru jako prawdopodobieństwa. Masz rację, że tak nie jest. Jest to w rzeczywistości prawdopodobieństwo na stopę . W szczególności wartość 1,5789 (dla wysokości 6 stóp) implikuje, że prawdopodobieństwo wysokości między, powiedzmy, 5,99 a 6,01 stóp jest zbliżone do następującej wartości bez jednostki:
Ta wartość powinna nie przekraczać 1, jak wiesz. (Mały zakres wysokości (w tym przykładzie 0,02) jest kluczową częścią aparatu prawdopodobieństwa. Jest to „różnica” wysokości, którą skrótuję .) Prawdopodobieństwa na jednostkę czegoś nazywane są przez analogię gęstością do innych gęstości, takich jak masa na jednostkę objętości.d(height)
Bona fide gęstości prawdopodobieństwa mogą mieć dowolnie duże wartości, nawet nieskończone.
Przykład ten pokazuje funkcję gęstości prawdopodobieństwa dla rozkładu gamma (z parametru kształtu i skali 1 / 5 ). Ponieważ większość gęstości jest mniejsza niż 1 , krzywa musi wzrosnąć o więcej niż 1 , aby uzyskać łączną powierzchnię 1 wymaganą dla wszystkich rozkładów prawdopodobieństwa.3/2 1/5 1 1 1
Gęstość (w przypadku rozkładu beta z parametrami ) staje się nieskończona 0 i po 1 . Cały obszar jest wciąż skończony (i wynosi 1 )!1 / 2 , 1 / 10 0 1 1
Wartość 1,5789 / stopę uzyskuje się w tym przykładzie poprzez oszacowanie, że wysokości mężczyzn mają rozkład normalny ze średnią 5,855 stóp i wariancją 3,50e-2 stóp kwadratowych. (Można to znaleźć w poprzedniej tabeli.) Pierwiastek kwadratowy tej wariancji to odchylenie standardowe, 0,18717 stóp. Ponownie wyrażamy 6 stóp jako liczbę SD od średniej:
Podział przez odchylenie standardowe tworzy relację
Normalna gęstość prawdopodobieństwa z definicji jest równa
(Właściwie oszukiwałem: po prostu poprosiłem Excela o obliczenie NORMDIST (6, 5,855, 0,18717, FAŁSZ). Ale tak naprawdę sprawdziłem to z formułą, tylko dla pewności.) Kiedy usuwamy podstawową różnicę ze wzoru pozostaje tylko liczba 1,5789 , jak uśmiech kota z Cheshire. My, czytelnicy, musimy zrozumieć, że liczbę należy pomnożyć przez niewielką różnicę wysokości, aby uzyskać prawdopodobieństwo.re( wysokość ) 1,5789
źródło
Jest to częsty błąd polegający na niezrozumieniu różnicy między funkcjami masy prawdopodobieństwa, w których zmienna jest dyskretna, a funkcjami gęstości prawdopodobieństwa, w których zmienna jest ciągła. Zobacz Co to jest rozkład prawdopodobieństwa :
źródło
źródło
Nie wiem, czy artykuł z Wikipedii został zredagowany po pierwszych postach w tym wątku, ale teraz mówi: „Zauważ, że wartość większa niż 1 jest tutaj OK - jest to raczej gęstość prawdopodobieństwa niż prawdopodobieństwo, ponieważ wysokość jest zmienna ciągła. ”, a przynajmniej w tym bezpośrednim kontekście, P jest używane dla prawdopodobieństwa, a p dla gęstości prawdopodobieństwa. Tak, bardzo niechlujny, ponieważ artykuł używa p w niektórych miejscach dla oznaczenia prawdopodobieństwa, a w innych jako gęstości prawdopodobieństwa.
Powrót do pierwotnego pytania „Czy wartość rozkładu prawdopodobieństwa przekraczająca 1 może być OK?” Nie, ale widziałem już to zrobione (patrz mój ostatni akapit poniżej).
Oto jak interpretować prawdopodobieństwo> 1. Przede wszystkim zauważ, że ludzie mogą i dają 150% wysiłku, jak często słyszymy w sporcie i czasami pracują https://www.youtube.com/watch?v=br_vSdAOHQQ . Jeśli jesteś pewien, że coś się wydarzy, to prawdopodobieństwo wynosi 1. Prawdopodobieństwo 1,5 można zinterpretować, ponieważ masz 150% pewności, że wydarzenie się wydarzy - coś w rodzaju wysiłku 150%.
A jeśli możesz mieć prawdopodobieństwo> 1, przypuszczam, że możesz mieć prawdopodobieństwo <0. Prawdopodobieństwa ujemne można interpretować w następujący sposób. Prawdopodobieństwo 0,001 oznacza, że prawie nie ma szansy na zdarzenie. Prawdopodobieństwo = 0 oznacza „nie ma mowy”. Negatywne prawdopodobieństwo, takie jak -1.2, odpowiada „Musisz żartować”.
źródło
źródło
Wartość punktowa przy określonej wartości parametru wykresu gęstości prawdopodobieństwa byłaby prawdopodobieństwem, prawda? Jeśli tak, to stwierdzenie można poprawić, zmieniając po prostu P (wzrost | męski) na L (wzrost | męski).
źródło