Niektóre źródła podają, że funkcja prawdopodobieństwa nie jest prawdopodobieństwem warunkowym, niektóre twierdzą, że tak. To jest dla mnie bardzo mylące.
Według większości źródeł, które widziałem, prawdopodobieństwo rozkładu z parametrem powinno być iloczynem funkcji masy prawdopodobieństwa, biorąc pod uwagę próbek x_i :n x i
Na przykład w regresji logistycznej używamy algorytmu optymalizacyjnego, aby zmaksymalizować funkcję wiarygodności (Maximum Likelihood Estimation), aby uzyskać optymalne parametry, a zatem ostateczny model LR. Biorąc pod uwagę próbek treningowych, które zakładamy, że są od siebie niezależne, chcemy zmaksymalizować iloczyn prawdopodobieństw (lub połączonych funkcji masy prawdopodobieństwa). Wydaje mi się to dość oczywiste.
Zgodnie z relacją między: prawdopodobieństwem, prawdopodobieństwem warunkowym i wskaźnikiem niepowodzenia , „prawdopodobieństwo nie jest prawdopodobieństwem i nie jest prawdopodobieństwem warunkowym”. Wspomniał także: „prawdopodobieństwo jest prawdopodobieństwem warunkowym tylko w bayesowskim rozumieniu prawdopodobieństwa, tj. Jeśli założymy, że jest zmienną losową”.
Czytałem o różnych perspektywach leczenia problemu uczenia się między częstym a bayesowskim.
Według źródła, dla wnioskowania bayesowskiego, mamy apriorycznie , prawdopodobieństwo , i chcemy uzyskać tylne , używając twierdzenia bayesowskiego:P ( X | θ ) P ( θ | X )
Nie znam Bayesian Inference. Dlaczego który jest rozkładem obserwowanych danych w zależności od jego parametrów, jest również określany jako prawdopodobieństwo? W Wikipedii jest napisane, że czasami jest napisane . Co to znaczy?
czy istnieje różnica między definicjami Frequentist a Bayesian dotyczącymi prawdopodobieństwa?
Dzięki.
EDYTOWAĆ:
Istnieją różne sposoby interpretacji twierdzenia Bayesa - interpretacja Bayesa i interpretacja częstości (patrz: twierdzenie Bayesa - Wikipedia ).
źródło
Odpowiedzi:
W definicji nie ma różnicy - w obu przypadkach funkcją prawdopodobieństwa jest dowolna funkcja parametru, która jest proporcjonalna do gęstości próbkowania. Ściśle mówiąc, nie wymagamy, aby prawdopodobieństwo było równe gęstości próbkowania; musi być tylko proporcjonalny, co pozwala usuwać multiplikatywne części, które nie zależą od parametrów.
Podczas gdy gęstość próbkowania jest interpretowana jako funkcja danych, pod warunkiem określonej wartości parametru, funkcja prawdopodobieństwa jest interpretowana jako funkcja parametru dla stałego wektora danych. Zatem w standardowym przypadku danych IID masz:
W statystyce bayesowskiej twierdzenie Bayesa zwykle wyrażamy w najprostszej postaci jako:
Wyrażenie dla twierdzenia Bayesa podkreśla, że oba jego multilikatywne elementy są funkcjami parametru, który jest przedmiotem zainteresowania gęstości tylnej. (Ten wynik proporcjonalności w pełni definiuje regułę, ponieważ tylna jest gęstością, a zatem istnieje wyjątkowa stała mnożenia, która sprawia, że integruje się z jedną). Jak zauważyłeś w swojej aktualizacji, filozofia bayesowska i częstokrzyska mają różne struktury interpretacyjne. W paradygmacie częstokroć parametr jest ogólnie traktowany jako „stała stała”, a zatem nie przypisuje się mu miary prawdopodobieństwa. Dlatego częstokroć odrzucają przypisanie wcześniejszego lub późniejszego rozkładu parametru (więcej dyskusji na temat tych różnic filozoficznych i interpretacyjnych, patrz np. O'Neill 2009 ).
źródło
Funkcja prawdopodobieństwa jest definiowana niezależnie od lub przed statystycznym paradygmatem używanym do wnioskowania, jako funkcja, (lub ) parametru , funkcja zależy to lub jest zindeksowane obserwacjami dostępnymi dla tego wnioskowania. A także pośrednio w zależności od rodziny modeli prawdopodobieństwa wybranych do reprezentowania zmienności lub losowości danych. Dla danej wartości pary wartość tej funkcji jest dokładnie identyczna z wartością gęstości modelu przy- L ( θ ; x ) L ( θ | x ) θ - - x ( θ , x ) x θ- - L ( θ ; x ) L ( θ | x ) θ - - x ( θ , x ) x po zindeksowaniu za pomocą parametru . θ Co często jest z grubsza tłumaczone jako „prawdopodobieństwo danych”.
Aby zacytować więcej autorytatywnych i historycznych źródeł niż wcześniejsza odpowiedź na tym forum,
i
który wspomina o proporcjonalności, którą Jeffreys (i ja) uważają za zbędną:
Cytując tylko jedno zdanie z doskonałego historycznego wpisu do tematu Johna Aldricha (Statistics Science, 1997):
Przyjmując podejście bayesowskie, funkcja prawdopodobieństwa nie zmienia kształtu ani charakteru. Nadal jest gęstością w indeksie indeksowanym przez . Dodatkową funkcją jest to, że ponieważ jest również wyposażony model probabilistyczny, znane rozkładzie gęstości na indeksowanych przez mogą być również interpretowane jako warunkowego gęstości uzależnione od realizacji : w Bayesa modelowania , jedna realizacja jest tworzona z wcześniejszego, z gęstością , a następnie realizacja ,θ θ x θ θ θ π ( ⋅ ) X xx θ θ x θ θ θ π( ⋅ ) X x Jest wytwarzany z rozkładu o gęstości , indeksowaneL ( θ | ⋅ ) θ ( θ , x )
Uwaga: Wprowadzone na stronie Wikipedii rozróżnienie funkcji prawdopodobieństwa między prawdopodobieństwem częstości a bayesowskim uważam za mylące i niepotrzebne lub po prostu błędne, ponieważ znaczna większość obecnych statystów bayesowskich nie stosuje prawdopodobieństwa jako substytutu prawdopodobieństwa z późniejszego okresu. Podobnie „różnica” wskazana na stronie Wikipedii o twierdzeniu Bayesa brzmi bardziej myląco niż cokolwiek innego, ponieważ twierdzenie to jest twierdzeniem prawdopodobieństwa o zmianie warunkowania, niezależnym od paradygmatu lub od znaczenia zdania prawdopodobieństwa. ( Moim zdaniem jest to bardziej definicja niż twierdzenie!)
źródło
Jako mały dodatek:
Nazwa „Prawdopodobieństwo” jest całkowicie myląca, ponieważ istnieje wiele różnych możliwych znaczeń. Nie tylko w „normalnym języku”, ale także w statystykach. Mogę wymyślić co najmniej trzy różne, ale nawet powiązane wyrażenia, z których wszystkie nazywane są prawdopodobieństwem; nawet w podręcznikach.
To powiedziawszy, biorąc pod uwagę multiplikatywną definicję Prawdopodobieństwa, nie ma w niej nic, co przekształciłoby ją w jakiekolwiek prawdopodobieństwo w sensie jej (np. Aksjomatycznej) definicji. Jest to liczba o wartościach rzeczywistych. Możesz zrobić wiele rzeczy, aby obliczyć lub powiązać to z prawdopodobieństwem (przyjmowanie współczynników, obliczanie priorytetów i pokoleń itp.) - ale samo w sobie nie ma znaczenia pod względem prawdopodobieństwa.
Odpowiedź była mniej lub bardziej przestarzała z powodu znacznie bardziej wyczerpującej i wyczerpującej odpowiedzi Xi'ana. Ale na żądanie, niektóre definicje prawdopodobieństwa w podręczniku:
źródło