Moje pytanie brzmi: jaki jest matematyczny związek między rozkładem Beta a współczynnikami modelu regresji logistycznej ?
Aby zilustrować: funkcję logistyczną (sigmoid) podano przez
i służy do modelowania prawdopodobieństw w modelu regresji logistycznej. Niech będzie wynikiem dychotomicznym a macierzą projektową. Model regresji logistycznej podano przez
Uwaga ma pierwszą kolumnę o stałej 1 ( punkt przecięcia), a β jest wektorem kolumnowym współczynników regresji. Na przykład, gdy mamy jeden (normalny-normalny) regresor x i wybieramy β 0 = 1 ( punkt przecięcia) i β 1 = 1 , możemy symulować wynikowy „rozkład prawdopodobieństw”.
Wykres ten przypomina rozkład Beta (podobnie jak wykresy dla innych wyborów ), których gęstość jest podana przez
Przy użyciu maksymalnego prawdopodobieństwa lub metod momentów można oszacować i q na podstawie rozkładu P ( A = 1 | X ) . Zatem moje pytanie sprowadza się do: jaki jest związek między wyborami β i p i q ? To, na początek, odnosi się do dwuwymiarowego przypadku podanego powyżej.
Odpowiedzi:
Notice that logistic regression provides you with conditional probabilitiesPr(Y=1∣X) , while on your plot you are presenting us the marginal distribution of predicted probabilities. Those are two different things to talk about.
There is no direct relation between logistic regression parameters and parameters of beta distribution when looking on the distribution of predictions from logistic regression model. Below you can see data simulated using normal, exponential and uniform distributions transformed using logistic function. Besides using exactly the same parameters of logistic regression (i.e.β0=0,β1=1 ), the distributions of predicted probabilities are very different. So distribution of predicted probabilities depends not only on parameters of logistic regression, but also on distributions of X 's and there is no simple relation between them.
Since beta is a distribution of values in(0,1) , then it cannot be used to model binary data as logistic regression does. It can be used to model probabilities, in such way we use beta regression (see also here and here). So if you are interested as the probabilities (understood as random variable) behave, you can use beta regression for such purpose.
źródło
Logistic regression is a special case of a Generalized Linear Model (GLM). In this particular case of binary data, the logistic function is the canonical link function that transforms the non-linear regression problem at hand into a linear problem. GLMs are somewhat special, in the sense that they apply only to distributions in the exponential family (such as the Binomial distribution).
In Bayesian estimation, the Beta distribution is the conjugate prior to the binomial distribution, which means that a Bayesian update to a Beta prior, with binomial observations, will result in a Beta posterior. So if you have counts for observations of binary data, you can get an analytical Bayesian estimate of the parameters of the binomial distribution by using a Beta prior.
So, along the lines of what has been said by other, I don't think there is a direct relation, but both the Beta distribution and logistic regression have close relationships with estimating the parameters of something that follows a binomial distribution.
źródło
Maybe there is no direct connection? The distribution ofP(A=1|X) largely depends on your simulation of X . If you simulated X with N(0,1) , exp(−Xβ) will have log-normal distribution with μ=−1 given β0=β1=1 . The distribution of P(A=1|X) can then be found explicitly: with c.d.f.
You can verify the results given above in R:
źródło