O tym, czy w regresji logistycznej istnieje błąd (i jego założony rozkład), czytałem w różnych miejscach, które:
- nie istnieje termin błędu
- termin błędu ma rozkład dwumianowy (zgodnie z rozkładem zmiennej odpowiedzi)
- termin błędu ma rozkład logistyczny
Czy ktoś może wyjaśnić?
logistic
binomial
bernoulli-distribution
logistic-distribution
użytkownik61124
źródło
źródło
Odpowiedzi:
W regresji liniowej zakłada się, że obserwacje przebiegają zgodnie z rozkładem Gaussa ze średnim parametrem zależnym od wartości predyktora. Jeśli odejmiesz średnią z obserwacji, otrzymasz błąd : rozkład Gaussa ze średnią zero i niezależny od wartości predyktora - to znaczy błędy w dowolnym zestawie wartości predyktora mają ten sam rozkład.
W regresji logistycznej zakłada się, że obserwacje podążają za rozkładem Bernoulliego † ze średnim parametrem (prawdopodobieństwem) zależnym od wartości predyktora. Tak więc dla każdej wartości predyktora określającej średnią π istnieją tylko dwa możliwe błędy: 1 - π występujące z prawdopodobieństwem π i 0 - π występujące z prawdopodobieństwem 1 - π . Dla innych wartości predykcyjnych błędy będą wynosić 1 - π ′ występujące z prawdopodobieństwem π ′y∈{0,1} π 1−π π 0−π 1−π 1−π′ π′ , I występujące z prawdopodobieństwem 1 - π ′ . Nie ma więc wspólnego rozkładu błędów niezależnego od wartości predyktorów, dlatego ludzie twierdzą, że „nie istnieje termin błędu” (1).0−π′ 1−π′
„Pojęcie błędu ma rozkład dwumianowy” (2) to po prostu niechlujstwo - „Modele Gaussa mają błędy Gaussa, a modele dwumianowe ergo mają błędy dwumianowe”. (Lub, jak wskazuje @whuber, można by to rozumieć jako „różnicę między obserwacją a jej oczekiwaniem ma rozkład dwumianowy tłumaczony przez oczekiwanie”).
„Pojęcie błędu ma rozkład logistyczny” (3) wynika z wyprowadzenia regresji logistycznej z modelu, w którym obserwuje się, czy ukryta zmienna z błędami występującymi po rozkładzie logistycznym przekracza pewien próg. To nie jest ten sam błąd, który został zdefiniowany powyżej. (Dziwne byłoby powiedzenie IMO poza tym kontekstem lub bez wyraźnego odniesienia do ukrytej zmiennej).
† If you havek observations with the same predictor values, giving the same probability π for each, then their sum ∑y follows a binomial distribution with probability π and no. trials k . Considering ∑y−kπ as the error leads to the same conclusions.
źródło
This has been covered before. A model that is constrained to have predicted values in[0,1] cannot possibly have an additive error term that would make the predictions go outside [0,1] . Think of the simplest example of a binary logistic model -- a model containing only an intercept. This is equivalent to the Bernoulli one-sample problem, often called (in this simple case) the binomial problem because (1) all the information is contained in the sample size and number of events or (2) the Bernoulli distribution is a special case of the binomial distribution with n=1 . The raw data in this situation are a series of binary values, and each has a Bernoulli distribution with unknown parameter θ representing the probability of the event. There is no error term in the Bernoulli distribution, there's just an unknown probability. The logistic model is a probability model.
źródło
To me the unification of logistic, linear, poisson regression etc... has always been in terms of specification of the mean and variance in the Generalized Linear Model framework. We start by specifying a probability distribution for our data, normal for continuous data, Bernoulli for dichotomous, Poisson for counts, etc...Then we specify a link function that describes how the mean is related to the linear predictor:
For linear regression,g(μi)=μi .
For logistic regression,g(μi)=log(μi1−μi) .
For Poisson regression,g(μi)=log(μi) .
The only thing one might be able to consider in terms of writing an error term would be to state:
Note, however, that basic Generalized Linear Models only assume a structure for the mean and variance of the distribution. It can be shown that the estimating equations and the Hessian matrix only depend on the mean and variance you assume in your model. So you don't necessarily need to be concerned with the distribution ofei for this model because the higher order moments don't play a role in the estimation of the model parameters.
źródło
źródło