Weźmy następujący przykład:
set.seed(342)
x1 <- runif(100)
x2 <- runif(100)
y <- x1+x2 + 2*x1*x2 + rnorm(100)
fit <- lm(y~x1*x2)
Tworzy to model y oparty na x1 i x2 przy użyciu regresji OLS. Jeśli chcemy przewidzieć y dla danego x_vec, moglibyśmy po prostu użyć wzoru, który otrzymujemy z summary(fit)
.
Co jednak, jeśli chcemy przewidzieć dolną i górną prognozę y? (dla danego poziomu ufności).
Jak więc zbudowalibyśmy formułę?
r
regression
predictive-models
prediction-interval
Tal Galili
źródło
źródło
Odpowiedzi:
Będziesz potrzebował arytmetyki macierzowej. Nie jestem pewien, jak sobie z tym poradzi Excel. W każdym razie oto szczegóły.
Załóżmy, że regresja jest zapisana jakoy=Xβ+e .
Niech będzie wektorem wiersza zawierającym wartości predyktorów dla prognoz (w tym samym formacie co X ). Wtedy prognoza jest przez r = X * β = X * ( X ' X ) - 1 X " Y w skojarzony wariancji σ 2 [ 1 + X * ( X ' X ) - 1 ( X * ) " ] .X∗ X
źródło
Czy jesteś przypadkiem po różnych typach przedziałów prognoz? Strona
predict.lm
podręcznika mai
Czy o to ci chodziło?
źródło
@Tal: Mogę zasugerować Kutnera i in. Jako wspaniałe źródło modeli liniowych.
Istnieje różnica między 1) prognozą Y z indywidualnej nowej obserwacji X_vec, 2) oczekiwaną wartością Y uwarunkowaną na X_vec,mi( Y| Xv e c) oraz 3) Y z kilku wystąpień x_vec - wszystkie szczegółowo omówione w tekście.
Myślę, że szukasz wzoru na przedział ufnościmi( Y| Xv e c) and that is Y^ ± t(1-α /2)s{Y^ } where t has n-2 d.f. and s{Y^ } is the standard error of Y^ , σ2n +(Xvec−X¯)2σ2∑(Xi−X¯)2
źródło