Przedział ufności dla różnicy średnich w regresji

Załóżmy, że mam model regresji kwadratowej z błędami spełniającymi zwykłe założenia (niezależne, normalne, niezależne od wartości ). Niech będą szacunkami najmniejszych kwadratów.

Y = β_{0} + β_{1} X + β_{2} X^{2} + ϵ

$Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \epsilon$

ϵ

$\epsilon$

X

$X$

b_{0}, b_{1}, b_{2}

$b_0, b_1, b_2$

Mam dwie nowe wartości i i jestem zainteresowany uzyskaniem przedziału ufności dla . $X$ $x_1$ $x_2$ $v = E(Y|X = x_2) - E(Y|X=x_1) = \beta_1 (x_2 - x_1) + \beta_2 (x_2^2 - x_1^2)$

Szacunkowy punkt to i (popraw mnie, jeśli się mylę) mogę oszacować wariancję za pomocą przy użyciu oszacowań wariancji i kowariancji współczynników podanych przez oprogramowanie. $\hat{v} = b_1 (x_2 - x_1) + b_2 (x_2^2 - x_1^2)$

{\hat{s}}^{2} = (x_{2} - x_{1})^{2} Var (b_{1}) + (x_{2}^{2} - x_{1}^{2})^{2} Var (b_{2}) + 2 (x_{2} - x_{1}) (x^{2} - x_{1}^{2}) Cov (b_{1}, b_{2})

$\hat{s}^2 = (x_2 - x_1)^2 \text{Var}(b_1) + (x_2^2 - x_1^2)^2 \text{Var}(b_2) + 2 (x_2 - x_1)(x^2 - x_1^2)\text{Cov}(b_1, b_2)$

Mógłbym użyć normalnego przybliżenia i wziąć jako 95% przedział ufności dla , lub mógłbym użyć przedziału ufności bootstrap, ale istnieje sposób, aby obliczyć dokładny rozkład i użyć tego? $\hat{v} \pm 1.96 \hat{s}$ $v$

regression confidence-interval mark999
źródło

Ponieważ błędy są przyjmowane jako normalne, to parametr szacuje - będące liniowymi funkcjami danych, skąd również błędy - same w sobie muszą być normalne, co oznacza rozkład normalny dla .

\hat{v}

$\hat{v}$

whuber

Więc mówisz, że normalny przedział ufności jest prawidłowy? Jeśli dobrze rozumiem, zgodnie z tą logiką zastosowalibyśmy również normalne przedziały ufności dla parametrów. Ale używamy przedziałów opartych na rozkładzie T.

mark999

Zastosowano rozkład t, ponieważ szacujesz wariancję błędu; gdyby to było znane, miałbyś normalny rozkład, jak mówi @whuber.

JMS

Dzięki za komentarz. Pytam, czy rozkład t można również zastosować do przedziału ufności dla v zdefiniowanego w pytaniu, a jeśli tak, to z iloma stopniami swobody?

mark999

Wszystkie wariancje i kowariancje zależą ostatecznie od szacowanej wariancji reszt. Zatem zastosowanym DF jest DF w tym oszacowaniu, równy liczbie wartości danych minus liczba parametrów (w tym stała).

whuber

Odpowiedzi:

Ogólny wynik można oczekujemy (w podanych założenia) wygląda następująco: Do regresji liniowej z predyktorami (trzeba dwa, i ) i osią, a następnie obserwacji matrycy projektu, estymator wymiarów i $p$ $X$ $X^2$ $n$ $\mathbf{X}$ $n \times (p+1)$ $\hat{\beta}$ $p+1$ $a \in \mathbb{R}^{p+1}$

\frac{a^{T} \hat{β} - a^{T} β}{\hat{σ} \sqrt{a^{T} (X^{T} X)^{- 1} a}} \sim t_{n - p - 1} .

$\frac{a^T\hat{\beta} - a^T \beta}{\hat{\sigma} \sqrt{a^T(\mathbf{X}^T\mathbf{X})^{-1}a}} \sim t_{n-p-1}.$

W konsekwencji możesz konstruować przedziały ufności dla dowolnej liniowej kombinacji wektora przy użyciu tego samego rozkładu którego używasz do konstruowania przedziału ufności dla jednej ze współrzędnych. $\beta$ $t$

W twoim przypadku oraz . Mianownik w powyższej formule jest pierwiastkiem kwadratowym z tego, co obliczasz, jako oszacowania standardowego błędu (pod warunkiem, że to właśnie oblicza oprogramowanie ...). Zauważ, że estymator wariancji, , ma być (zwykłym) obiektywnym estymatorem, w którym dzielimy przez stopnie swobody, , a nie liczbę obserwacji . $p = 2$ $a^T = (0, x_2 - x_1, x_2^2 - x_1^2)$ $\hat{\sigma}^2$ $n-p-1$ $n$

NRH
źródło

Dziękuję, właśnie tego szukałem. Ale czy formuła zawiera błąd? Wymiary nie pasują . Czy powinno być macierzą mającą macierze w pierwszej kolumnie?

a^{T} (X^{T} X)^{- 1} a

$a^T(\mathbf{X}^T\mathbf{X})^{-1}a$

X

$\mathbf{X}$

n \times (p + 1)

$n \times (p+1)$

mark999

@ mark999, tak, ma kolumn. Poprawiłem to w odpowiedzi. Dzięki.

X

$\mathbf{X}$

p + 1

$p+1$

NRH