Różnica między przedziałami ufności a przedziałami prognozowania

80

Dla przedziału predykcji w regresji liniowej nadal korzystać z celu wygenerowania odstępu. Używasz tego również do wygenerowania przedziału ufności . Jaka jest różnica między nimi? $\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$ $E[Y|x_0]$

regression confidence-interval predictive-models prediction-interval pytanie
źródło

7

nie "wygenerowania odstępu".

\hat{E} [Y | x] = \hat{β_{0}} + {\hat{β}}_{1} x

$\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$

Glen_b

W żadnej z powyższych odpowiedzi nie widzę powodu rozbieżności między tymi dwiema metodami. Wyniki regresji są zazwyczaj szacowane na podstawie parametrycznych parametrów rozkładu t Studenta, a typowa regresja, zwłaszcza od źle dopasowanych do modeli regresji danych, prowadzi do reszt, które nie są uczone, np. Wypaczone, ale szczególnie z ciężkimi ogonami (jeśli nie zawsze) miary parametryczne rozproszenia danych większe niż odpowiadające im oczekiwane mierzone kwantyle. Przydała mi się ogólna zasada: jeśli widzę pozostałości z wartościami odstającymi, długimi ogonami iu

Carl

Powiązane: Uzyskanie wzoru na granice predykcji w modelu liniowym .

Scortchi

75

$\text{E}[y \mid x]$ $y$ $y$ $\text{E}[y \mid x]$ $x\hat{\beta}$

$\text{E}[y \mid x]$ $y$ $y$

$\beta$ $\text{E}[y \mid x]$ $y$ $\text{E}[y \mid x]$

Dlatego przedział przewidywania będzie szerszy niż przedział ufności.

Charlie
źródło

40

Różnica między przedziałem prognozy a przedziałem ufności jest błędem standardowym.

Błąd standardowy dla przedziału ufności średniej uwzględnia niepewność związaną z próbkowaniem. Linia obliczona z próbki będzie inna niż linia, która zostałaby obliczona, gdybyś miał całą populację, błąd standardowy uwzględnia tę niepewność.

Błąd standardowy przedziału prognozowania dla pojedynczej obserwacji uwzględnia niepewność wynikającą z próbkowania jak powyżej, ale bierze również pod uwagę zmienność osobników wokół przewidywanej średniej. Błąd standardowy dla przedziału prognozy będzie szerszy niż dla przedziału ufności, a zatem przedział prognoz będzie szerszy niż przedział ufności.

Greg Snow
źródło

39

Pomocne było następujące wyjaśnienie:

Przedziały ufności mówią ci o tym, jak dobrze określiłeś średnią. Załóżmy, że dane naprawdę są losowo próbkowane z rozkładu Gaussa. Jeśli zrobisz to wiele razy i obliczysz przedział ufności średniej z każdej próbki, możesz oczekiwać, że około 95% tych przedziałów będzie zawierać prawdziwą wartość średniej populacji. Kluczową kwestią jest to, że przedział ufności mówi ci o prawdopodobnej lokalizacji prawdziwego parametru populacji.

Interwały prognozowania podpowiedzą, gdzie można spodziewać się próbkowania następnego punktu danych. Załóżmy, że dane naprawdę są losowo próbkowane z rozkładu Gaussa. Zbierz próbkę danych i oblicz przedział prognozy. Następnie próbkuj jeszcze jedną wartość z populacji. Jeśli robisz to wiele razy, możesz oczekiwać, że następna wartość będzie mieściła się w tym przedziale prognozowania w 95% próbek. Kluczowym punktem jest to, że przedział prognoz mówi ci o rozkładzie wartości, a nie o niepewności w określaniu populacji oznaczać.

Przedziały prognozowania muszą uwzględniać zarówno niepewność co do wartości średniej populacji, jak i rozproszenie danych. Tak więc przedział przewidywania jest zawsze szerszy niż przedział ufności.

Źródło: http://www.graphpad.com/support/faqid/1506/

vonjd
źródło

Co do cholery oznacza tutaj „rozproszenie danych”?

tel

2

@tel: Oczywiście wariancja

vonjd

36

Jedno jest prognozą przyszłej obserwacji, a drugie przewidywaną średnią odpowiedzią. Podam bardziej szczegółową odpowiedź, aby, miejmy nadzieję, wyjaśnić różnicę i skąd ona pochodzi, a także w jaki sposób ta różnica przejawia się w szerszych odstępach czasu dla przewidywania niż dla pewności.

$x_0$

$x_0$ $x_0$
$y = x_{0}^{T} β + ϵ$ $y = x_0^T\beta+\epsilon$ $E(\epsilon)=0$ $\hat{y} = x_{0}^{T} \hat{β}$ $\hat{y} = x_0^T\hat{\beta}$ $\hat{\beta}$ $\epsilon$
$x_0$ $x_0$
$\hat{y} = x_{0}^{T} \hat{β}$ $\hat{y} = x_0^T\hat{\beta}$ $\hat{\beta}$

v a r (x_{0}^{T} \hat{β}) = x_{0}^{T} (X^{T} X)^{- 1} x_{0} σ^{2}

$var(x_0^T\hat{\beta}) = x_0^T(X^TX)^{-1}x_0\sigma^2$

$x_0^T\hat{\beta} + \epsilon$ $\epsilon$ $\sigma^2$ $\hat{\beta}$

$x_0$
${\hat{y}}_{0} \pm t_{n - p}^{(α / 2)} \hat{σ} \sqrt{x_{0}^{T} (X^{T} X)^{- 1} x_{0} + 1}$ $\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0 + 1}$
$x_0$
${\hat{y}}_{0} \pm t_{n - p}^{(α / 2)} \hat{σ} \sqrt{x_{0}^{T} (X^{T} X)^{- 1} x_{0}}$ $\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0}$

$t_{n-p}^{\alpha/2}$ $n-p$ $\alpha/2$

Mamy nadzieję, że dzięki temu nieco bardziej jasne jest, dlaczego przedział prognozowania jest zawsze szerszy i jaka jest podstawowa różnica między tymi dwoma przedziałami. Ten przykład został zaadaptowany z Faraway, Linear Models with R, Sec. 4.1

jpgard
źródło

2

Miło jest widzieć, że stary wątek został znacznie ulepszony dzięki wyraźnej i przemyślanej odpowiedzi. Witamy na naszej stronie!

whuber

Czy nie powinno to być ... x0 + 1 / n +1 (dla przedziału prognozy (1)) i ... x0 + 1 / n (dla przedziału ufności (2) _ www2.stat.duke.edu /~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regression/…

user48956

12

Krótka odpowiedź:

Przedział przewidywania przerwa związana ze zmienną losową jeszcze bazowej (prognozowania).

Przedział ufności jest przedział związany z parametrem i jest częstościowym pojęcie.

Sprawdź pełną odpowiedź tutaj Roba Hyndmana, twórcy pakietu prognoz w R.

pablo_sci
źródło

3

Ta odpowiedź jest dla tych czytelników, którzy nie mogli w pełni zrozumieć poprzednich odpowiedzi. Omówmy konkretny przykład. Załóżmy, że próbujesz przewidzieć masę ludzi na podstawie ich wzrostu, płci (mężczyzna, kobieta) i diety (standard, niskowęglowodanowa, wegetariańska). Obecnie na Ziemi żyje ponad 8 miliardów ludzi. Oczywiście można znaleźć wiele tysięcy osób o tej samej wysokości i innych dwóch parametrach, ale różnej wadze. Ich waga różni się bardzo, ponieważ niektóre z nich mają otyłość, a inne mogą cierpieć z powodu głodu. Większość tych ludzi będzie gdzieś pośrodku.

Jednym z zadań jest przewidzenie średniej masy wszystkich osób mających te same wartości wszystkich trzech zmiennych objaśniających. Tutaj używamy przedziału ufności. Innym problemem jest prognozowanie masy ciała określonej osoby. I nie znamy okoliczności życia tej osoby. W tym przypadku należy zastosować przedział prognozy. Jest on wyśrodkowany wokół tego samego punktu, ale musi być znacznie szerszy niż przedział ufności.

Serhii Kushchenko
źródło

Różnica między przedziałami ufności a przedziałami prognozowania

Odpowiedzi: