Różnica między przedziałami ufności a przedziałami prognozowania

80

Dla przedziału predykcji w regresji liniowej nadal korzystać z E [ Y | x ] = ^ P 0 + β 1 x celu wygenerowania odstępu. Używasz tego również do wygenerowania przedziału ufności E [ Y | x 0 ] . Jaka jest różnica między nimi?E^[Y|x]=β0^+β^1xE[Y|x0]

pytanie
źródło
7
nie "wygenerowania odstępu". E^[Y|x]=β0^+β^1x
Glen_b
W żadnej z powyższych odpowiedzi nie widzę powodu rozbieżności między tymi dwiema metodami. Wyniki regresji są zazwyczaj szacowane na podstawie parametrycznych parametrów rozkładu t Studenta, a typowa regresja, zwłaszcza od źle dopasowanych do modeli regresji danych, prowadzi do reszt, które nie są uczone, np. Wypaczone, ale szczególnie z ciężkimi ogonami (jeśli nie zawsze) miary parametryczne rozproszenia danych większe niż odpowiadające im oczekiwane mierzone kwantyle. Przydała mi się ogólna zasada: jeśli widzę pozostałości z wartościami odstającymi, długimi ogonami iu
Carl

Odpowiedzi:

75

E[yx]yyE[yx]xβ^

E[yx]yy

βE[yx]yE[yx]

Dlatego przedział przewidywania będzie szerszy niż przedział ufności.

Charlie
źródło
40

Różnica między przedziałem prognozy a przedziałem ufności jest błędem standardowym.

Błąd standardowy dla przedziału ufności średniej uwzględnia niepewność związaną z próbkowaniem. Linia obliczona z próbki będzie inna niż linia, która zostałaby obliczona, gdybyś miał całą populację, błąd standardowy uwzględnia tę niepewność.

Błąd standardowy przedziału prognozowania dla pojedynczej obserwacji uwzględnia niepewność wynikającą z próbkowania jak powyżej, ale bierze również pod uwagę zmienność osobników wokół przewidywanej średniej. Błąd standardowy dla przedziału prognozy będzie szerszy niż dla przedziału ufności, a zatem przedział prognoz będzie szerszy niż przedział ufności.

Greg Snow
źródło
39

Pomocne było następujące wyjaśnienie:

Przedziały ufności mówią ci o tym, jak dobrze określiłeś średnią. Załóżmy, że dane naprawdę są losowo próbkowane z rozkładu Gaussa. Jeśli zrobisz to wiele razy i obliczysz przedział ufności średniej z każdej próbki, możesz oczekiwać, że około 95% tych przedziałów będzie zawierać prawdziwą wartość średniej populacji. Kluczową kwestią jest to, że przedział ufności mówi ci o prawdopodobnej lokalizacji prawdziwego parametru populacji.

Interwały prognozowania podpowiedzą, gdzie można spodziewać się próbkowania następnego punktu danych. Załóżmy, że dane naprawdę są losowo próbkowane z rozkładu Gaussa. Zbierz próbkę danych i oblicz przedział prognozy. Następnie próbkuj jeszcze jedną wartość z populacji. Jeśli robisz to wiele razy, możesz oczekiwać, że następna wartość będzie mieściła się w tym przedziale prognozowania w 95% próbek. Kluczowym punktem jest to, że przedział prognoz mówi ci o rozkładzie wartości, a nie o niepewności w określaniu populacji oznaczać.

Przedziały prognozowania muszą uwzględniać zarówno niepewność co do wartości średniej populacji, jak i rozproszenie danych. Tak więc przedział przewidywania jest zawsze szerszy niż przedział ufności.

Źródło: http://www.graphpad.com/support/faqid/1506/

vonjd
źródło
Co do cholery oznacza tutaj „rozproszenie danych”?
tel
2
@tel: Oczywiście wariancja
vonjd
36

Jedno jest prognozą przyszłej obserwacji, a drugie przewidywaną średnią odpowiedzią. Podam bardziej szczegółową odpowiedź, aby, miejmy nadzieję, wyjaśnić różnicę i skąd ona pochodzi, a także w jaki sposób ta różnica przejawia się w szerszych odstępach czasu dla przewidywania niż dla pewności.

x0

  1. x0x0

    y=x0Tβ+ϵ
    E(ϵ)=0
    y^=x0Tβ^
    β^ϵ
  2. x0x0

    y^=x0Tβ^
    β^

var(x0Tβ^)=x0T(XTX)1x0σ2

x0Tβ^+ϵϵσ2β^

  1. x0

    y^0±tnp(α/2)σ^x0T(XTX)1x0+1
  2. x0

    y^0±tnp(α/2)σ^x0T(XTX)1x0

tnpα/2npα/2

Mamy nadzieję, że dzięki temu nieco bardziej jasne jest, dlaczego przedział prognozowania jest zawsze szerszy i jaka jest podstawowa różnica między tymi dwoma przedziałami. Ten przykład został zaadaptowany z Faraway, Linear Models with R, Sec. 4.1

jpgard
źródło
2
Miło jest widzieć, że stary wątek został znacznie ulepszony dzięki wyraźnej i przemyślanej odpowiedzi. Witamy na naszej stronie!
whuber
Czy nie powinno to być ... x0 + 1 / n +1 (dla przedziału prognozy (1)) i ... x0 + 1 / n (dla przedziału ufności (2) _ www2.stat.duke.edu /~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regression/…
user48956
12

Krótka odpowiedź:

Przedział przewidywania przerwa związana ze zmienną losową jeszcze bazowej (prognozowania).

Przedział ufności jest przedział związany z parametrem i jest częstościowym pojęcie.

Sprawdź pełną odpowiedź tutaj Roba Hyndmana, twórcy pakietu prognoz w R.

pablo_sci
źródło
3

Ta odpowiedź jest dla tych czytelników, którzy nie mogli w pełni zrozumieć poprzednich odpowiedzi. Omówmy konkretny przykład. Załóżmy, że próbujesz przewidzieć masę ludzi na podstawie ich wzrostu, płci (mężczyzna, kobieta) i diety (standard, niskowęglowodanowa, wegetariańska). Obecnie na Ziemi żyje ponad 8 miliardów ludzi. Oczywiście można znaleźć wiele tysięcy osób o tej samej wysokości i innych dwóch parametrach, ale różnej wadze. Ich waga różni się bardzo, ponieważ niektóre z nich mają otyłość, a inne mogą cierpieć z powodu głodu. Większość tych ludzi będzie gdzieś pośrodku.

Jednym z zadań jest przewidzenie średniej masy wszystkich osób mających te same wartości wszystkich trzech zmiennych objaśniających. Tutaj używamy przedziału ufności. Innym problemem jest prognozowanie masy ciała określonej osoby. I nie znamy okoliczności życia tej osoby. W tym przypadku należy zastosować przedział prognozy. Jest on wyśrodkowany wokół tego samego punktu, ale musi być znacznie szerszy niż przedział ufności.

Serhii Kushchenko
źródło