Jaka jest różnica między szacowaniem a prognozowaniem?

46

Na przykład mam dane dotyczące strat historycznych i obliczam ekstremalne kwantyle (wartość zagrożona lub prawdopodobna maksymalna strata). Uzyskane wyniki służą do oszacowania straty lub ich przewidzenia? Gdzie można narysować linię? Jestem zdezorientowany.

estimation predictor prediction-interval melon
źródło

4

Ściśle związana jest dyskusja na temat różnicy między przedziałami ufności a przedziałami prognozy na stronie stats.stackexchange.com/questions/16493 .

whuber

64

„Prognozowanie” i „szacowanie” rzeczywiście są czasami używane zamiennie w pismach nietechnicznych i wydają się działać podobnie, ale istnieje wyraźne rozróżnienie między nimi w standardowym modelu problemu statystycznego. An Estymator danych używa się domyślić, w parametrze podczas predyktorem wykorzystuje dane odgadnąć w pewnym losowym wartości, która nie jest częścią zestawu danych. Dla tych, którzy nie są zaznajomieni z tym, co „parametr” i „wartość losowa” oznaczają w statystykach, poniżej podano szczegółowe wyjaśnienie.

W tym standardowym modelu zakłada się, że dane stanowią (prawdopodobnie wielowymiarową) obserwację zmiennej losowej której rozkład jest znany tylko z określonego zestawu możliwych rozkładów, „stanów natury”. Estymator jest procedura matematyczna, która przypisuje każdej możliwej wartości własnościach o stanie naturalnym , takich jak jego średnie . Tak więc oszacowanie jest domysłem na temat prawdziwego stanu przyrody. Możemy stwierdzić, jak dobry jest szacunek, porównując z . $\mathbf{x}$ $X$ $t$ $\mathbf{x}$ $t(\mathbf{x})$ $\theta$ $\mu(\theta)$ $t(\mathbf{x})$ $\mu(\theta)$

Czynnikiem dotyczy niezależnego obserwację innej zmiennej losowej , której rozkład jest podobne do prawdziwego stanu naturalnego. Prognozowanie to przypuszczenie o kolejnej losowej wartości. Możemy powiedzieć, jak dobrze dana przepowiednia jest jedynie poprzez porównanie do wartości realizowanego przez . Mamy nadzieję, że średnio porozumienie będzie dobre (w sensie uśrednienia wszystkich możliwych wyników i jednocześnie wszystkich możliwych wartości ). $p(\mathbf{x})$ $Z$ $p(\mathbf{x})$ $Z$ $\mathbf{x}$ $Z$

Zwykłe najmniejsze kwadraty dają standardowy przykład. Dane składają się z par wartości zmiennej zależnej z wartościami zmiennej niezależnej. Stan natury określają trzy parametry , i : mówi, że każdy przypomina niezależne losowanie z rozkładu normalnego ze średnią i odchyleniem standardowym . , i są parametrami (liczbami) uważanymi za stałe i niezmienne. Zainteresowania koncentrują się na $(x_i,y_i)$ $y_i$ $x_i$ $\alpha$ $\beta$ $\sigma$ $y_i$ $\alpha + \beta x_i$ $\sigma$ $\alpha$ $\beta$ $\sigma$ $\alpha$ (punkt przecięcia) i (nachylenie). OLS oszacowania napisany jest dobrze w tym sensie, że tendencję, aby być blisko i bywa blisko , bez względu na to, co prawdziwe (ale brak danych) wartości i może być . $\beta$ $(\hat{\alpha}, \hat{\beta})$ $\hat{\alpha}$ $\alpha$ $\hat{\beta}$ $\beta$ $\alpha$ $\beta$

Prognozowanie OLS polega na obserwacji nowej wartości zmiennej zależnej związanej z pewną wartością zmiennej niezależnej. może, ale nie musi, należeć do w zbiorze danych; to jest nieistotne. Jednym z intuicyjnie dobrych przewidywań jest to, że ta nowa wartość prawdopodobnie będzie zbliżona do . Lepsze przewidywania mówią, jak blisko może być nowa wartość (nazywane są przedziałami przewidywania ). Uwzględniają fakt, że i są niepewne (ponieważ zależą matematycznie od losowych wartości $Z = Y(x)$ $x$ $x$ $x_i$ $\hat{\alpha} + \hat{\beta}x$ $\hat{\alpha}$ $\hat{\beta}$ $(y_i)$ ), że nie jest pewne (i dlatego należy to oszacować), a także założenie, że ma rozkład normalny ze standardowym odchyleniem i średnią ( zauważ brak czapek!). $\sigma$ $Y(x)$ $\sigma$ $\alpha + \beta x$

Zwróć uwagę, że ta prognoza ma dwa oddzielne źródła niepewności: niepewność danych prowadzi do niepewności w szacowanym nachyleniu, przecięciu i resztkowym odchyleniu standardowym ( ); ponadto nie ma pewności, jaka będzie wartość . Ta dodatkowa niepewność - ponieważ jest losowa - charakteryzuje prognozy. Przewidywanie może wyglądać jak oszacowanie (w końcu oszacowania :-) i może nawet mieć tę samą matematyczną formułę ( może czasami być taki sam jak $(x_i,y_i)$ $\sigma$ $Y(x)$ $Y(x)$ $\hat{\alpha} + \hat{\beta}x$ $\alpha+\beta x$ $p(\mathbf{x})$ $t(\mathbf{x})$ ), ale przyniesie większą niepewność niż szacunki.

Tutaj zatem, w przykładzie OLS, widzimy wyraźne rozróżnienie: oszacowanie zgaduje na podstawie parametrów (które są ustalone, ale nieznane liczby), podczas gdy przewidywanie zgaduje wartość wartości losowej. Źródłem potencjalnych nieporozumień jest to, że prognozy zwykle opierają się na szacowanych parametrach i mogą nawet mieć tę samą formułę co estymator.

W praktyce estymatory można odróżnić od predyktorów na dwa sposoby:

cel : estymator stara się poznać właściwość prawdziwego stanu przyrody, podczas gdy prognoza ma na celu odgadnięcie wyniku zmiennej losowej; i
niepewność : predyktor ma zwykle większą niepewność niż powiązany estymator, ze względu na dodatkową niepewność wyniku tej zmiennej losowej. Dlatego dobrze udokumentowane i opisane predyktory zwykle mają przedziały niepewności - przedziały predykcji - które są szersze niż przedziały niepewności estymatorów, znane jako przedziały ufności. Charakterystyczną cechą przedziałów predykcyjnych jest to, że mogą (hipotetycznie) zmniejszać się wraz ze wzrostem zestawu danych, ale nie zmniejszają się do zerowej szerokości - niepewność losowego wyniku jest „nieredukowalna” - podczas gdy szerokości przedziałów ufności będą miały tendencję do zmniejszają się do zera, co odpowiada naszej intuicji, że precyzja oszacowania może stać się dowolnie dobra przy wystarczającej ilości danych.

Stosując to do oceny potencjalnej straty inwestycyjnej, najpierw rozważ cel: czy chcesz wiedzieć, ile faktycznie możesz stracić na tej inwestycji (lub na tym konkretnym koszyku inwestycji) w danym okresie, czy naprawdę zgadujesz, co to jest oczekiwana strata (być może w dużym świecie inwestycji)? Pierwsza jest prognozą, druga szacunkiem. Następnie rozważ niepewność. Jak zmieniłaby się twoja odpowiedź, gdybyś miał prawie nieskończone zasoby do gromadzenia danych i przeprowadzania analiz? Jeśli stałoby się to bardzo precyzyjne, prawdopodobnie szacujesz oczekiwany zwrot z inwestycji, a jeśli pozostajesz bardzo niepewny co do odpowiedzi, robisz prognozy.

Tak więc, jeśli nadal nie jesteś pewien, z jakim zwierzęciem masz do czynienia, zapytaj swojego estymatora / predyktora: jak prawdopodobne jest to i dlaczego? Za pomocą obu kryteriów (1) i (2) będziesz wiedział, co masz.

Whuber
źródło

Bardzo interesująca odpowiedź! Czy możesz podać nam jakieś referencje na ten temat?

user1420303,

2

@ user1420303 Oto dwa. (1) Kiefer, Wstęp do wnioskowania statystycznego (1987), s. 1. 30. ( „A problemem przewidywania jest taka, w której decyzja jest przypuszczenie nie jakiegoś własność , ale raczej jakiegoś majątku zmiennej losowej ....”) (2) Hahn & Meeker, interwały statystyczne (1991) . Przykłady i interpretacje znajdują się w sekcji 2.3.

F

$F$

whuber

+1. Natrafiłem na twoją odpowiedź, ponieważ próbuję zrozumieć różnicę terminologiczną między NIEBIESKIM a BLUPEM w modelach mieszanych i nadal nie jestem pewien, czy ją rozumiem. W przypadku modelu mieszanego , gdzie losowe przechwytuje , szacujemy i . Następnie możemy przewidzieć . Rozumiem tę różnicę. Ale co z ? Są one obliczane za pomocą BLU P , tj. „Predyktorem”; ale wydaje się, że przy wszelka niepewność znika, więc nie powinniśmy powiedzieć, że są szacowane

y = α + β x + u_{i} + ϵ

$y=\alpha+\beta x + u_i + \epsilon$

u_{i} \sim N (0, σ_{u}^{2})

$u_i \sim \mathcal N(0, \sigma^2_u)$

α, β, σ,

$\alpha, \beta, \sigma,$

σ_{u}

$\sigma_u$

y

$y$

u_{i}

$u_i$

n \to \infty

$n \to \infty$

u_{i}

$u_i$ ?

ameba mówi Przywróć Monikę

2

@amoeba Pomocne może być zrozumienie tej sytuacji jako modelu hierarchicznego: na jednym poziomie hierarchii jest losowy (więc oświadczenia o nim byłyby predyktorami ), podczas gdy na późniejszym poziomie został zrealizowany, a późniejsza ocena jest uzależniona od realizacji (składanie oświadczeń na temat estymatorów ).

u_{i}

$u_i$

whuber

2

@ whuber Najważniejsze, na co zwracałeś uwagę, że estymatory zawsze mają na celu przybliżenie wielkości o parametrach niestochastycznych / nielosowych, takich jak parametry w modelu SLR; predyktory zawsze mają na celu przybliżenie wielkości o charakterze stochastycznym / losowym, takim jak zmienna odpowiedzi (w tym warunek błędu) w modelu SLR. Ten punkt jest podkreślony we wczesnych pracach Rao.

Henry.L

8

Szacowanie odbywa się zawsze dla nieznanego parametru, natomiast przewidywanie dla zmiennej losowej.

Arif
źródło

5

Przewidujesz realizację zmiennej losowej, a jednocześnie szacujesz parametr zmiennej losowej (np. Jej wartość oczekiwaną).

Richard Hardy,

@CowboyTrader, nie wiem wystarczająco dużo o szacowaniu gęstości jądra, aby skomentować twoje roszczenie.

Richard Hardy

2

Nie ma różnicy w modelach. Rzeczywiście istnieje (niewielka) różnica w przeprowadzanych działaniach. Oszacowanie to kalibracja modelu probabilistycznego z wykorzystaniem danych („uczenie się” w terminologii AI). Prognozowanie jest „zgadywaniem” przyszłej obserwacji. Zakładając, że to „zgadywanie” opiera się na danych z przeszłości - może to być przypadek szacunkowy; takie jak przewidywanie wzrostu następnej osoby, z którą się spotkasz, na podstawie oszacowania średniego wzrostu w populacji. Należy jednak pamiętać, że ta prognoza nie zawsze jest przypadkiem oszacowania. Płeć następnej osoby, którą wkrótce spotkasz, nie jest parametrem populacji w klasycznym znaczeniu; Przewidywanie płci może wymagać pewnej oceny, ale będzie wymagało nieco więcej ...

W przypadku wartości zagrożonej przewidywanie i oszacowanie pokrywają się od czasu przewidywanej straty, jest to szacunkowa oczekiwana strata.

JohnRos
źródło

2

Zaczynasz dobrze z poprawnym rozróżnieniem między szacowaniem a prognozowaniem, ale potem dwie trzecie odpowiedzi wydaje się znów mylić przewidywanie z szacunkiem. Przedstawienie przykładu płci staje się jeszcze bardziej mylące, ponieważ nie jest związane z początkowym rozróżnieniem (w rzeczywistości jest nonsensowne, ponieważ u podstaw leży przesunięcie modelu statystycznego między etapem szacowania a prognozowania).

whuber

0

Prognozowanie to użycie funkcji regresji próbki do oszacowania wartości zmiennej zależnej uwarunkowanej niektórymi nieobserwowanymi wartościami zmiennej niezależnej.

Oszacowanie to proces lub technika obliczania nieznanego parametru lub ilości populacji.

użytkownik82419
źródło

3

Zwartość jest godna pochwały, ale tutaj może prowadzić do zamieszania. Prognozowanie nie ogranicza się do aplikacji regresji: jest tak ogólne, jak szacowanie. Niezależnie od tego, co dokładnie rozumiesz przez „uwarunkowane niektórymi nieobserwowanymi wartościami zmiennej niezależnej”? Czy to tylko sposób na stwierdzenie, że przewidywanie wymaga danych? Jeśli tak, to co z szacunkami, dla których nie podajesz takiego wymogu? Twój opis sprawia, że brzmi to jak ćwiczenie z podręcznika, na przykład „co oznacza średnia rozkład normalny, którego SD wynosi a górny kwartyl to ?” Czy oszacowanie wymaga danych, czy nie?

1

$1$

2

$2$

whuber

0

Zazwyczaj „oszacowanie” jest zarezerwowane dla parametrów, a „przewidywanie” dotyczy wartości. Czasami jednak rozróżnienie to zaciera się, np. Możesz zobaczyć coś w rodzaju „oszacuj wartość jutro” zamiast „prognozuj wartość jutro”.

Wartość zagrożona (VaR) jest interesującym przypadkiem. VaR nie jest parametrem, ale nie mówimy „przewidzieć VaR”. Mówimy „oszacuj VaR”. Dlaczego?

Powodem tego jest to, że VaR nie jest wielkością losową, JEŻELI znasz rozkład, ORAZ musisz znać rozkład, aby obliczyć VaR. Tak więc, jeśli używasz parametrycznego podejścia VaR, najpierw szacujesz parametry rozkładu, a następnie obliczasz VaR. Jeśli używasz nieparametrycznej Var, następnie bezpośrednio oszacować VaR podobny do tego, jak byś oszacowania parametrów. Pod tym względem jest podobny do kwantylu.

Z drugiej strony kwota straty jest wartością losową. Dlatego jeśli zostaniesz poproszony o prognozowanie strat, nie przewidujesz ich. Ponownie czasami mówimy, że strata „szacuje”. Tak więc linia jest niewyraźna, jak napisałem wcześniej.

Aksakal
źródło

Mówisz, że VaR nie jest parametrem, ale zastanawiam się, czy tak naprawdę jest. VaR jest (warunkowym lub bezwarunkowym) kwantylem rozkładu zmiennej zależnej. Jako taki wygląda mi na parametr rozkładu, a przynajmniej funkcję niektórych innych, bardziej fundamentalnych parametrów, które nie wydają się zmieniać istoty. Nie wygląda to na realizację zmiennej losowej.

Richard Hardy

Ponadto, gdy powiesz, że przewidywanie dotyczy wartości, dotyczy to zarówno wartości parametrów, jak i realizacji zmiennych losowych (które są również wartościami). Dlatego sugeruję zastąpienie wartości realizacją zmiennych losowych; wtedy miałbyś dychotomię, do której dążysz.

Richard Hardy

-3

Poniższe definicje uważam za bardziej objaśniające:

Oszacowanie to obliczone przybliżenie wyniku. Ten wynik może być prognozą, ale niekoniecznie. Na przykład, mogę oszacować, że liczba samochodów na Golden Gate Bridge wczoraj o godzinie 17:00 wynosiła 900, zakładając, że trzy pasy jadące w kierunku Marin były wolne, każdy samochód zajmuje 30 stóp przestrzeni, a most ma 9000 stóp długości ( 9000/30 x 3 = 900).

Ekstrapolacja polega na oszacowaniu wartości zmiennej poza znanym zakresem wartości, zakładając, że oszacowana wartość jest zgodna z pewnym wzorem znanym. Najprostszą i najpopularniejszą formą ekstrapolacji jest oszacowanie trendu liniowego na podstawie znanych danych. Alternatywy do ekstrapolacji liniowej obejmują ekstrapolację wielomianową i stożkową. Podobnie jak szacowanie, ekstrapolacja może być używana do prognozowania, ale nie ogranicza się do prognozowania.

Prognozy mówią po prostu coś o przyszłości. Prognozy zwykle koncentrują się na wynikach, a nie ścieżce do tych wyników. Mogę na przykład przewidzieć, że do 2050 r. Wszystkie pojazdy będą zasilane silnikami elektrycznymi, nie wyjaśniając, w jaki sposób przechodzimy od niskiej adopcji w 2011 r. Do pełnej adopcji do 2050 r. Jak widać z poprzedniego przykładu, prognozy niekoniecznie opierają się na danych.

Prognozowanie to proces sporządzania prognozy lub prognozy. Pojęcia prognoza i prognoza są często używane zamiennie, ale czasami prognozy różnią się od prognoz, ponieważ prognozy często dostarczają wyjaśnienia ścieżek do wyniku. Na przykład prognoza adopcji pojazdu elektrycznego może obejmować ścieżkę do pełnej adopcji pojazdu elektrycznego według wzoru adopcji w kształcie litery S, w którym niewiele samochodów jest elektrycznych przed 2025 r., Punkt przegięcia występuje w 2030 r. Z szybkim przyjęciem, a większość samochodów jest elektryczna po 2040

Szacowanie, ekstrapolacja, prognozowanie i prognozowanie nie są wzajemnie wyczerpującymi i zbiorowo wyczerpującymi warunkami. Dobre długoterminowe prognozy dotyczące złożonych problemów często wymagają zastosowania technik innych niż ekstrapolacja w celu uzyskania wiarygodnych wyników. Prognozy i prognozy mogą również występować bez jakichkolwiek obliczeń szacunkowych.

patrz linki definicje1 definicje2

sso
źródło

2

Prognozy niekoniecznie muszą dotyczyć przyszłości.

miura

przeczytaj to w całości: Prognozy mówią po prostu coś o przyszłości. Prognozy zwykle koncentrują się na wynikach, a nie ścieżce do tych wyników.

sso

Tak, ale wyniki nie muszą być w przyszłości. Możesz na przykład przewidzieć wyniki nieznane w przeszłości.

miura

1

Jest to rozsądny opis tego, w jaki sposób słowa „szacowanie” i „przewidywanie” są używane w nietechnicznym, nietatystycznym znaczeniu. Jak sugeruje @miura, z innych odpowiedzi wynika, że te zmowy potoczne różnią się od konwencjonalnych zmysłów statystycznych. Widzę uzasadniony argument za interpretacją pierwotnego pytania w sposób niestatystyczny. Interpretacja ta wprowadza jednak niewygodne i niepotrzebne ograniczenie, ponieważ nie zezwala na zastosowanie „prognoz” do przeszłych (zakończonych) zdarzeń o nieznanych wynikach.

whuber

Jeśli zastosujesz go do przeszłego np. Filtra Kalmana o minimalnej wariancji i wygładzacza o minimalnej wariancji można użyć do odzyskania interesujących danych z hałaśliwych pomiarów. Wyżej wymienione techniki opierają się na predyktorach o jeden krok do przodu ... więc nadal przewidywanie o jeden krok do przodu (przyszłość) :)

sso

Jaka jest różnica między szacowaniem a prognozowaniem?

Odpowiedzi: