Czy możemy tworzyć twierdzenia probabilistyczne z przedziałami prognozowania?

12

Przeczytałem wiele doskonałych dyskusji na stronie dotyczących interpretacji przedziałów ufności i przedziałów prognoz, ale jedna koncepcja wciąż jest nieco zagadkowa:

Rozważmy ramy OLS a my uzyskał dopasowanego modelu y = X p . Otrzymaliśmy x i poprosiliśmy o przewidzenie jego odpowiedzi. Obliczamy x * T p i, jako bonus, możemy również dostarczyć 95% przedział predykcji wokół naszej prognozy, a la Uzyskanie formułę granicach predykcyjnych w modelu liniowego . Nazwijmy ten przedział przewidywania PI.y^=Xβ^xxT.β^

Które z poniższych (lub żadne z nich) jest prawidłową interpretacją PI?

  1. Dla w szczególności Y ( x * ) leży wewnątrz PI z 95% prawdopodobieństwem.xy(x)
  2. Jeśli mamy podane dużą liczbę , ten procedura PI obliczeniowych obejmie prawdziwej odpowiedzi 95% czasu.x

Ze sformułowania @ gung w przedziale predykcji regresji liniowej wydaje się, że to pierwsze jest prawdziwe (chociaż równie dobrze mogę błędnie interpretować.) Interpretacja 1 wydaje mi się sprzeczna z intuicją (w tym sensie, że wyciągamy wnioski bayesowskie z analizy częstokroć), ale jeśli jest poprawna, to dlatego, że jesteśmy przewidywania realizacji w zmiennej losowej vs. szacowania się parametr ?

(Edytuj) Pytanie bonusowe: Załóżmy, że wiemy, co to jest prawda , tj. Proces generujący dane, to czy moglibyśmy porozmawiać o prawdopodobieństwach dotyczących jakiejkolwiek konkretnej prognozy, skoro tylko patrzymy na ϵ ?βϵ

Moja ostatnia próba: możemy „koncepcyjnie rozłożyć” (używając bardzo luźno słowa) przedział predykcji na dwie części: (A) przedział ufności wokół przewidywanej średniej odpowiedzi i (B) zbiór przedziałów, które są po prostu kwantylem zakresy terminu błędu. (B) możemy dokonywać twierdzeń probabilistycznych, pod warunkiem znajomości prawdziwej przewidywanej średniej, ale jako całość możemy traktować interwały przewidywania jedynie jako częste CI wokół przewidywanych wartości. Czy to trochę poprawne?

kevinykuo
źródło
Odpowiedź, którą napisałem na stronie stats.stackexchange.com/a/26704 sugeruje, że coś takiego (2) ma miejsce (zgodnie z prawami dużej liczby), ale zdecydowanie nie (1).
whuber

Odpowiedzi:

5

Po pierwsze, przy użyciu słowa prawdopodobieństwo prawdopodobieństwo, że częstokroć nie ma problemu z używaniem słowa prawdopodobieństwo podczas przewidywania czegoś, w którym losowy kawałek jeszcze nie miał miejsca. Nie podoba nam się słowo prawdopodobieństwo dla przedziału ufności, ponieważ prawdziwy parametr się nie zmienia (zakładamy, że jest to stała, choć nieznana wartość), a przedział jest stały, ponieważ jest oparty na danych, które już zgromadziliśmy. Na przykład, jeśli nasze dane pochodzą z losowej próby dorosłych mężczyzn płci męskiej, a x to ich wzrost, ay to ich waga, a my dopasowujemy się do ogólnego modelu regresji, wówczas nie używamy prawdopodobieństwa, mówiąc o przedziałach ufności. Ale jeśli chcę porozmawiać o tym, jakie jest prawdopodobieństwo losowego mężczyzny o wzroście 65 cali wybranego losowo spośród wszystkich 65-centymetrowych mężczyzn mających masę w określonym przedziale czasu,

Powiedziałbym więc, że odpowiedź na pytanie bonusowe brzmi „Tak”. Gdybyśmy znali wystarczającą ilość informacji, moglibyśmy obliczyć prawdopodobieństwo zobaczenia wartości y w przedziale (lub znaleźć przedział z pożądanym prawdopodobieństwem).

Dla Twojego oświadczenia oznaczonego „1.” Powiedziałbym, że jest OK, jeśli użyjesz słowa „przybliżonego”, mówiąc o przedziale czasowym lub prawdopodobieństwie. Jak wspomniałeś w pytaniu bonusowym, możemy rozłożyć niepewność na fragment o środku prognozy i fragment o losowości wokół prawdziwej średniej. Kiedy połączymy je, aby pokryć całą naszą niepewność (i zakładając, że mamy poprawny model / normalność), otrzymamy przedział, który będzie zwykle zbyt szeroki (choć może być również zbyt wąski), więc prawdopodobieństwo nowego losowo wybranego punktu zaliczenie się do przedziału prognozy nie będzie dokładnie 95%. Możesz to zobaczyć przez symulację. Zacznij od znanego modelu regresji ze wszystkimi znanymi parametrami. Wybierz próbkę (spośród wielu wartości x) z tej relacji, dopasuj regresję, i oblicz przedziały prognozowania. Teraz ponownie wygeneruj dużą liczbę nowych punktów danych z prawdziwego modelu i porównaj je z przedziałami prognozowania. Zrobiłem to kilka razy, używając następującego kodu R:

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

Uruchomiłem powyższy kod kilka razy (około 10, ale nie starałem się liczyć) i przez większość czasu odsetek nowych wartości przypadających w odstępach wahał się w przedziale od 96% do 98%. Miałem jeden przypadek, w którym oszacowane odchylenie standardowe było bardzo niskie, że proporcje były w zakresie 93% do 94%, ale cała reszta była powyżej 95%. Byłbym więc zadowolony z twojego oświadczenia 1 ze zmianą na „około 95%” (zakładając, że wszystkie założenia są prawdziwe lub wystarczająco bliskie, aby je uwzględnić w przybliżeniu).

Podobnie, stwierdzenie 2 wymaga „w przybliżeniu” lub podobnego, ponieważ na pokrycie naszej niepewności wychwytujemy średnio ponad 95%.

Greg Snow
źródło
0

Drugi jest lepszy. Pierwszy zależy od tego, jakie inne informacje są znane.

Na losowym przykładzie prawdą jest, że „95% przedziałów (z 95% pewnością) zawiera prawdziwą średnią z [wstaw zmienną]”.

Z drugiej strony, jeśli wynik jest oczywiście sprzeczny z intuicją, nie możemy twierdzić (1).

Np. „Mój test istotności z 95% pewnością pokazuje, że wzrost i waga są ujemnie skorelowane”. Cóż, to oczywiście nieprawda i nie możemy powiedzieć, że istnieje „95% prawdopodobieństwo, że to prawda”. Biorąc pod uwagę wcześniejszą wiedzę, istnieje bardzo małe prawdopodobieństwo, że jest to prawda. Można jednak powiedzieć, że „95% takich testów dałoby prawidłowy wynik”.


źródło
1
Ta odpowiedź wydaje się raczej omawiać przedziały ufności niż przedziały prognozowania.
whuber
@whuber Obowiązuje ta sama zasada. Zasadniczo mamy do czynienia z przedziałami ufności dla pewnej zmiennej („przewidywanej” zmiennej).
2
Istnieje istotna różnica między wartością stałą (jak parametr) a wartością zmiennej losowej. Co więcej, sedno obecnego pytania prowadzi do tego rozróżnienia: co można powiedzieć o prawdopodobieństwie tego („przyszłego”) losowego wyniku? Dlatego wydaje się niewłaściwe - i być może wprowadzające w błąd - potraktowanie tej kwestii jako jedynej dotyczącej znaczenia zaufania.
whuber
@whuber Oświadczenie (2) w poście nadal nie oznacza oświadczenia (1). Podobnie jak w moim przykładzie, prognoza, która była sprzeczna z oczywistą intuicją / wiedzą w tle, nie oznaczałaby, że przyszłe wyniki mają 95% szansy na spadek w PI. Prawdą jest, że ten proces, w 95% przypadków, dałby PI zawierające przyszły wynik. Ale czasami można wykryć, kiedy to się stało lub nie.
Masz rację, ale jeśli poprawnie czytam twój komentarz, podejrzewam, że nie ma sensu. Problemem nie jest fakt, że (zgodnie z projektem) PI ma jedynie 95% szansy na pokrycie przyszłej wartości lub że dodatkowe dane (lub intuicja) mogłyby dostarczyć więcej informacji. Sprawa przed nami dotyczy tego, czy PI można interpretować w kategoriach prawdopodobieństwa warunkowego dla przyszłej wartości (na podstawie wartości regresji). To rzeczywiście jest interpretacja PI Bayesa , jak zauważa OP, ale jest nieważna dla częstego PI.
whuber