Okresy przewidywania i tolerancji

11

Mam kilka pytań dotyczących przedziałów prognoz i tolerancji.

Najpierw ustalmy przedziały tolerancji: otrzymujemy poziom ufności, powiedzmy 90%, procent populacji do przechwycenia, powiedzmy 99%, i wielkość próby, powiedzmy 20. Rozkład prawdopodobieństwa jest znany, powiedzmy normalny dla wygody. Teraz, biorąc pod uwagę powyższe trzy liczby (90%, 99% i 20) oraz fakt, że podstawowy rozkład jest normalny, możemy obliczyć liczbę tolerancji . Biorąc pod uwagę próbkę ze średnią i odchyleniem standardowym , przedział tolerancji wynosi . Jeśli ten przedział tolerancji obejmuje 99% populacji, wówczas próbka jest nazywana sukcesemk(x1,x2,,x20)x¯sx¯±ks(x1,x2,,x20)a warunkiem jest, aby 90% próbek zakończyło się sukcesem .

Komentarz: 90% jest a priori prawdopodobieństwo próbka się sukcesem. 99% to warunkowe prawdopodobieństwo, że przyszła obserwacja będzie w przedziale tolerancji, biorąc pod uwagę, że próbka zakończy się sukcesem.

Moje pytania: czy możemy postrzegać przedziały prognozowania jako przedziały tolerancji? Patrząc na Internet, dostałem sprzeczne odpowiedzi, nie wspominając już o tym, że nikt tak naprawdę nie zdefiniował dokładnie przedziałów prognoz. Więc jeśli masz dokładną definicję przedziału prognozy (lub referencji), byłbym wdzięczny.

Zrozumiałem, że na przykład przedział predykcji 99% nie przechwytuje 99% wszystkich przyszłych wartości dla wszystkich próbek. Byłby to taki sam przedział tolerancji, który obejmuje 99% populacji ze 100% prawdopodobieństwem.

W definicjach, które znalazłem dla przedziału predykcji 90%, 90% jest prawdopodobieństwem a priori przy danej próbce, powiedzmy (rozmiar jest ustalony) i jednej przyszłej obserwacji , że będzie w przedziale prognoz. Wydaje się więc, że zarówno próbka, jak i przyszła wartość są podawane jednocześnie, w przeciwieństwie do przedziału tolerancji, w którym próbka jest podawana iz pewnym prawdopodobieństwem jest sukcesem , pod warunkiem, że próbka jest sukces(x1,x2,,x20)yyy, podana jest przyszła wartość iz pewnym prawdopodobieństwem mieści się w przedziale tolerancji. Nie jestem pewien, czy powyższa definicja przedziału predykcji jest prawidłowa, czy nie, ale wydaje się ona sprzeczna z intuicją (przynajmniej).

Jakaś pomoc?

Ioannis Souldatos
źródło
4
Jednostronne przedziały tolerancji dla normalnego pobierania próbek mogą pomóc w zrozumieniu tego pojęcia. Górna granica tolerancji jest niczym innym, jak górną granicą ufności -wartości zakładanego rozkładu modelu. Dlatego w przypadku rozkładu normalnego jest to górna granica ufności parametru gdzie wynosi standardowego rozkładu gaussowskiego. 99 % μ + k σ k = z 99 % 99 %99%99%μ+kσk=z99%99%
Stéphane Laurent,
To dobra przeformułowanie, Stéphane, ponieważ natychmiast pokazuje, że istnieje kilka rodzajów limitów tolerancji: można poprosić o górny limit ufności na , o niższy limit ufności na lub (powiedzmy) obiektywne oszacowanie tego parametru. Wszystkie trzy są w literaturze nazywane „granicami tolerancji”. μ + z 0,99 σμ+z0.99σμ+z0.99σ
whuber
Myślę, że wolisz powiedzieć niższy limit ufności dla ? μz0.99σ
Stéphane Laurent,
2
Właściwie nie, Stéphane (dlatego starałem się powtórzyć formułę parametru). Istnieją również trzy podobne definicje dolnej granicy tolerancji. Na przykład, może chcemy pod -estimate górnego 99. percentyla populacji, ale do kontrolowania ilości niedoszacowania nalegamy tam być (powiedzmy) do 5% szans, że nasza zaniżona nadal będą zbyt wysokie. Pozwoli nam to powiedzieć: „Dane pokazują z 95% pewnością, że 99. percentyl populacji przekracza taką a taką wartość”.
whuber

Odpowiedzi:

14

Twoje definicje wydają się poprawne.

Książka skonsultować się o tych sprawach jest statystyczne Odstępy (Gerald Hahn & William Meeker), 1991. Cytuję:

Przedział przewidywania dla jednej przyszłej obserwacji to przedział, który będzie, z określonym stopniem pewności, zawierać następną (lub inną określoną wcześniej) losowo wybraną obserwację z populacji.

[A], przedział tolerancji jest przedział czasu, można stwierdzić, że zawiera co najmniej jedną określoną część, p , w populacji o określonym stopniem pewności, .100(1α)%

Oto poprawki w standardowej terminologii matematycznej. Niech dane należy uznać za realizację niezależnych zmiennych losowych ze wspólną funkcją dystrybucji skumulowanej . ( pojawia się jako przypomnienie, że może być nieznany, ale zakłada się, że leży w danym zestawie dystrybucji ). Niech będzie kolejną zmienną losową o tym samym rozkładzie i niezależną od pierwszych zmiennych.X = ( X 1 , , X n ) F θ θ F F θ | θ Θ X 0 F θ nx=(x1,,xn)X=(X1,,Xn)FθθFFθ|θΘX0Fθn

  1. Przedział przewidywania (dla jednej obserwacji przyszłych) podaje końcowych , ma tę właściwość, że określenie[l(x),u(x)]

    infθ{Prθ(X0[l(X),u(X)])}=100(1α)%.

    W szczególności odnosi się do rozkładu określonego przez prawo . Zwróć uwagę na brak jakichkolwiek prawdopodobieństw warunkowych: jest to pełne wspólne prawdopodobieństwo. Zauważ też, że brak jakiegokolwiek odniesienia do sekwencji czasowej: bardzo dobrze można zaobserwować w czasie przed innymi wartościami. Nie ważne.Prθn+1(X0,X1,,Xn)FθX0

    Nie jestem pewien, które aspekty mogą być „sprzeczne z intuicją”. Jeśli pomyślimy o wybraniu procedury statystycznej jako czynności, którą należy wykonać przed zebraniem danych, jest to naturalne i rozsądne sformułowanie planowanego dwuetapowego procesu, ponieważ obie dane ( ) a „przyszła wartość” musi być modelowana losowo.Xi,i=1,,nX0

  2. Przedział tolerancji podaje końcowych , ma właściwość określającą tę(L(x),U(x)]

    infθ{Prθ(Fθ(U(X))Fθ(L(X))p)}=100(1α)%.

    Zwróć uwagę na brak jakiegokolwiek odniesienia do : nie odgrywa żadnej roli.X0

Gdy jest zbiorem rozkładów normalnych, istnieją przedziały predykcji formularza{Fθ}

l(x)=x¯k(α,n)s,u(x)=x¯+k(α,n)s

( to średnia próbki, a to standardowe odchylenie próbki). Wartości funkcji , które zestawiają Hahn i Meeker, nie zależą od danych . Istnieją inne procedury interwału przewidywania, nawet w przypadku Normalnym: nie są to jedyne.x¯skx

Podobnie istnieją przedziały tolerancji formy

L(x)=x¯K(α,n,p)s,U(x)=x¯+K(α,n,p)s.

Istnieją inne procedury przedziałów tolerancji : nie są to jedyne.

Zauważając podobieństwo między tymi parami wzorów, możemy rozwiązać równanie

k(α,n)=K(α,n,p).

Pozwala to na reinterpretację interwału predykcji jako interwału tolerancji (na wiele różnych możliwych sposobów poprzez zmianę i ) lub na reinterpretację interwału tolerancji jako interwału predykcji (dopiero teraz jest zwykle jednoznacznie określana przez i ). Może to być jedno źródło zamieszania.αpααp

Whuber
źródło
2
Pomylenie tych przedziałów jest prawdziwe. Dziesięć lat temu odbyłem kilka trudnych rozmów ze statystycznym rządem, który był nieświadomy różnicy i (zjadliwie) nie był w stanie jej rozpoznać. Jej znacząca rola w tworzeniu wskazówek, recenzowaniu raportów, doradzaniu pracownikom zajmującym się sprawami, dystrybucji oprogramowania, a nawet publikacji recenzowanych, przyczyniła się do kontynuacji tych nieporozumień. Więc uważaj!
whuber
Bardzo ładna odpowiedź, dzięki. Miałem serce, jak twierdzili niektórzy statystycy, że przedział przewidywania to przedział tolerancji z . Czy za tym pomysłem kryje się fakt? Innymi słowy, czy to prawda, że , czy coś takiego? p=50%k(α,n)=K(α,n,0.5)
Stéphane Laurent,
3
Nie, to nieprawda @ Stéphane. Aby zobaczyć, dlaczego nie, rozważ przypadek wyjątkowo dużej wartości i umiarkowanego zaufania, powiedzmy 95%. Przy dwustronny przedział tolerancji powinien być zatem bardzo zbliżony do jakiegoś środkowego 50% rozkładu, więc z definicji istnieje tylko 50% szans, że będzie w nim zawarte, a nie pożądane 95%. To ogromna różnica! Intuicyjnie przedział tolerancji dla 95% populacji powinien być zbliżony do przedziału prognozy z 95% pewnością, ale nadal nie są do końca zgodni. np=50%X0
whuber
Właśnie o tym pomyślałem i uważam, że fakt jest następujący: gdy jest duże. Łatwo to zobaczyć, gdy jest klasycznym współczynnikiem tolerancji podanym za pomocą niecentralnego rozkładu t ( -kwantal to parametr niecentralności )k(α,n)K(50%,n,1α)nK50%z1α/n
Stéphane Laurent,
@whuber. Dziękuję za Twoją odpowiedź. Będę musiał upewnić się, że to rozumiem, zanim oznaczę to poprawnie. Daj mi trochę czasu na jego „strawienie”.
Ioannis Souldatos
1

Jak rozumiem, dla normalnych granic tolerancji wartość pochodzi z niecentralnego t percentyla. Oczywiście, zdaniem W Hubera, niektórzy statystycy nie są zaznajomieni z ideą granic tolerancji w porównaniu z granicami prognoz; wydaje się, że idea tolerancji pojawia się głównie w projektowaniu inżynierskim i produkcji, w przeciwieństwie do biostatystyki klinicznej. Być może przyczyną nieznajomości przedziałów tolerancji i pomieszania z przedziałami prognozowania jest kontekst, w którym ktoś otrzymuje szkolenie statystyczne.K(α,p)

Scott P.
źródło