Dwie definicje wartości p: jak udowodnić ich równoważność?

11

Czytam książkę Larry'ego Wassermana, All of Statistics , a obecnie o wartościach p (strona 187). Pozwól mi najpierw wprowadzić kilka definicji (cytuję):

Definicja 1 Funkcja mocy testu z obszarem odrzucenia jest zdefiniowana przez Rozmiar testu jest określony na Mówi się, że test ma poziom \ alpha, jeśli jego rozmiar jest mniejszy lub równy \ alpha .R

β(θ)=Pθ(XR)
α=supθΘ0β(θ)
αα

Mówi to w zasadzie, że α , rozmiar jest „największym” prawdopodobieństwem błędu typu I. Wartość p określa się następnie za pomocą (cytuję)

Definicja 2 Załóżmy, że dla każdego α(0,1) mamy test rozmiaru α z regionem odrzucającym Rα . Następnie

p-value=inf{α:T(Xn)Rα}
gdzie Xn=(X1,,Xn) .

Dla mnie oznacza to: biorąc pod uwagę konkretną α istnieje region testowy i odrzucania Rα tak że α=supθΘ0(α)Pθ(T(Xn)Rα) . Dla wartości p po prostu biorę wtedy najmniejszą ze wszystkich α .

Pytanie 1 Jeśli tak by było, to mógłbym wyraźnie wybrać α=ϵ dla arbitralnie małego ϵ . Jaka jest moja błędna interpretacja definicji 2, tj. Co to dokładnie znaczy?

Teraz Wasserman jest ciągły i twierdzi, że ma „równoważną” definicję wartości p którą znam (cytuję):

Twierdzenie Załóżmy, że rozmiar test ma postać Następnie gdzie jest obserwowaną wartością .α

reject H0T(Xn)cα
p-value=supθΘ0Pθ(T(Xn)T(xn))
xnXn

Oto moje drugie pytanie:

Pytanie 2 Jak mogę faktycznie udowodnić to twierdzenie? Być może wynika to z mojego niezrozumienia definicji wartości , ale nie mogę jej rozgryźć.p

matematyka
źródło
4
Pozytywnie dziwne jest, że Wasserman zdefiniowałby moc jako „ ”, ponieważ symbol jest prawie powszechnie używany do wskaźnika błędów typu II (tj. Moc = 1- dla prawie każdego innego autora omawiającego moc). Trudno mi wyobrazić sobie wybór zapisu, który mógłby wywołać jeszcze większe zamieszanie, chyba że celowo postanowiłem to spowodować. βββ
Glen_b
1
Zgadzam się, że to dziwne, Glen - jednak Casella i Berger robią to samo, a ich tekst jest, moim zdaniem, złotym standardem w teorii statystycznej.
Matt Brems,

Odpowiedzi:

6

Mamy kilka danych wielowymiarowych , pochodzących z rozkładu z nieznanym parametrem . Zauważ, że to przykładowe wyniki.xDθx

Chcemy przetestować hipotezę o nieznanym parametrze , wartości pod hipotezą zerową znajdują się w zbiorze .θθθ0

W przestrzeni możemy zdefiniować region odrzucenia , a moc tego regionu jest następnie zdefiniowana jako . Tak więc moc jest obliczana dla określonej wartości z jako prawdopodobieństwo, że wynik próby znajduje się w regionie odrzucenia gdy wartość wynosi . Oczywiście moc zależy od regionu i wybranego .XRRPθ¯R=Pθ¯(xR)θ¯θxR θθ¯Rθ¯

Definicja 1 definiuje rozmiar regionuR jako supremum wszystkich wartości dla w , więc tylko dla wartości pod . Oczywiście w zależności od regionu, tak .Pθ¯Rθ¯θ0θ¯H0αR=supθ¯θ0Pθ¯R

Ponieważ zależy od , mamy inną wartość, gdy zmienia się region, i to jest podstawa do zdefiniowania wartości p: zmień region, ale w taki sposób, że obserwowana wartość próbki nadal należy do regionu, ponieważ każdy taki region obliczyć jak zdefiniowano powyżej, i podjąć infimum: . Tak więc wartość p jest najmniejszym rozmiarem wszystkich regionów zawierających .αRRαRpv(x)=infR|xRαRx

Twierdzenie to jest po prostu jego „tłumaczeniem”, a mianowicie przypadkiem, gdy regiony są zdefiniowane za pomocą statystyki a dla wartości definiujesz region jako . Jeśli użyjesz tego typu regionu w powyższym rozumowaniu, następuje twierdzenie następujące.RTcRR={x|T(x)c}R

EDYCJA z powodu komentarzy:

@ user8: dla twierdzenia; jeśli zdefiniujesz regiony odrzucenia jak w twierdzeniu, to region odrzucenia o rozmiarze jest zbiorem, który wygląda jak dla niektórych .αRα={X|T(X)cα}cα

Aby znaleźć wartość p obserwowanej wartości , tj. , musisz znaleźć najmniejszy region , tj. Największą wartość taką, że nadal zawiera , ten ostatni (region zawiera ) jest równoważny (ze względu na sposób definiowania regionów) z twierdzeniem, że , więc musisz znaleźć największy taki, żexpv(x)Rc{X|T(X)c} xxcT(x)c{X|T(X)c&cT(x)}

Oczywiście największe takie, że powinno wynosić a wtedy supra zestawu staje sięccT(x)c=T(x){X|T(X)c=T(x)}={X|T(X)T(x)}


źródło
Wielkie dzięki za odpowiedź. Na pytanie o walidację twierdzenia: czy nie brakuje w jakiś sposób ponad ? infα
matematyka
@ user8: Dodałem akapit na końcu mojej odpowiedzi. Widzisz teraz punkt z infimum?
7

W definicji 2 wartość statystyki testowej jest największą dolną granicą wszystkich tak że hipoteza jest odrzucana dla testu wielkości . Przypomnijmy, że im mniejsza jest wartość , tym mniej tolerancja błędu typu I jest dozwolona, ​​dlatego region odrzucenia również się zmniejszy. Tak więc (bardzo) nieformalnie rzecz biorąc, wartość jest najmniejszą jaką możemy wybrać, co wciąż pozwala nam odrzucić dla danych, które zaobserwowaliśmy. Nie możemy arbitralnie wybrać mniejszego ponieważ w pewnym momenciepαααRαpαH0αRα będą tak małe, że wykluczą (tzn. nie będą zawierać) zdarzenia, które zaobserwowaliśmy.

Teraz, w świetle powyższego, zapraszam do ponownego rozważenia twierdzenia.

heropup
źródło
Nadal jestem trochę zdezorientowany. Po pierwsze, w definicji statystyka ustalona dla wszystkich ? Nie zgadzam się z twoim stwierdzeniem: „... w pewnym momencie będzie tak mały, że wykluczy (tzn. Nie będzie zawierał) zdarzenia, które zaobserwowaliśmy.” Idealnie dobrze, jeśli jest tak mały, że nie zawiera obserwowanej próbki, nie odrzucamy . Na czym polega problem? dzięki za pomoc / cierpliwość2TαRαRαH0
matematyka
Tak. Statystyka testowa jest ustaloną z góry ustaloną funkcją próbki, przy czym „ustalona” w tym sensie oznacza, że ​​forma funkcji nie zmienia się dla żadnego . Wartość, którą przyjmuje, może (i powinna) zależeć od próbki. Twoja wypowiedź „nie odrzuca ” ujawnia dlaczego niezgoda jest niepoprawna: z definicji , obejmuje zbiór wszystkich wartości dla których statystyczny badania prowadzi do odrzucenia null . Dlatego jest to oznaczone --for „R” wyrzutem. Prześlę aktualizację do mojej odpowiedzi, aby wyjaśnić bardziej szczegółowo. TαH0RαR
heropup
Bardzo dziękuję za szybką odpowiedź iz góry za zaktualizowaną wersję. Miałem na myśli, co następuje: Odrzucamy jeśli , gdzie jest obserwowaną próbką. Powiedz, że jestem bardzo ekstremalny i wybieram bardzo mały, aby dla podanej próbki co po prostu oznaczało, że NIE odrzucamy . Więc małe nie jest apriori złą rzeczą. Oczywiście w pewnym momencie jest tak mały, że bardzo bardzo mało prawdopodobne jest zaobserwowanie próbki należącej do . Jeszcze raz dziękuję za cierpliwość / pomoc. naprawdę doceniony! H0T(xn)RαxnRαT(xn)RαH0RαRα
matematyka
2
Podana definicja wartości p wyraźnie wymaga statystyki testu dla próbki, która znajduje się w regionie odrzucenia . Nie masz możliwości zmiany tej części definicji wartości p.
Glen_b
@Glen_b Dzięki za komentarz. Rzeczywiście, mój poprzedni komentarz narusza definicję. Dzięki za zwrócenie na to uwagi.
matematyka