Moje pytanie wypływa z tego komentarza na blogu Andrew Gelmana, w którym opowiada się za stosowaniem 50% przedziałów ufności zamiast 95% przedziałów ufności, chociaż nie dlatego, że są one dokładniej oszacowane:
Wolę przerwy od 50% do 95% z 3 powodów:
Stabilność obliczeniowa,
Bardziej intuicyjna ocena (połowa 50% przedziałów powinna zawierać prawdziwą wartość),
Poczucie, że w aplikacjach najlepiej jest wyczuć, gdzie będą parametry i przewidywane wartości, a nie próbować nierealistycznej niemal pewności.
Pomysł komentatora wydaje się być taki, że problemy z założeniami leżącymi u podstaw budowy przedziału ufności będą miały większy wpływ, jeśli będzie to 95% CI niż w przypadku 50% CI. Jednak tak naprawdę nie wyjaśnia dlaczego.
[...] przechodząc do większych przedziałów, stajesz się ogólnie bardziej wrażliwy na szczegóły lub założenia swojego modelu. Na przykład nigdy nie uwierzyłbyś, że poprawnie zidentyfikowałeś przedział 99,9995%. A przynajmniej taka jest moja intuicja. Jeśli ma rację, twierdzi, że 50 procent powinno być lepiej oszacowane niż 95 procent. A może oszacowano „bardziej solidnie”, ponieważ może być mniej wrażliwy na założenia dotyczące hałasu?
Czy to prawda? Dlaczego? Dlaczego nie?
źródło
Odpowiedzi:
Ta odpowiedź analizuje znaczenie cytatu i oferuje wyniki badania symulacyjnego, aby go zilustrować i pomóc zrozumieć, co może on powiedzieć. Badanie może z łatwością przedłużyć każdy (z podstawowymi
R
umiejętnościami) w celu zbadania innych procedur przedziału ufności i innych modeli.W tej pracy pojawiły się dwie interesujące kwestie. Jedna dotyczy sposobu oceny dokładności procedury przedziału ufności. Od tego zależy wrażenie, jakie daje solidność. Wyświetlam dwie różne miary dokładności, abyś mógł je porównać.
Inną kwestią jest to, że chociaż procedura przedziału ufności o niskim poziomie ufności może być solidna, odpowiednie limity ufności mogą wcale nie być solidne. Odstępy zwykle działają dobrze, ponieważ błędy, które popełniają na jednym końcu, często równoważą błędy, które popełniają na drugim końcu. W praktyce możesz być całkiem pewien, że około połowa z przedziałów ufności pokrywa ich parametry, ale rzeczywisty parametr może konsekwentnie znajdować się w pobliżu jednego określonego końca każdego przedziału, w zależności od tego, jak rzeczywistość odbiega od założeń modelu.50 %
Wytrzymałość ma standardowe znaczenie w statystykach:
(Hoaglin, Mosteller i Tukey, Understanding Robust and Exploratory Data Analysis . J. Wiley (1983), s. 2)
Jest to zgodne z cytatem w pytaniu. Aby zrozumieć ofertę , nadal musimy znać zamierzony cel przedziału ufności. W tym celu przejrzyjmy to, co napisał Gelman.
Ponieważ zrozumienie przewidywanych wartości nie jest tym, do czego przeznaczone są przedziały ufności (CI), skupię się na uzyskaniu poczucia wartości parametrów , co robią CI. Nazwijmy je „wartościami docelowymi”. Skąd z definicji element CI ma obejmować cel z określonym prawdopodobieństwem (poziomem ufności). Osiągnięcie zamierzonych wskaźników zasięgu jest minimalnym kryterium oceny jakości dowolnej procedury CI. (Dodatkowo możemy być zainteresowani typowymi szerokościami CI. Aby utrzymać słupek na rozsądnej długości, zignoruję ten problem).
Te rozważania zachęcają nas do zbadania, o ile obliczenie przedziału ufności może nas wprowadzić w błąd co do wartości parametru docelowego. Cytat można odczytać jako sugerujący, że CI o niższym poziomie ufności mogą zachować swój zasięg, nawet jeśli dane są generowane przez proces inny niż model. To możemy przetestować. Procedura jest następująca:
Przyjmij model prawdopodobieństwa, który zawiera co najmniej jeden parametr. Klasycznym jest próbkowanie z rozkładu normalnego o nieznanej średniej i wariancji.
Wybierz procedurę CI dla jednego lub więcej parametrów modelu. Znakomity konstruuje CI na podstawie średniej próbki i odchylenia standardowego próbki, mnożąc ją przez współczynnik podany przez rozkład t Studenta.
Zastosuj tę procedurę do różnych różnych modeli - nie odchodząc zbytnio od przyjętego - aby ocenić jej zasięg na różnych poziomach ufności.
ładnie oddaje różnicę. Gdy wynosi zero, zasięg jest dokładnie zamierzoną wartością. Gdy jest ujemny, zasięg jest zbyt niski - co oznacza, że CI jest zbyt optymistyczny i nie docenia niepewności.
Pytanie brzmi zatem, jak te poziomy błędów różnią się w zależności od poziomu ufności, gdy zaburzony jest model podstawowy? Możemy na to odpowiedzieć, wykreślając wyniki symulacji. Te wykresy określają, jak „nierealna” może być „prawie pewność” CI w tym archetypowym zastosowaniu.
To jest
R
kod, który wytworzył wykresy. Można go łatwo modyfikować, aby badać inne rozkłady, inne przedziały ufności i inne procedury CI.źródło
To ciekawy pomysł i widzę, jak intuicyjnie jest przekonujący, ale myślę, że jest zbyt niejasny, aby był prawdziwy lub fałszywy. Oto kilka pytań, które chciałbym wyjaśnić komentatorowi:
Mając różne odpowiedzi na te pytania, myślę, że moglibyśmy uczynić to stwierdzenie wyraźnie prawdziwym lub fałszywym.
Domyślam się, że komentator odnosi się do:
Jeśli to właśnie ma na myśli komentator, w zależności od tego, jak ogony dystrybucji kompromitują się z ramionami, stwierdzenie może być prawdziwe.
Rozważmy na przykład wykres rozkładu normalnego i kilka niskich wartości dft -Dystrybucje CDF (skopiowane z Wikipedii ). Przedział ufności oparty na normalnym odΦ- 1( .25 ) do Φ- 1( .75 ) miałby prawie odpowiedni zasięg dla niskiej rozdzielczości t s, jeżeli reprezentowały one rzeczywiste rozkłady próbkowania spornej statystyki. W rzeczywistości wygląda na to, że 20% przedział ufności miałby prawie idealny zasięg, nawet w przypadku Cauchy'ego (trefa= 1 ) dystrybucja:
źródło