Morey i in. (2015) twierdzą, że przedziały ufności są mylące i istnieje wiele błędów związanych z ich zrozumieniem. Między innymi opisują błąd precyzji jako:
Błąd Precyzji
Szerokość przedziału ufności wskazuje na dokładność naszej wiedzy o parametrze. Wąskie przedziały ufności pokazują dokładną wiedzę, a szerokie błędy ufności pokazują nieprecyzyjną wiedzę.Nie ma koniecznego związku między precyzją oszacowania a rozmiarem przedziału ufności. Jednym ze sposobów na to jest wyobrażenie sobie, że dwóch badaczy - starszy badacz i doktorant - analizuje dane uczestników z eksperymentu. Jako ćwiczenie z korzyścią dla doktoranta starszy badacz postanawia losowo podzielić uczestników na dwa zestawy po 25 , aby każdy z nich mógł oddzielnie przeanalizować połowę zestawu danych. Na kolejnym spotkaniu obaj dzielą między sobą przedziały ufności t Studenta dla średniej. 95 % CI doktora wynosi 52 ± 2 , a 95 % starszego naukowcaCI wynosi .
Starszy naukowiec zauważa, że ich wyniki są zasadniczo spójne i że mogliby użyć równo ważonej średniej z dwóch odpowiednich oszacowań punktowych, , jako ogólnej oceny prawdziwej średniej.
Doktorantka twierdzi jednak, że ich dwa środki nie powinny być równomiernie ważone: zauważa, że jej CI jest w połowie tak szeroka i argumentuje, że jej szacunki są bardziej precyzyjne i dlatego powinny być ważone bardziej. Jej doradca zauważa, że nie może to być poprawne, ponieważ oszacowanie wynikające z nierównomiernego ważenia dwóch średnich byłoby inne niż oszacowanie wynikające z analizy pełnego zestawu danych, który musi wynosić . Błędem doktoranta jest założenie, że CI bezpośrednio wskazują na dokładność danych.
Powyższy przykład wydaje się wprowadzać w błąd. Jeśli losowo podzielimy próbkę na pół, na dwie próbki, wówczas spodziewalibyśmy się, że zarówno średnie próbki, jak i standardowe błędy będą bliskie. W takim przypadku nie powinno być żadnej różnicy między zastosowaniem średniej ważonej (np. Ważonej przez błędy odwrotne) a użyciem prostej średniej arytmetycznej. Jeśli jednak szacunki się różnią, a błędy w jednej z prób są zauważalnie większe, może to sugerować „problemy” z taką próbką.
Oczywiście, w powyższym przykładzie rozmiary próbek są takie same, więc „łączenie z powrotem” danych poprzez przyjęcie średnich jest takie samo, jak przyjęcie średniej dla całej próbki. Problem polega na tym, że cały przykład jest zgodny ze źle zdefiniowaną logiką, że próbka jest najpierw dzielona na części, a następnie ponownie łączona w celu ostatecznego oszacowania.
Przykład może zostać ponownie sformułowany, aby doprowadzić do dokładnie przeciwnego wniosku:
Badacz i student postanowili podzielić zestaw danych na dwie połowy i przeanalizować je niezależnie. Następnie porównali swoje szacunki i okazało się, że próba oznacza, że ich obliczenia były bardzo różne, a ponadto błąd standardowy w ocenie studenta był znacznie większy. Student obawiał się, że może to sugerować problemy z precyzją jego oszacowania, ale badacz zasugerował, że nie ma związku między przedziałami ufności i precyzją, więc oba szacunki są równie wiarygodne i mogą opublikować dowolne z nich, wybrane losowo, jako ich ostateczne oszacowanie.
Mówiąc bardziej formalnie, „standardowe” przedziały ufności, takie jak Studenta , oparte są na błędach
gdzie jest stałą. W takim przypadku są one bezpośrednie związane z precyzją, prawda?
Więc moje pytanie brzmi:
czy błąd precyzji jest rzeczywiście błędem? Co przedziały ufności mówią o precyzji?
Morey, R., Hoekstra, R., Rouder, J., Lee, M., & Wagenmakers, E.-J. (2015). Błąd polegający na zaufaniu do przedziałów ufności. Biuletyn i przegląd psychonomiczny, 1–21. https://learnbayes.org/papers/confidenceIntervalsFallacy/
Odpowiedzi:
W artykule faktycznie pokazujemy błędność precyzji na wiele sposobów. Ten, o który pytasz - pierwszy w pracy - przykład ma na celu wykazanie, że uproszczone „CI = precyzja” jest błędne. Nie oznacza to, że byłby w tym zamieszany każdy kompetentny częsty, bayesowski lub prawdopodobieństwa.
Oto inny sposób, aby zobaczyć, co się dzieje: Gdybyśmy powiedziano CI, nadal nie bylibyśmy w stanie połączyć informacji z próbek; musielibyśmy znać , a dzięki temu moglibyśmy rozłożyć CI na ˉ x i s 2 , a tym samym odpowiednio połączyć dwie próbki. Musimy to zrobić, ponieważ informacje w CI są marginalne w stosunku do parametru uciążliwości. Musimy wziąć pod uwagę, że obie próbki zawierają informacje o tym samym uciążliwym parametrze. Obejmuje to obliczenie obu wartości s 2 , połączenie ich w celu uzyskania ogólnej oceny σ 2N x¯ s2 s2 σ2 , a następnie obliczenie nowego CI.
Co do innych demonstracji błędności precyzji, patrz
Odpowiedzią na zagadkę jest to, że „precyzja”, przynajmniej w sposobie, w jaki zwolennicy CI myślą o tym (post eksperymentalna ocena tego, jak „przybliżenie” szacunku jest do parametru), po prostu nie jest cechą, którą ogólnie mają przedziały ufności i nie były przeznaczone. Szczególne procedury zaufania mogą ... lub nie.
Zobacz także dyskusję tutaj: http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591
źródło
Przede wszystkim ograniczmy się do procedur CI, które wytwarzają interwały tylko ze ściśle dodatnimi, skończonymi szerokościami (aby uniknąć przypadków patologicznych).
W tym przypadku teoretycznie można wykazać związek między precyzją a szerokością CI. Oszacuj średnią (jeśli istnieje). Jeśli twoje CI dla średniej jest bardzo wąskie, masz dwie interpretacje: albo miałeś pecha, a twoja próbka była zbyt ciasno zlepiona (a priori 5% szansy na takie zdarzenie), lub twój przedział obejmuje prawdziwą średnią (95% szansa a priori). Oczywiście obserwowany CI może być jednym z tych dwóch, ale skonfigurowaliśmy nasze obliczenia, aby prawdopodobieństwo wystąpienia tego drugiego było znacznie większe (tj. 95% szansa a priori) ... stąd mamy wysoki stopień z ufnością nasz przedział obejmuje średnią, ponieważ ustalamy rzeczy probabilistycznie, więc tak jest. Zatem 95% CI nie jest przedziałem prawdopodobieństwa (jak przedział wiarygodności Bayesa), ale bardziej jak „zaufanym doradcą” ... kimś, kto statystycznie ma rację w 95% przypadków, więc ufamy ich odpowiedziom, mimo że każda konkretna odpowiedź może być bardzo błędna.
W 95% przypadków, gdy obejmuje on rzeczywisty parametr, wówczas szerokość mówi ci coś o zakresie prawdopodobnych wartości biorąc pod uwagę dane (tj. Jak dobrze możesz powiązać prawdziwą wartość), dlatego działa jak miara precyzji . W 5% przypadków, gdy tak nie jest, CI wprowadza w błąd (ponieważ próba wprowadza w błąd).
Czy więc 95% szerokość CI wskazuje na precyzję ... Powiedziałbym, że istnieje 95% szansa na to (pod warunkiem, że szerokość CI jest dodatnio-skończona) ;-)
Co to jest rozsądny CI?
W odpowiedzi na post oryginalnego autora poprawiłem swoją odpowiedź na (a) biorąc pod uwagę, że przykład „podzielonej próbki” miał bardzo konkretny cel oraz (b) zapewnić dodatkowe tło, zgodnie z prośbą komentatora:
W idealnym (częstym) świecie wszystkie rozkłady próbkowania dopuszczałyby kluczową statystykę, której moglibyśmy użyć, aby uzyskać dokładne przedziały ufności. Co jest takiego wspaniałego w kluczowych statystykach? Ich rozkład można uzyskać bez znajomości rzeczywistej wartości szacowanego parametru! W tych miłych przypadkach mamy dokładny rozkład naszej przykładowej statystyki w stosunku do prawdziwego parametru (chociaż może nie być gaussowski) na temat tego parametru.
Umieścić bardziej zwięźle: My wiemy rozkład błędu (lub jakiś jego transformacji).
Ta jakość niektórych estymatorów pozwala nam tworzyć rozsądne przedziały ufności. Przedziały te nie tylko spełniają ich definicje ... robią to, ponieważ pochodzą z rzeczywistego rozkładu błędu oszacowania.
Rozkład Gaussa i związana z nim statystyka Z jest kanonicznym przykładem użycia kluczowej wielkości do opracowania dokładnego CI dla średniej. Jest więcej ezoterycznych przykładów, ale generalnie jest to ten, który motywuje „teorię dużej próbki”, która jest w zasadzie próbą zastosowania teorii stojącej za CI Gaussa do rozkładów, które nie dopuszczają prawdziwej kluczowej wielkości. W tych przypadkach przeczytasz o mniej więcej kluczowych lub asymptotycznie kluczowych (w wielkości próby) wielkościach lub „przybliżonych” przedziałach ufności ... są one oparte na teorii prawdopodobieństwa - w szczególności na tym, że rozkład błędów dla wielu MLE zbliża się do rozkładu normalnego.
Innym podejściem do generowania sensownych CI jest „odwrócenie” testu hipotez. Chodzi o to, że „dobry” test (np. UMP) da dobry (odczyt: wąski) CI dla danego poziomu błędu typu I. Nie zapewniają one dokładnego pokrycia, ale zapewniają zasięg dolny (uwaga: rzeczywista definicja X% -CI mówi tylko, że musi obejmować prawdziwy parametr przynajmniej X% czasu).
Zastosowanie testów hipotez nie wymaga bezpośrednio kluczowej wielkości lub rozkładu błędów - jego wrażliwość wynika z wrażliwości testu podstawowego. Na przykład, gdybyśmy mieli test, którego region odrzucenia miał długość 0,5% czasu i nieskończoną długość 95% czasu, wrócilibyśmy tam, gdzie byliśmy z CI - ale oczywiste jest, że ten test nie jest zależy od danych, a zatem nie dostarczy żadnych informacji na temat badanego parametru bazowego.
Ten szerszy pomysł - że ocena precyzji powinna być uzależniona od danych, wraca do Fischera i idei statystyki pomocniczej. Możesz być pewien, że jeśli wynik twojego testu lub procedury CI NIE jest uwarunkowany danymi (tj. Jego zachowanie warunkowe jest takie samo jak zachowanie bezwarunkowe), to masz wątpliwą metodę.
źródło
Powodem, dla którego nie sądzę, powinniśmy dbać o tej pozornej mitu jest to, że o ile prawdą jest, że nie ma potrzeby połączenia między szerokość przedziału ufności i dokładności, tam jest niemal powszechny związek między standardowych błędów i precyzją, aw w większości przypadków szerokość przedziału ufności jest proporcjonalna do błędu standardowego.
źródło
Myślę, że wyraźne rozróżnienie między „przedziałami ufności” a „precyzją” (patrz odpowiedź z @dsaxton) jest ważne, ponieważ to rozróżnienie wskazuje na problemy w powszechnym stosowaniu obu terminów.
Cytowanie z Wikipedii :
Można zatem argumentować, że częste przedziały ufności reprezentują rodzaj precyzji schematu pomiarowego . Jeśli powtórzy się ten sam schemat, 95% CI obliczone dla każdego powtórzenia będzie zawierać jedną prawdziwą wartość parametru w 95% powtórzeń.
Nie jest to jednak to, czego wielu ludzi chce od praktycznej miary precyzji. Chcą wiedzieć, jak blisko mierzona wartość jest do wartości rzeczywistej . Częstotliwości przedziały ufności nie zapewniają ściśle tej miary precyzji. Wiarygodne regiony bayesowskie tak.
Pewne zamieszanie polega na tym, że w praktycznych przykładach częste przedziały ufności i wiarygodne regiony bayesowskie „mniej lub bardziej się pokrywają” . Przykładem jest pobieranie próbek z rozkładu normalnego, jak w niektórych komentarzach do PO. Może tak być również w przypadku niektórych szerszych rodzajów analiz, które @Bey miał na myśli, w oparciu o aproksymacje do standardowych błędów w procesach, które mają normalne rozkłady w granicach.
Jeśli wiesz, że jesteś w takiej sytuacji , może nie być praktycznego niebezpieczeństwa przy interpretacji konkretnego 95% CI, z pojedynczej implementacji schematu pomiarowego, z prawdopodobieństwem 95% zawarcia prawdziwej wartości. Ta interpretacja przedziałów ufności nie pochodzi jednak ze statystyk częstych, dla których prawdziwa wartość jest w tym przedziale lub nie.
Jeśli przedziały ufności i wiarygodne regiony różnią się znacznie, to podobna do bayesowskiej interpretacja częstych przedziałów ufności może być myląca lub błędna, o czym świadczą zamieszczone powyżej dokumenty połączone z wcześniejszą literaturą. Tak, „zdrowy rozsądek” może pomóc uniknąć takich błędnych interpretacji, ale z mojego doświadczenia wynika, że „zdrowy rozsądek” nie jest tak powszechny.
Inne zweryfikowane strony zawierają znacznie więcej informacji na temat przedziałów ufności i różnic między przedziałami ufności a wiarygodnymi regionami . Linki z tych stron są również bardzo pouczające.
źródło
I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense
.@Bey ma to. Nie ma koniecznego związku między wynikami a wydajnością, ceną i jakością, a także zapachem i smakiem. Jednak jeden zwykle informuje o drugim.
Indukcję można udowodnić, że nie można dać popu quizu. Po dokładnym zbadaniu oznacza to, że nie można zagwarantować, że quiz jest niespodzianką. Jednak przez większość czasu tak będzie.
Wygląda na to, że Morey i in. Pokazują, że istnieją przypadki, w których szerokość jest nieinformacyjna. Chociaż wystarcza to do stwierdzenia „Nie ma koniecznego związku między precyzją oszacowania a rozmiarem przedziału ufności”, nie jest wystarczające dalsze stwierdzenie, że elementy CI zasadniczo nie zawierają informacji o precyzji. Po prostu nie ma takiej gwarancji.
(Niewystarczające punkty do odpowiedzi + @ Bey.)
źródło