Czytałem artykuł Hoekstry i in. Z 2014 r. Na temat „Solidnej błędnej interpretacji przedziałów ufności”, który pobrałem ze strony internetowej Wagenmakers .
Na przedostatniej stronie pojawia się następujący obraz.
Według autorów Fałsz jest prawidłową odpowiedzią na wszystkie te stwierdzenia. Nie jestem pewien, dlaczego twierdzenia są fałszywe, i o ile mogę stwierdzić, reszta artykułu nie próbuje tego wyjaśnić.
Uważam, że 1-2 i 4 nie są poprawne, ponieważ twierdzą coś o prawdopodobnej wartości prawdziwej średniej, gdy prawdziwa średnia ma określoną wartość, która jest nieznana. Czy to przekonujące wyróżnienie?
Jeśli chodzi o 3, rozumiem, że nie należy twierdzić o prawdopodobieństwie, że hipoteza zerowa jest nieprawidłowa, chociaż nie jestem pewien, dlaczego.
Podobnie 6 nie może być prawdziwe, ponieważ sugeruje, że prawdziwa średnia zmienia się z eksperymentu na eksperyment.
Tym, którego tak naprawdę nie rozumiem, jest 5. Dlaczego to się myli? Jeśli mam proces, w którym 95% czasu wytwarza CI zawierające prawdziwą średnią, dlaczego nie miałbym powiedzieć, że mam 95% pewności, że wartość populacji wynosi od 0,1 do 0,4? Czy to dlatego, że możemy mieć jakieś specjalne informacje o pobranej próbce, które skłoniłyby nas do przypuszczenia, że jest to jeden z 5%, który nie zawiera prawdziwej średniej? Na przykład 0,13 jest zawarty w przedziale ufności iz jakiegoś powodu 0,13 nie jest uważany za wiarygodną wartość w określonym kontekście badawczym, np. Ponieważ ta wartość byłaby sprzeczna z poprzednią teorią.
Co w każdym razie oznacza zaufanie w tym kontekście?
źródło
Odpowiedzi:
Samo znaczenie pytania (5) zależy od jakiejś nieujawnionej interpretacji „zaufania”. Przejrzałem uważnie gazetę i nie znalazłem żadnej próby zdefiniowania „pewności” ani tego, co może to oznaczać w tym kontekście. Wyjaśnienie tego artykułu dotyczące odpowiedzi na pytanie (5) brzmi:
Jest to zarówno podstępne, jak i wprowadzające w błąd. Po pierwsze, jeśli nie możesz ocenić wyniku zabiegu, to po co ta procedura? Po drugie, stwierdzenie w pytaniu nie dotyczy procedury, ale „zaufania” czytelnika do jej wyników.
Autorzy bronią się:
Ich stronniczość ujawnia się w ostatnim zdaniu: „technika częstokroć” (napisanym być może z ukrytym szyderstwem). Chociaż ta charakterystyka jest poprawna, jest krytycznie niekompletna. Nie zauważa, że przedział ufności jest również właściwością metod eksperymentalnych (sposobu pobierania i pomiaru próbek) i, co ważniejsze, samej natury. To jedyny powód, dla którego ktoś byłby zainteresowany jego wartością.
Niedawno miałem przyjemność czytać Edwarda Batscheleta Circular Statistics in Biology (Academic Press, 1981). Batschelet pisze jasno i na temat, w stylu skierowanym do pracującego naukowca. Oto, co mówi o przedziałach ufności:
[Nacisk położony jest w oryginale, str. 84–85.]
Zwróć uwagę na różnicę nacisku: podczas gdy omawiany artykuł koncentruje się na procedurze, Batschelet koncentruje się na próbce, a konkretnie na tym, co może ujawnić na temat parametru i na ile na te informacje mogą mieć wpływ „wahania szans”. Uważam, że to bezwstydnie praktyczne, naukowe podejście jest o wiele bardziej konstruktywne, pouczające i - ostatecznie - użyteczne.
Dlatego pełniejsza charakterystyka przedziałów ufności niż oferowana w pracy musiałaby przebiegać w następujący sposób:
W tym pełniejszym, bardziej konwencjonalnym i konstruktywnym poczuciu „pewności” odpowiedź na pytanie (5) jest prawdziwa.
źródło
Pytania 1-2, 4: w analizie częstościowej prawdziwa średnia nie jest zmienną losową, więc prawdopodobieństwa nie są zdefiniowane, podczas gdy w analizie Bayesa prawdopodobieństwa zależą od wcześniejszego.
Pytanie 3: Na przykład rozważmy przypadek, w którym wiemy na pewno. Można byłoby uzyskać te wyniki, ale raczej nierozsądne jest twierdzenie, że hipoteza zerowa jest „nieprawdopodobna”, aby była prawdziwa. Uzyskaliśmy dane, które są mało prawdopodobne, jeśli hipoteza zerowa jest prawdziwa, ale nie oznacza to, że hipoteza zerowa jest mało prawdopodobna.
Pytanie 5: Jest to nieco wątpliwe, ponieważ zależy to od definicji „możemy być pewni%.” Jeśli zdefiniujemy instrukcję jako oznaczającą rzecz, którą można wywnioskować z przedziałów ufności p%, to z definicji instrukcja jest poprawna. Typowy argument pro-bayesowski mówi, że ludzie interpretują te twierdzenia intuicyjnie, co oznacza „prawdopodobieństwo p%”, co byłoby fałszem (porównaj odpowiedzi z 1-2,4).
Pytanie 6: Twoje wyjaśnienie „sugeruje, że prawdziwa średnia zmienia się z eksperymentu na eksperyment” jest dokładnie poprawne.
Artykuł został niedawno omówiony na blogu Andrew Gelmana ( http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/ ). Na przykład kwestia interpretacji stwierdzenia, o którym mowa w pytaniu 5, została omówiona w komentarzach.
źródło
Bez jakiejkolwiek formalnej definicji znaczenia „95% pewności”, jakie jest uzasadnienie dla oznakowania nr 5 „prawda” czy „fałsz”? Laik bez wątpienia błędnie zinterpretuje to jako równoznaczne z 95% prawdopodobieństwem średniej w tym przedziale: ale niektórzy ludzie używają go w sensie zastosowania metody generowania przedziałów, której przedziały zawierają prawdziwą średnią 95% czasu, właśnie, aby uniknąć mówienia o rozkładzie prawdopodobieństwa nieznanego parametru; co wydaje się wystarczająco naturalnym rozszerzeniem terminologii.
Podobna struktura poprzedniego oświadczenia (# 4) mogła zachęcić respondentów do próby rozróżnienia między „możemy być w 95% pewni siebie” i „istnieje 95% prawdopodobieństwo”, nawet jeśli wcześniej nie bawili się tym pomysłem. Spodziewałem się, że ta podstępność doprowadzi do największej zgodności liczby 5 - patrząc na artykuł, dowiedziałem się, że się mylę, ale zauważyłem, że co najmniej 80% czytało kwestionariusz w wersji holenderskiej, co być może powinno budzić pytania dotyczące znaczenie tłumaczenia na angielski.
źródło
Oto definicja przedziału ufności z Dictionary of Statistics BS Everitt's Statistics :
Bardzo częstym nieporozumieniem jest pomylenie znaczenia przedziału ufności z pojęciem przedziału wiarygodnego , AKA „Bayesowski przedział ufności”, który czyni stwierdzenia podobne do tych w pytaniach.
Słyszałem, że przedziały ufności są często podobne do przedziałów wiarygodności, które pochodzą z nieinformacyjnego przeora, ale zostało mi to powiedziane anegdotycznie (choć facet, którego bardzo szanuję), i nie mam szczegółów ani cytowania.
źródło
Jeśli chodzi o intuicję dotyczącą fałszywości pytania 5, stąd otrzymuję następującą dyskusję na ten temat
Przejdźmy teraz do konkretnych pytań na temat 5. Dlaczego to źle ...
Na marginesie (wspomnianym w innych odpowiedziach na to pytanie) wiarygodny przedział , koncepcja ze statystyk bayesowskich, przewiduje, że prawdziwa wartość parametru ma szczególne prawdopodobieństwo, że znajdzie się w przedziale ufności, biorąc pod uwagę faktycznie uzyskane dane. Być może możesz uzyskać więcej informacji na ten temat z blogu Gelmana.
źródło