SPSS zapewnia wyjściowy „przedział ufności średnich różnic”. Czytałem w niektórych miejscach, że oznacza to „95 razy na 100, nasza średnia różnica w próbce będzie między tymi granicami”. Nie jest to dla mnie jasne. Czy ktoś może zasugerować jaśniejsze sformułowania, aby wyjaśnić „przedział ufności różnicy średnich”? Ten wynik pojawia się w kontekście testu t dla jednej próbki.
21
Odpowiedzi:
To nie jest łatwe, nawet dla szanowanych statystyk. Spójrz na ostatnią próbę Nate Silver :
(z bloga FiveThirtyEight w „New York Times”, 29.09.10.) To nie jest przedział ufności. W zależności od sposobu interpretacji jest to przedział tolerancji lub przedział prognozowania. (W przeciwnym razie nic nie ma znaczenia w doskonałej dyskusji pana Silvera na temat szacowania prawdopodobieństwa; jest to dobra lektura). Wiele innych stron internetowych (szczególnie tych, które koncentrują się na inwestycjach) podobnie myli przedziały ufności z innymi rodzajami przedziałów.
New York Times dołożył starań, aby wyjaśnić znaczenie wyników statystycznych, które produkuje i na których opiera się sprawozdanie. Drobny druk pod wieloma sondażami zawiera coś takiego:
( Np , Jak Sondaż został przeprowadzony , 2.05.2011).
Być może trochę nieporadne, ale jasne i dokładne: to stwierdzenie charakteryzuje zmienność rozkładu próbkowania wyników ankiety. To zbliża się do idei przedziału ufności, ale nie do końca tam jest. Jednak w wielu przypadkach można rozważyć użycie takiego sformułowania zamiast przedziałów ufności.
Gdy w Internecie występuje tak wiele potencjalnych nieporozumień, warto skorzystać z wiarygodnych źródeł. Jednym z moich ulubionych jest uhonorowany w czasie tekst Freedmana, Pisaniego i Purvesa „ Statystyka”. Teraz, w czwartym wydaniu, jest używany na uniwersytetach od ponad 30 lat i wyróżnia się jasnymi, prostymi wyjaśnieniami i koncentruje się na klasycznych metodach „częstych”. Zobaczmy, co mówi o interpretacji przedziałów ufności:
[w p. 384; wszystkie cytaty pochodzą z trzeciego wydania (1998)]. Kontynuuje,
[p. 384]. Tekst mówi znacznie więcej o przedziałach ufności, ale to wystarczy, aby pomóc: jego podejście polega na przeniesieniu tematu dyskusji na próbę, jednocześnie nadając rygorowi i jasności oświadczenia. Dlatego możemy spróbować tego samego w naszym własnym raporcie. Na przykład zastosujmy to podejście do opisania przedziału ufności [34%, 40%] wokół zgłoszonej różnicy procentowej w hipotetycznym eksperymencie:
(To jest mój tekst, który z pewnością można poprawić: zapraszam redaktorów do pracy.)
Takie długie stwierdzenie jest nieco niewygodne. W rzeczywistych raportach większość kontekstu - losowe pobieranie próbek, podmioty i kontrole, możliwość zmienności - została już ustalona, co czyni połowę poprzedniego stwierdzenia niepotrzebnym. Gdy raport stwierdza, że istnieje zmienność próbkowania i przedstawia model prawdopodobieństwa dla wyników próby, zazwyczaj nie jest trudno wyjaśnić przedział ufności (lub inny przedział losowy) tak jasno i rygorystycznie, jak tego potrzebują odbiorcy.
źródło
Z pedantycznego technicznego punktu widzenia osobiście nie sądzę, by istniało „jasne sformułowanie” interpretacji przedziałów ufności.
Interpretowałbym przedział ufności jako: istnieje 95% prawdopodobieństwo, że przedział ufności 95% pokrywa prawdziwą średnią różnicę
Interpretacja tego jest taka, że gdybyśmy powtórzyli cały eksperyment razy, w tych samych warunkach, mielibyśmy różnych przedziałów ufności. Poziom ufności to proporcja tych przedziałów, które zawierają prawdziwą średnią różnicę.NN. N.
Moim osobistym sporem z logiką takiego rozumowania jest to, że to wyjaśnienie przedziałów ufności wymaga od nas zignorowania innych próbek podczas obliczania przedziału ufności. Na przykład, jeśli miałbyś próbkę o wielkości 100, czy poszedłbyś wtedy i obliczyłbyś 100 „1-próbkowych” 95% przedziałów ufności?N.- 1
Ale zauważ, że to wszystko jest w filozofii. Wydaje mi się, że przedziały ufności najlepiej wyjaśnić w wyjaśnieniach. Dają dobre wyniki, gdy są właściwie stosowane.
źródło
Z grubsza odpowiedź na pytanie jest taka, że 95% przedział ufności pozwala mieć 95% pewność, że prawdziwa wartość parametru mieści się w przedziale. Jednak ta szorstka odpowiedź jest zarówno niepełna, jak i niedokładna.
Niekompletność polega na tym, że nie jest jasne, że „95% pewności” oznacza cokolwiek konkretnego, a jeśli tak, to to konkretne znaczenie nie zostałoby powszechnie uzgodnione nawet przez niewielką próbę statystyków. Znaczenie pewności zależy od tego, jaką metodę zastosowano do uzyskania przedziału i od jakiego modelu wnioskowania jest używany (co mam nadzieję, że stanie się jaśniejsze poniżej).
Niedokładność polega na tym, że wiele przedziałów ufności nie ma na celu powiedzenia ci nic o lokalizacji prawdziwej wartości parametru dla konkretnego przypadku eksperymentalnego, który dał przedział ufności! Dla wielu będzie to zaskakujące, ale wynika to bezpośrednio z filozofii Neymana-Pearsona, wyraźnie wyrażonej w cytacie z ich artykułu z 1933 r. „O problemie najskuteczniejszych testów hipotez statystycznych”:
Interwały oparte na „odwróceniu” testów hipotezy NP będą zatem dziedziczyć po tym teście naturę znanych właściwości błędu długoterminowego, nie pozwalając wnioskować o właściwościach eksperymentu, który je przyniósł! Rozumiem, że chroni to przed wnioskami indukcyjnymi, które Neyman najwyraźniej uważał za obrzydliwość.
Neyman wyraźnie powołuje się na termin „przedział ufności” i na pochodzenie teorii przedziałów ufności w swojej pracy Biometrika z 1941 r. „Argument Fiducial i teoria przedziałów ufności”. W pewnym sensie zatem wszystko, co jest właściwie przedziałem ufności, działa zgodnie z jego regułami, a zatem znaczenie pojedynczego przedziału może być wyrażone jedynie w kategoriach długoterminowego tempa, w którym przedziały obliczane za pomocą tej metody zawierają (pokrywają) odpowiednie prawdziwe wartość parametru.
Teraz musimy rozwinąć dyskusję. Jeden z nich jest zgodny z pojęciem „zasięgu”, a drugi z przedziałami innymi niż neymanowskie, które są jak przedziały ufności. Odłożę ten pierwszy, aby móc ukończyć ten post, zanim stanie się on zbyt długi.
Istnieje wiele różnych podejść, które dają przedziały, które można nazwać nie-neymańskimi przedziałami ufności. Pierwszym z nich są podstawowe interwały Fishera. (Słowo „fiducial” może odstraszyć wielu i wywołać drwiący uśmieszek od innych, ale zostawię to na bok ...) W przypadku niektórych rodzajów danych (np. Normalne z nieznaną wariancją populacji) przedziały obliczone metodą Fishera są numerycznie identyczne z przedziały, które zostaną obliczone metodą Neymana. Zapraszają jednak do diametralnie przeciwnych interpretacji. Przedziały neymanowskie odzwierciedlają jedynie właściwości pokrycia w długim okresie metody, podczas gdy przedziały Fishera mają wspierać wnioskowanie indukcyjne dotyczące prawdziwych wartości parametrów dla konkretnego przeprowadzonego eksperymentu.
Fakt, że jeden zestaw granic przedziałów może pochodzić z metod opartych na jednym z dwóch filozoficznie odmiennych paradygmatów, prowadzi do naprawdę zagmatwanej sytuacji - wyniki można interpretować na dwa sprzeczne sposoby. Z argumentu fiducial istnieje 95% prawdopodobieństwa, że określony 95% przedział fiducial będzie zawierał prawdziwą wartość parametru. Z metody Neymana wiemy tylko, że 95% przedziałów obliczonych w ten sposób będzie zawierało prawdziwą wartość parametru, i musimy powiedzieć mylące rzeczy na temat prawdopodobieństwa, że przedział zawierający prawdziwą wartość parametru jest nieznany, ale wynosi 1 lub 0.
W dużej mierze podejście Neymana miało wpływ na podejście Fishera. Moim zdaniem jest to najbardziej niefortunne, ponieważ nie prowadzi do naturalnej interpretacji interwałów. (Ponownie przeczytaj powyższy cytat z Neymana i Pearsona i sprawdź, czy zgadza się z twoją naturalną interpretacją wyników eksperymentów. Najprawdopodobniej nie.)
Jeśli interwał może być poprawnie interpretowany w kategoriach globalnych poziomów błędów, ale także poprawnie w lokalnych kategoriach inferencyjnych, nie widzę dobrego powodu, aby wykluczać użytkowników interwału z bardziej naturalnej interpretacji zapewnianej przez tę ostatnią. Tak więc sugeruję, że właściwa interpretacja przedziału ufności jest ZARÓWNO w następujących przypadkach:
Neymański: Ten 95% przedział został skonstruowany metodą, która daje przedziały, które pokrywają prawdziwą wartość parametru w 95% przypadków w długim okresie (... z naszego doświadczenia statystycznego).
Fisherian: Ten przedział 95% ma 95% prawdopodobieństwo pokrycia prawdziwej wartości parametru.
(Metody bayesowskie i prawdopodobieństwa również dadzą przedziały o pożądanych właściwościach częstokroć. Takie przedziały zapraszają nieco inne interpretacje, które prawdopodobnie będą wydawać się bardziej naturalne niż neymańskie.)
źródło
Znaczenie przedziału ufności jest następujące: gdybyś powtórzył eksperyment dokładnie w ten sam sposób (tj. Taką samą liczbę obserwacji, czerpiąc z tej samej populacji itp.), I jeśli twoje założenia są prawidłowe, i obliczyłbyś ten przedział ponownie w każdym powtórzeniu, wówczas przedział ufności zawierałby rzeczywistą częstość w 95% powtórzeń (średnio).
Można więc powiedzieć, że masz 95% pewności (jeśli twoje założenia są poprawne itp.), Że skonstruowałeś teraz przedział, który zawiera prawdziwe rozpowszechnienie.
Zazwyczaj stwierdza się to jako: z 95% pewnością, między 4,5 a 8,3% dzieci matek, które paliły podczas ciąży, staje się otyłych.
Zauważ, że zwykle nie jest to interesujące samo w sobie: prawdopodobnie chcesz to porównać do rozpowszechnienia u dzieci matek, które nie paliły (iloraz szans, ryzyko względne itp.)
źródło
Jeśli prawdziwa średnia różnica jest poza tym przedziałem, istnieje tylko 5% szansa, że średnia różnica z naszego eksperymentu byłaby tak daleko od prawdziwej średniej różnicy.
źródło
Moja interpretacja: Jeśli przeprowadzisz eksperyment N razy (gdzie N dąży do nieskończoności), spośród tych dużej liczby eksperymentów 95% eksperymentów będzie miało przedziały ufności, które mieszczą się w tych 95% limitach. Mówiąc dokładniej, powiedzmy, że te granice to „a” i „b”, a następnie 95 na 100 razy średnia różnica między próbką będzie znajdować się między „a” i „b”. Zakładam, że rozumiesz, że różne eksperymenty mogą obejmować różne próbki do pokrycia z całej populacji.
źródło
„95 razy na 100, twoja wartość będzie mieścić się w jednym standardowym odchyleniu średniej”
źródło