Jak interpretować przedział ufności różnicy średnich w jednym próbnym teście?

21

SPSS zapewnia wyjściowy „przedział ufności średnich różnic”. Czytałem w niektórych miejscach, że oznacza to „95 razy na 100, nasza średnia różnica w próbce będzie między tymi granicami”. Nie jest to dla mnie jasne. Czy ktoś może zasugerować jaśniejsze sformułowania, aby wyjaśnić „przedział ufności różnicy średnich”? Ten wynik pojawia się w kontekście testu t dla jednej próbki.

Anne
źródło
1
Jaka jest twoja interpretacja?
mpiktas,
1
Zauważ, że nie ma w tym nic specjalnego: CI dla oszacowania czegokolwiek będzie interpretowany w podobny sposób. (Jednak w zależności od tego, co jest szacowane, można zastosować różne procedury.) W związku z tym pytanie to jest dokładnie takie samo, jak poprzednie pytania dotyczące interpretacji elementów CI.
whuber

Odpowiedzi:

13

To nie jest łatwe, nawet dla szanowanych statystyk. Spójrz na ostatnią próbę Nate Silver :

... gdybym poprosił cię o powiedzenie mi, jak często podróż do pracy zajmuje 10 minut dłużej niż średnio - coś, co wymaga pewnej wersji przedziału ufności - musiałbyś o tym trochę pomyśleć, ...

(z bloga FiveThirtyEight w „New York Times”, 29.09.10.) To nie jest przedział ufności. W zależności od sposobu interpretacji jest to przedział tolerancji lub przedział prognozowania. (W przeciwnym razie nic nie ma znaczenia w doskonałej dyskusji pana Silvera na temat szacowania prawdopodobieństwa; jest to dobra lektura). Wiele innych stron internetowych (szczególnie tych, które koncentrują się na inwestycjach) podobnie myli przedziały ufności z innymi rodzajami przedziałów.

New York Times dołożył starań, aby wyjaśnić znaczenie wyników statystycznych, które produkuje i na których opiera się sprawozdanie. Drobny druk pod wieloma sondażami zawiera coś takiego:

Teoretycznie w 19 przypadkach na 20 wyniki oparte na takich próbach wszystkich dorosłych będą różnić się o nie więcej niż trzy punkty procentowe w obu kierunkach od tego, co uzyskano by, próbując przeprowadzić wywiad ze wszystkimi dorosłymi Amerykanami.

( Np , Jak Sondaż został przeprowadzony , 2.05.2011).

Być może trochę nieporadne, ale jasne i dokładne: to stwierdzenie charakteryzuje zmienność rozkładu próbkowania wyników ankiety. To zbliża się do idei przedziału ufności, ale nie do końca tam jest. Jednak w wielu przypadkach można rozważyć użycie takiego sformułowania zamiast przedziałów ufności.

Gdy w Internecie występuje tak wiele potencjalnych nieporozumień, warto skorzystać z wiarygodnych źródeł. Jednym z moich ulubionych jest uhonorowany w czasie tekst Freedmana, Pisaniego i Purvesa „ Statystyka”. Teraz, w czwartym wydaniu, jest używany na uniwersytetach od ponad 30 lat i wyróżnia się jasnymi, prostymi wyjaśnieniami i koncentruje się na klasycznych metodach „częstych”. Zobaczmy, co mówi o interpretacji przedziałów ufności:

Poziom ufności 95% mówi coś o procedurze pobierania próbek ...

[w p. 384; wszystkie cytaty pochodzą z trzeciego wydania (1998)]. Kontynuuje,

Gdyby próbka wyszła inaczej, przedział ufności byłby inny. ... Dla około 95% wszystkich próbek przedział ... obejmuje procent populacji, a dla pozostałych 5% nie.

[p. 384]. Tekst mówi znacznie więcej o przedziałach ufności, ale to wystarczy, aby pomóc: jego podejście polega na przeniesieniu tematu dyskusji na próbę, jednocześnie nadając rygorowi i jasności oświadczenia. Dlatego możemy spróbować tego samego w naszym własnym raporcie. Na przykład zastosujmy to podejście do opisania przedziału ufności [34%, 40%] wokół zgłoszonej różnicy procentowej w hipotetycznym eksperymencie:

„W tym eksperymencie wykorzystano losowo wybraną próbkę osobników i losowy dobór kontroli. Podajemy przedział ufności od 34% do 40% dla różnicy. Oblicza to wiarygodność eksperymentu: jeśli dobór osobników i kontroli był inny , ten przedział ufności zmieniłby się, aby odzwierciedlić wyniki dla wybranych osób i kontroli. W 95% takich przypadków przedział ufności obejmowałby prawdziwą różnicę (między wszystkimi podmiotami i wszystkimi kontrolami), a w pozostałych 5% przypadków nie Dlatego jest prawdopodobne - ale nie pewne - że ten przedział ufności zawiera prawdziwą różnicę: to znaczy uważamy, że prawdziwa różnica wynosi między 34% a 40%. ”

(To jest mój tekst, który z pewnością można poprawić: zapraszam redaktorów do pracy.)

Takie długie stwierdzenie jest nieco niewygodne. W rzeczywistych raportach większość kontekstu - losowe pobieranie próbek, podmioty i kontrole, możliwość zmienności - została już ustalona, ​​co czyni połowę poprzedniego stwierdzenia niepotrzebnym. Gdy raport stwierdza, że ​​istnieje zmienność próbkowania i przedstawia model prawdopodobieństwa dla wyników próby, zazwyczaj nie jest trudno wyjaśnić przedział ufności (lub inny przedział losowy) tak jasno i rygorystycznie, jak tego potrzebują odbiorcy.

Whuber
źródło
Dzięki Whuber, rozumiem przedziały ufności całkiem dobrze. To CI dla różnicy w środkach (między próbką a popem), w której się mylę.
Anne
@Anne Co masz na myśli? O ile wiem, ani twoje pytanie, ani żadna z odpowiedzi nie odnosi się do różnicy między średnią próbki a średnią populacji. Twoje pytanie wydaje się odnosić do różnicy między dwoma średnimi próbkami (być może między średnią grupy badanych eksperymentalnych a grupą kontrolną).
whuber
Mam na myśli przykład, w którym szukasz różnicy między próbą a średnią populacji. W tym przypadku, co dokładnie oznacza CI między próbką a popem, znaczy. Wykorzystaliśmy średnią próbną do oszacowania odchylenia standardowego pop, a zatem szacujemy CI wokół średniej szacunkowej. Różnica średnich nie jest różnicą między podaną przez nas średnią popową a średnią próbkową. Więc co to jest?
Anne,
1
@Anne Czy „średnia populacji” jest hipotetyczną, nieznaną średnią populacji, z której pobiera się próbki, czy też jest to średnia zmierzona dla innej populacji, która została wyczerpująco pobrana? W jakim sensie użyłeś „średniej próby” do oszacowania odchylenia standardowego populacji ? Czy to może literówka?
whuber
2
@ Whuber dzięki. Twój wiersz „Wartości CI obliczone dla 95% wszystkich próbek (czyli 95% wszystkich możliwych replikacji) pokryje tę prawdziwą różnicę”. jest dla mnie jaśniejsze niż „95 razy na 100, nasza średnia próbna różnica będzie między tymi granicami”, a twoje wyjaśnienie ma logiczny sens.
Anne,
5

Z pedantycznego technicznego punktu widzenia osobiście nie sądzę, by istniało „jasne sformułowanie” interpretacji przedziałów ufności.

Interpretowałbym przedział ufności jako: istnieje 95% prawdopodobieństwo, że przedział ufności 95% pokrywa prawdziwą średnią różnicę

Interpretacja tego jest taka, że gdybyśmy powtórzyli cały eksperyment razy, w tych samych warunkach, mielibyśmy różnych przedziałów ufności. Poziom ufności to proporcja tych przedziałów, które zawierają prawdziwą średnią różnicę.NNN

Moim osobistym sporem z logiką takiego rozumowania jest to, że to wyjaśnienie przedziałów ufności wymaga od nas zignorowania innych próbek podczas obliczania przedziału ufności. Na przykład, jeśli miałbyś próbkę o wielkości 100, czy poszedłbyś wtedy i obliczyłbyś 100 „1-próbkowych” 95% przedziałów ufności?N1

Ale zauważ, że to wszystko jest w filozofii. Wydaje mi się, że przedziały ufności najlepiej wyjaśnić w wyjaśnieniach. Dają dobre wyniki, gdy są właściwie stosowane.

prawdopodobieństwo prawdopodobieństwa
źródło
Rozpoczęcie nowego zdania po „N różnych przedziałach ufności”. nie przepływa dobrze z „możesz dalej interpretować to jako powiedzenie ...”. Proponuję zmodyfikować trzeci akapit.
Theta30
2
Twój trzeci akapit jest znacznie lepszy niż drugi. W zależności od obserwowanych danych przedział ufności albo zawiera prawdziwą wartość parametru, albo nie.
kardynał
@probabilityislogic: Ponieważ ta odpowiedź została zaakceptowana, rozważ edycję drugiego akapitu. Czy możesz również wyjaśnić, co masz na myśli w akapicie od drugiego do ostatniego? Jak czytamy, nie jestem do końca pewien, jaki argument wysuwasz.
kardynał
jeśli interpretujemy przedziały ufności w kategoriach „powtórzeń” eksperymentu, musimy zignorować poprzednie eksperymenty w tych powtórzeniach. Chodzi mi o to: dlaczego ignorowanie wcześniejszych eksperymentów w tych „powtórzeniach” przedziałów ufności jest dobre dla tych zbiorów danych, których nie obserwowaliśmy, ale musimy połączyć dane razem dla danych, które zaobserwowaliśmy? Czy nie byłoby tak uzasadnione (z tego, co rozumiem na temat interpretacji CI) wytworzenie jak największej liczby CI z posiadanych danych?
probabilityislogic
1
Istnieje cała teoria, w dużej mierze równoległa do optymalnej teorii decyzji, na jednakowo najdokładniejszych zestawach pewności. Może brakuje ci części układanki. (?)
kardynał
3

Z grubsza odpowiedź na pytanie jest taka, że ​​95% przedział ufności pozwala mieć 95% pewność, że prawdziwa wartość parametru mieści się w przedziale. Jednak ta szorstka odpowiedź jest zarówno niepełna, jak i niedokładna.

Niekompletność polega na tym, że nie jest jasne, że „95% pewności” oznacza cokolwiek konkretnego, a jeśli tak, to to konkretne znaczenie nie zostałoby powszechnie uzgodnione nawet przez niewielką próbę statystyków. Znaczenie pewności zależy od tego, jaką metodę zastosowano do uzyskania przedziału i od jakiego modelu wnioskowania jest używany (co mam nadzieję, że stanie się jaśniejsze poniżej).

Niedokładność polega na tym, że wiele przedziałów ufności nie ma na celu powiedzenia ci nic o lokalizacji prawdziwej wartości parametru dla konkretnego przypadku eksperymentalnego, który dał przedział ufności! Dla wielu będzie to zaskakujące, ale wynika to bezpośrednio z filozofii Neymana-Pearsona, wyraźnie wyrażonej w cytacie z ich artykułu z 1933 r. „O problemie najskuteczniejszych testów hipotez statystycznych”:

Jesteśmy skłonni myśleć, że jeśli chodzi o konkretną hipotezę, żaden test oparty na teorii prawdopodobieństwa nie może sam w sobie dostarczyć żadnych cennych dowodów na prawdziwość lub fałsz tej hipotezy.

Możemy jednak spojrzeć na cel testów z innego punktu widzenia. Nie mając nadziei na ustalenie, czy każda osobna hipoteza jest prawdziwa, czy fałszywa, możemy szukać reguł rządzących naszym zachowaniem w odniesieniu do nich, w wyniku czego zapewniamy, że w długim okresie doświadczenia nie będziemy zbyt często się mylić.

Interwały oparte na „odwróceniu” testów hipotezy NP będą zatem dziedziczyć po tym teście naturę znanych właściwości błędu długoterminowego, nie pozwalając wnioskować o właściwościach eksperymentu, który je przyniósł! Rozumiem, że chroni to przed wnioskami indukcyjnymi, które Neyman najwyraźniej uważał za obrzydliwość.

Neyman wyraźnie powołuje się na termin „przedział ufności” i na pochodzenie teorii przedziałów ufności w swojej pracy Biometrika z 1941 r. „Argument Fiducial i teoria przedziałów ufności”. W pewnym sensie zatem wszystko, co jest właściwie przedziałem ufności, działa zgodnie z jego regułami, a zatem znaczenie pojedynczego przedziału może być wyrażone jedynie w kategoriach długoterminowego tempa, w którym przedziały obliczane za pomocą tej metody zawierają (pokrywają) odpowiednie prawdziwe wartość parametru.

Teraz musimy rozwinąć dyskusję. Jeden z nich jest zgodny z pojęciem „zasięgu”, a drugi z przedziałami innymi niż neymanowskie, które są jak przedziały ufności. Odłożę ten pierwszy, aby móc ukończyć ten post, zanim stanie się on zbyt długi.

Istnieje wiele różnych podejść, które dają przedziały, które można nazwać nie-neymańskimi przedziałami ufności. Pierwszym z nich są podstawowe interwały Fishera. (Słowo „fiducial” może odstraszyć wielu i wywołać drwiący uśmieszek od innych, ale zostawię to na bok ...) W przypadku niektórych rodzajów danych (np. Normalne z nieznaną wariancją populacji) przedziały obliczone metodą Fishera są numerycznie identyczne z przedziały, które zostaną obliczone metodą Neymana. Zapraszają jednak do diametralnie przeciwnych interpretacji. Przedziały neymanowskie odzwierciedlają jedynie właściwości pokrycia w długim okresie metody, podczas gdy przedziały Fishera mają wspierać wnioskowanie indukcyjne dotyczące prawdziwych wartości parametrów dla konkretnego przeprowadzonego eksperymentu.

Fakt, że jeden zestaw granic przedziałów może pochodzić z metod opartych na jednym z dwóch filozoficznie odmiennych paradygmatów, prowadzi do naprawdę zagmatwanej sytuacji - wyniki można interpretować na dwa sprzeczne sposoby. Z argumentu fiducial istnieje 95% prawdopodobieństwa, że ​​określony 95% przedział fiducial będzie zawierał prawdziwą wartość parametru. Z metody Neymana wiemy tylko, że 95% przedziałów obliczonych w ten sposób będzie zawierało prawdziwą wartość parametru, i musimy powiedzieć mylące rzeczy na temat prawdopodobieństwa, że ​​przedział zawierający prawdziwą wartość parametru jest nieznany, ale wynosi 1 lub 0.

W dużej mierze podejście Neymana miało wpływ na podejście Fishera. Moim zdaniem jest to najbardziej niefortunne, ponieważ nie prowadzi do naturalnej interpretacji interwałów. (Ponownie przeczytaj powyższy cytat z Neymana i Pearsona i sprawdź, czy zgadza się z twoją naturalną interpretacją wyników eksperymentów. Najprawdopodobniej nie.)

Jeśli interwał może być poprawnie interpretowany w kategoriach globalnych poziomów błędów, ale także poprawnie w lokalnych kategoriach inferencyjnych, nie widzę dobrego powodu, aby wykluczać użytkowników interwału z bardziej naturalnej interpretacji zapewnianej przez tę ostatnią. Tak więc sugeruję, że właściwa interpretacja przedziału ufności jest ZARÓWNO w następujących przypadkach:

  • Neymański: Ten 95% przedział został skonstruowany metodą, która daje przedziały, które pokrywają prawdziwą wartość parametru w 95% przypadków w długim okresie (... z naszego doświadczenia statystycznego).

  • Fisherian: Ten przedział 95% ma 95% prawdopodobieństwo pokrycia prawdziwej wartości parametru.

(Metody bayesowskie i prawdopodobieństwa również dadzą przedziały o pożądanych właściwościach częstokroć. Takie przedziały zapraszają nieco inne interpretacje, które prawdopodobnie będą wydawać się bardziej naturalne niż neymańskie.)

Michael Lew
źródło
@Micheal - miejsce, w którym będą się różnić, to fakt, że ostrożny interwał musi opierać się na wystarczającej statystyce i warunku na wszystkich wielkościach pomocniczych. Przedział ufności Neymansa nie wymaga tej właściwości, a zatem podlegają „95% przedziałowi ufności” o różnym zasięgu dla poszczególnych podklas próbek.
probabilityislogic
@probability - czy możesz to rozwinąć? Czy masz na myśli okoliczności, w których 95% neymański przedział ufności jest przedziałem ufności, ale nie jest to przedział 95%? Jakie byłyby te okoliczności? Czy interwał Fisherian miałby w tych okolicznościach takie same granice?
Michael Lew
Możesz pokazać przypadki, w których możesz stwierdzić z próbki, że przedział ufności „95%” nie zawiera prawdziwej wartości. przykład 5 i przykład 6 w pracy Jaynesa przedstawiają dwa przypadki, w których niewystarczające wykorzystanie statystyk w CI zapewni długoterminowe pokrycie, ale pokrycie będzie różne dla niektórych klas próbek. Jest to analogiczne do posiadania dwóch zmiennych o tej samej średniej (zasięg w długim okresie), ale różnej wariancji (zasięg w konkretnym przypadku)
prawdopodobieństwo prawdopodobieństwa
2

Znaczenie przedziału ufności jest następujące: gdybyś powtórzył eksperyment dokładnie w ten sam sposób (tj. Taką samą liczbę obserwacji, czerpiąc z tej samej populacji itp.), I jeśli twoje założenia są prawidłowe, i obliczyłbyś ten przedział ponownie w każdym powtórzeniu, wówczas przedział ufności zawierałby rzeczywistą częstość w 95% powtórzeń (średnio).

Można więc powiedzieć, że masz 95% pewności (jeśli twoje założenia są poprawne itp.), Że skonstruowałeś teraz przedział, który zawiera prawdziwe rozpowszechnienie.

Zazwyczaj stwierdza się to jako: z 95% pewnością, między 4,5 a 8,3% dzieci matek, które paliły podczas ciąży, staje się otyłych.

Zauważ, że zwykle nie jest to interesujące samo w sobie: prawdopodobnie chcesz to porównać do rozpowszechnienia u dzieci matek, które nie paliły (iloraz szans, ryzyko względne itp.)

Nick Sabbe
źródło
(Ta odpowiedź, która nadeszła tutaj po połączeniu dwóch wątków, odpowiada na zduplikowane pytanie sformułowane pod względem współczynnika CI).
whuber
0

Jeśli prawdziwa średnia różnica jest poza tym przedziałem, istnieje tylko 5% szansa, że ​​średnia różnica z naszego eksperymentu byłaby tak daleko od prawdziwej średniej różnicy.

Thomas Levine
źródło
Co rozumiesz przez „tak daleko”? Czy jest to górna granica CI, która jest daleko, czy zaobserwowana średnia?
probabilityislogic
Odległość między prawdziwą średnią a obserwowaną średnią jest tym, co rozumiem przez „tak daleko”. Zamienię to na „tak daleko”; Myślę, że to jest trochę bardziej jasne.
Thomas Levine
-2

Moja interpretacja: Jeśli przeprowadzisz eksperyment N razy (gdzie N dąży do nieskończoności), spośród tych dużej liczby eksperymentów 95% eksperymentów będzie miało przedziały ufności, które mieszczą się w tych 95% limitach. Mówiąc dokładniej, powiedzmy, że te granice to „a” i „b”, a następnie 95 na 100 razy średnia różnica między próbką będzie znajdować się między „a” i „b”. Zakładam, że rozumiesz, że różne eksperymenty mogą obejmować różne próbki do pokrycia z całej populacji.

ayush biyani
źródło
@ Ayush. dzięki. To jest pomocne. Przepraszam, nie do końca przestrzegam twojego ostatniego zdania.
Anne,
@anne - Ok. Mam na myśli to, że jeśli chcesz przetestować średnią między dwiema próbkami i powiedzmy, że każda próbka ma 1000 osób, możesz zdefiniować z niej nieskończone próbki (np. 40 osób z każdej) .. Napisałem to, aby powiedzieć, dlaczego różne eksperymenty różnią się między sobą. Eksperymenty, w których obserwujemy przedział ufności.
ayush biyani
2
@ayush - to nie jest poprawna interpretacja w drugim zdaniu. Lub przynajmniej powinieneś dodać indeksy dolne do „a” i „b”, co wyjaśnia, że ​​to te wielkości zmieniają się ponad 100 razy. Obecna notacja sprawia, że ​​„a” i „b” są stałymi wielkościami.
probabilityislogic
@probabilityislogic - zgadzam się .. indeksy dolne są konieczne.
ayush biyani
1
[a,b]
-2

„95 razy na 100, twoja wartość będzie mieścić się w jednym standardowym odchyleniu średniej”

beginnerstat
źródło
4
Witamy na stronie @beginnerstat. Zastanawiam się, czy chciałeś powiedzieć „ dwa standardowe odchylenia średniej”? Ponadto nie jestem pewien, czy widzę, jak to sformułowanie poprawia to, co PO przeczytało gdzie indziej. Czy chciałbyś trochę rozwinąć?
gung - Przywróć Monikę
1
Tak do komentarza @ gung: Jestem szczególnie zainteresowany zrozumieniem, w jakim znaczeniu używane są tutaj „średnie” i „SD”. Czy odnoszą się one do podstawowych parametrów lub do przykładowych danych szacunkowych ? Czy odnoszą się do rozkładu leżącej u podstaw zmiennej losowej, czy do rozkładu próbkowania średniej IID różni się od takiego rozkładu?
whuber