Tak, istnieje kilka prostych zależności między porównaniami przedziału ufności a testami hipotez w szerokim zakresie praktycznych ustawień. Jednak oprócz weryfikacji procedur CI i testu t są odpowiednie dla naszych danych, musimy sprawdzić, czy rozmiary próbek nie są zbyt różne i czy oba zestawy mają podobne odchylenia standardowe. Nie powinniśmy również próbować uzyskiwać bardzo precyzyjnych wartości p na podstawie porównania dwóch przedziałów ufności, ale powinniśmy się cieszyć z opracowania skutecznych przybliżeń.
Próbując pogodzić dwie już udzielone odpowiedzi (@John i @Brett), pomaga być matematycznie jednoznacznym. Wzór na symetryczny dwustronny przedział ufności odpowiedni dla ustawienia tego pytania to
CI=m±tα(n)sn−−√
gdzie m jest średnią próbki z n niezależnych obserwacji, s jest odchyleniem standardowym próbki, 2 α jest pożądanym rozmiarem testu (maksymalna częstość fałszywie dodatnich wyników), a tα( n ) jest górnym 1 - α percentylem rozkładu t Studenta z n - 1 stopniami swobody. (To niewielkie odchylenie od tradycyjnej notacji upraszcza ekspozycję, eliminując potrzebę zamieszania nad rozróżnieniem n vs n - 1 , co i tak będzie nieistotne.)
Wykorzystując indeksy dolne 1 i 2) do rozróżnienia dwóch niezależnych zestawów danych do porównania, przy czym 1 odpowiada większej z dwóch średnich, brak nakładania się przedziałów ufności wyraża się przez nierówność (dolny limit ufności 1) > (górny limit ufności 2 ); mianowicie. ,
m1- tα( n1) s1n1--√>m2+tα(n2)s2n2−−√.
Można to zrobić tak, aby wyglądało jak statystyka t odpowiedniego testu hipotezy (w celu porównania dwóch średnich) z prostymi manipulacjami algebraicznymi, dając
m1−m2s21/n1+s22/n2−−−−−−−−−−−√>s1n2−−√tα(n1)+s2n1−−√tα(n2)n1s22+n2s21−−−−−−−−−√.
Lewa strona to statystyka stosowana w teście hipotez; zwykle porównuje się go do percentyla rozkładu t Studenta przy n1+n2 stopniach swobody: to znaczy do tα(n1+n2) . Prawa strona to tendencyjna średnia ważona oryginalnych t percentyli rozkładu.
Dotychczasowa analiza uzasadnia odpowiedź @Brett: wydaje się, że nie ma prostej relacji. Przyjrzyjmy się jednak dalej. Inspiruje mnie to, ponieważ intuicyjnie brak nakładania się przedziałów ufności powinien coś powiedzieć!
Po pierwsze, zauważ, że ta forma testu hipotez jest ważna tylko wtedy, gdy oczekujemy, że s1 i s2 będą co najmniej w przybliżeniu równe. (W przeciwnym razie napotkamy znany problem Behrensa-Fishera i jego złożoność.) Po sprawdzeniu przybliżonej równości si możemy następnie stworzyć przybliżone uproszczenie w formularzu
m1- m2)s 1 / n1+ 1 / n2)----------√> n2)--√tα( n1) + n1--√tα( n2))n1+ n2)------√.
Tutaj s ≈ s1. S2) . Realistycznie nie należy oczekiwać, że to nieformalne porównanie granic ufności będzie miało taki sam rozmiar jak α . Nasze pytanie brzmi zatem, czy istnieje takie α′ , że prawa strona jest (przynajmniej w przybliżeniu) równa poprawnej statystyce t. Mianowicie, o co chodzi w przypadku α′
tα′(n1+n2)=n2−−√tα(n1)+n1−−√tα(n2)n1+n2−−−−−−√?
Okazuje się, że dla równych rozmiarów próbek α i α′ są połączone (z dość dużą dokładnością) przez prawo mocy. Na przykład, tutaj jest wykres logarytmiczny dwóch dla przypadków n1=n2=2 (najniższa niebieska linia), n1=n2=5 (środkowa czerwona linia), n1=n2=∞ ( najwyższa złota linia). Środkowa zielona przerywana linia jest przybliżeniem opisanym poniżej. Prostoliniowość tych krzywych przeczy prawu mocy. Zależy od n=n1=n2 , ale niewiele.
Odpowiedź zależy od zestawu {n1,n2} , ale naturalne jest zastanawianie się, jak bardzo różni się ona wraz ze zmianami wielkości próby. W szczególności możemy mieć nadzieję, że w przypadku średnich lub dużych rozmiarów próbek (może n1≥10,n2≥10 lub mniej więcej) wielkość próby nie ma większego znaczenia. W takim przypadku moglibyśmy opracować ilościowy sposób powiązania α′ z α .
Takie podejście okazuje się skuteczne, pod warunkiem, że rozmiary próbek nie różnią się zbytnio od siebie. W duchu prostoty przedstawię formułę omnibus do obliczania rozmiaru testu α′ odpowiadającego rozmiarowi przedziału ufności α . To jest
α′≈eα1.91;
to jest,
α′≈exp(1+1.91log(α)).
Ta formuła działa dość dobrze w następujących typowych sytuacjach:
Obie wielkości próbek są blisko siebie, n1≈n2 , a α nie jest zbyt ekstremalne ( α>.001 lub więcej).
Wielkość jednej próbki jest w przybliżeniu trzy razy większa od drugiej, a najmniejsza nie jest zbyt mała (z grubsza, większa niż 10 ) i znowu α nie jest zbyt ekstremalna.
Wielkość jednej próbki jest trzy razy większa od drugiej, a α>.02 lub mniej więcej.
Tutaj wykreślono błąd względny (poprawna wartość podzielona przez przybliżenie) w pierwszej sytuacji, przy czym dolna (niebieska) linia pokazuje przypadek n1=n2=2 , środkowa (czerwona) linia przypadek n1=n2=5 , a górna (złota) linia w przypadku n1=n2=∞ . Interpolując między tymi dwoma ostatnimi, widzimy, że aproksymacja jest doskonała dla szerokiego zakresu praktycznych wartości α gdy wielkości próbek są umiarkowane (około 5-50), a poza tym jest dość dobra.
Jest to więcej niż wystarczające do spojrzenia na przedziały ufności.
2α2eα1.91
2α
2α 2α′
0,05 0,005
0,01 0,0002
0,005 0,00006
2α=.05p<.005n.0037n=2.0056n=∞
Ten wynik uzasadnia (i mam nadzieję, że poprawi się) odpowiedź @John. Tak więc, chociaż poprzednie odpowiedzi wydają się być w konflikcie, obie są (na swój sposób) poprawne.
Przy typowych założeniach równej wariancji, tak, istnieje związek. Jeśli słupki nachodzą na siebie o mniej niż długość jednego słupka * sqrt (2), wówczas test t wykazałby, że różnią się one znacznie przy alfa = 0,05. Jeśli końce słupków ledwo się dotykają, różnica byłaby na poziomie 0,01. Jeśli przedziały ufności dla grup nie są równe, zwykle przyjmuje się średnią i stosuje tę samą zasadę.
Alternatywnie, jeśli szerokość przedziału ufności wokół jednego ze średnich jest w, to najmniej znaczącą różnicą między dwiema wartościami jest w * sqrt (2). Jest to proste, gdy myślisz o mianowniku w niezależnym teście grupowym sqrt (2 * MSE / n) i współczynniku CI, który sqrt (MSE / n).
(Przyjęto 95% CI)
Jest to prosty papier na wnioskowaniu z przedziałów ufności wokół niezależnych środków tutaj . Odpowie na to pytanie i wiele innych powiązanych z tym pytań.
Cumming, G., i Finch, S. (2005, marzec). Wnioskowanie wzrokowe: przedziały ufności i sposób odczytywania zdjęć danych. Amerykański psycholog , 60 (2), 170-180.
źródło