To jest pytanie czysto hipotetyczne. Bardzo częstym stwierdzeniem jest to, że nigdy nie jest prawdziwe, to tylko kwestia wielkości próbki.
Przejdźmy przyjąć, że prawdziwe jest to absolutnie nie mierzalna różnica między dwoma sposobami ( ) pochodzą z populacji o rozkładzie normalnym (zarówno i oszacowano ). Przyjmujemy na grupę i stosujemy test . Oznaczałoby to, że wartość wynosi co oznacza, że absolutnie nie ma rozbieżności względem . Oznaczałoby to, że statystyka testu wynosi . Średnia różnica między grupami wynosiłaby . Jakie byłyby granice przedziału ufności dla średniej różnicy w tym przypadku? Czy oni by byli ?
Najważniejsze w moim pytaniu było to, kiedy naprawdę możemy powiedzieć, że jest prawdą, tj. w tym przypadku? A może w trybie częstokrzyskim możemy naprawdę powiedzieć „bez różnicy”, porównując dwa sposoby?
źródło
Odpowiedzi:
Przedział ufności dla t-test jest w postacix¯1- x¯2)± tkryt , αsx¯1- x¯2) , w którym x¯1 i x¯2) są środki pomiarowe, tkryt , α jest wartością krytyczną t dla danego α , a sx¯1- x¯2) jest błędem standardowym różnicy średnich. Jeślip = 1,0 , a następniex¯1- x¯2)= 0 . Tak więc wzór jest tylko± tkryt , αsx¯1- x¯2) i ograniczenia tylko {- tkryt , αsx¯1- x¯2) ,tkryt , αsx¯1- x¯2) }.
Nie jestem pewien, dlaczego uważasz, że limity wynoszą{ 0 , 0 } . Krytyczna wartość t nie jest równa zero, a błąd standardowy średniej różnicy nie jest równy zero.
źródło
Będąc super leniwym, używając R, aby rozwiązać problem numerycznie, zamiast wykonywać obliczenia ręcznie:
Zdefiniuj funkcję, która da normalnie rozłożone wartości ze średnią (prawie!) Dokładnie zero i SD dokładnie 1:
Uruchom test t:
Średnie nie są dokładnie zerowe z powodu niedokładności zmiennoprzecinkowej.
Bardziej bezpośrednio, CI są±
sqrt(1/8)*qt(0.975,df=30)
; wariancja każdej średniej wynosi 1/16, więc łączna wariancja wynosi 1/8.źródło
CI może mieć dowolne ograniczenia, ale jest wyśrodkowany dokładnie wokół zera
W przypadku testu T z dwiema próbkami (badanie różnicy w średnich dwóch populacji) wartość p wynosząca dokładnie jedną odpowiada przypadkowi, w którym obserwowane średnie z próbki są dokładnie równe. † (Przykładowe wariancje mogą przyjmować dowolne wartości.) Aby to zobaczyć, zauważ, że funkcja wartości p dla testu to:†
Zatem ustawieniex¯= y¯ daje:
Załóżmy teraz, że tworzysz standardowy (przybliżony) przedział ufności, używając przybliżenia Welch-Satterwaite. W tym przypadku, zakładając, żex¯= y¯ (aby podać dokładną wartość p wynoszącą jeden) daje przedział ufności:
gdzie stopnie swobodyD F. są określone przez przybliżenie Welch-Satterwaite. W zależności od zaobserwowanych wariancji próbki problemu, przedziałem ufności może być dowolny przedział skończony wyśrodkowany wokół zera. Oznacza to, że przedział ufności może mieć dowolne ograniczenia, o ile jest wyśrodkowany dokładnie wokół zera.
źródło
Trudno jest przeprowadzić przekonującą dyskusję filozoficzną na temat rzeczy, które mają 0 prawdopodobieństwa. Pokażę więc kilka przykładów dotyczących twojego pytania.
Jeśli masz dwie ogromne niezależne próbki z tego samego rozkładu, wówczas obie próbki będą nadal miały pewną zmienność, połączona statystyka t dla 2 próbek będzie bliska, ale nie dokładnie 0, wartość P zostanie rozdzielona jakoU n i f( 0 , 1 ) , a przedział ufności 95% będzie bardzo krótki i wyśrodkowany bardzo blisko 0.
Przykład jednego takiego zestawu danych i testu t:
Oto podsumowane wyniki z 10 000 takich sytuacji. Po pierwsze, rozkład wartości P.
Następnie statystyki testu:
I tak dalej dla szerokości CI.
Niemożliwe jest uzyskanie wartości P jedności, wykonując dokładny test z ciągłymi danymi, w których spełnione są założenia. Do tego stopnia, że mądry statystyk rozważy, co mogło pójść nie tak po zobaczeniu wartości P wynoszącej 1.
Na przykład możesz podać oprogramowaniu dwie identyczne duże próbki. Programowanie będzie przebiegać tak, jakby były to dwie niezależne próbki i dały dziwne wyniki. Ale nawet wtedy CI nie będzie miało szerokości 0.
źródło
Prosta odpowiedź (+1 do Noah) wyjaśni, że przedział ufności dla średniej różnicy może nadal mieć niezerową długość, ponieważ zależy to od obserwowanej zmienności w próbce w inny sposób niż wartość p.
Jednak nadal możesz się zastanawiać, dlaczego tak jest. Ponieważ nie jest tak dziwne wyobrażenie sobie, że wysoka wartość p oznacza również mały przedział ufności. W końcu oba odpowiadają coś, co jest bliskie potwierdzeniu hipotezy zerowej. Dlaczego więc ta myśl nie jest poprawna?
Wysoka wartość p nie jest tym samym co mały przedział ufności.
Wartość p jest wskaźnikiem tego, jak ekstremalna jest konkretna obserwacja (skrajność przy pewnej hipotezie), wyrażając, jak prawdopodobne jest zaobserwowanie danego odchylenia. Jest to wyraz wielkości obserwowanego efektu w stosunku do dokładności eksperymentu (duża obserwowana wielkość efektu może nie mieć większego znaczenia, gdy eksperyment jest tak „niedokładny”, że obserwacje te nie są ekstremalne z statystycznego / probabilistycznego punktu widzenia ). Kiedy obserwujemy p-wartość 1 to ten (tylko) oznacza, że obserwowane zerowy efekt, ponieważ prawdopodobieństwo obserwować taki wynik zerowy lub większy jest równa 1 (ale to nie jest taka sama, jak tam jest zerowy efekt).
Sidenote: Dlaczego wartości p? Wartość p wyraża rzeczywistą wielkość obserwowanego efektu w stosunku do oczekiwanych wielkości efektu (prawdopodobieństwa). Jest to istotne, ponieważ eksperymenty z założenia mogą generować obserwacje o pewnym istotnym rozmiarze efektu przez czysty przypadek ze względu na częste fluktuacje danych / obserwacji. Wymaganie, aby obserwacja / eksperyment miała niską wartość p oznacza, że eksperyment ma wysoką precyzję - to znaczy: obserwowany rozmiar efektu jest rzadziej / prawdopodobny z powodu szansy / fluktuacji (i może być prawdopodobny z powodu prawdziwego efektu) .
Należy zauważyć, że wysoka wartość p nie jest (koniecznie) dowodem / wsparciem / czymkolwiek dla hipotezy zerowej. Wysoka wartość p oznacza jedynie, że obserwacja nie jest niezwykła / ekstremalna dla danej hipotezy zerowej, ale równie dobrze może tak być w przypadku hipotezy alternatywnej (tj. Wynik jest zgodny z obiema hipotezami efekt tak / nie). Zwykle ma to miejsce, gdy dane nie przenoszą dużej ilości informacji (np. Wysoki hałas lub mała próbka).
źródło
Nie, ponieważ „brak dowodów nie jest dowodem nieobecności”. Prawdopodobieństwo można traktować jako rozszerzenie logiki z dodatkowymi niepewnościami, więc wyobraź sobie przez chwilę, że zamiast liczb rzeczywistych w jednostkowych odstępach test hipotezy zwróci tylko wartości binarne: 0 (fałsz) lub 1 (prawda). W takim przypadku obowiązują podstawowe zasady logiki, jak w poniższym przykładzie :
źródło
Nic nie stoi na przeszkodzie, aby używać standardowych formuł t lub Gaussa do obliczania przedziału ufności - wszystkie potrzebne informacje są podane w pytaniu. p = 1 nie oznacza, że coś jest z tym nie tak. Zauważ, że p = 1 nie oznacza, że możesz być szczególnie pewien, że H0 jest prawdziwe. Przypadkowa zmienność jest nadal obecna i jeśli u0 = u1 może wystąpić pod H0, może się również zdarzyć, jeśli prawdziwa wartość u0 różni się nieznacznie od prawdziwej u1, więc w przedziale ufności będzie więcej niż tylko równość.
źródło
Nie wśród ludzi, którzy wiedzą o czym mówią i mówią dokładnie. Tradycyjne testowanie hipotez nigdy konkluduje , że zerowa jest prawdziwa, ale czy zerowa jest prawdziwa, czy nie jest niezależny od tego, czy wartość null jest zawarta prawda.
W przypadku testu dwustronnego tak.
źródło