Badając dwie niezależne próbki, powiedziano nam, że patrzymy na „różnicę dwóch średnich”. Oznacza to, że bierzemy średnią z populacji 1 ( ) i odejmujemy od niej średnią z populacji 2 ( ). Nasza „różnica dwóch średnich” to ( - ).
Badając sparowane próbki, powiedziano nam, że patrzymy na „średnią różnicę”, . Oblicza się to, biorąc różnicę między każdą parą, a następnie biorąc średnią wszystkich tych różnic.
Moje pytanie brzmi: czy otrzymamy to samo ( - ) w porównaniu do jego jeśli obliczymy je z dwóch kolumn danych, a za pierwszym razem uznamy to za dwie niezależne próbki, a za drugim razem uznamy za sparowane dane? Bawiłem się dwiema kolumnami danych i wydaje się, że wartości są takie same! Czy w takim przypadku można powiedzieć, że różne nazwy są używane tylko z przyczyn nieilościowych?
źródło
Odpowiedzi:
(Zakładam, że masz na myśli „próbka”, a nie „populacja” w pierwszym akapicie).
Równoważność łatwo wykazać matematycznie. Zacznij od dwóch próbek o równej wielkości: i . Następnie zdefiniuj{x1, ... ,xn} {y1, ... ,yn}
Następnie masz:
źródło
rozkład średniej różnicy powinien być węższy niż rozkład różnicy średnich. Zobacz to na prostym przykładzie: średnia w próbce 1: 1 10 100 1000 średnia w próbce 2: 2 11 102 1000 różnica średnich wynosi 1 1 2 0 (w przeciwieństwie do samych próbek) ma mały standard.
źródło