Zdjęcie poniżej pochodzi z tego artykułu w Psychological Science . Kolega wskazał na dwie niezwykłe rzeczy:
- Zgodnie z podpisem paski błędów pokazują „błędy standardowe ± 2,04, przedział ufności 95%”. Widziałem tylko ± 1,96 SE używanego dla 95% CI i nie mogę znaleźć niczego na temat używania 2.04 SE do jakiegokolwiek celu. Czy 2.04 SE ma jakieś zaakceptowane znaczenie ?
- Tekst stwierdza, że w planowanych porównaniach par stwierdzono znaczące różnice w średniej wielkości zaskakującego błędu w porównaniu z poprawnymi przewidywalnymi próbami (t (30) = 2,51, p <0,01) i błędu w porównaniu z poprawnymi nieprzewidywalnymi próbami (t (30) = 2,61, p <.01) (test Omnibus F był również istotny przy p <.05). Jednak wykres pokazuje słupki błędów dla wszystkich trzech warunków pokrywających się zasadniczo. Jeśli przedziały ± 2,04 SE nakładają się, jak wartości mogą się znacznie różnić przy p <0,05? Nakładanie jest na tyle duże, że zakładam, że przedziały ± 1,96 SE również się pokrywają.
confidence-interval
standard-error
ośmiornica
źródło
źródło
Odpowiedzi:
Środki są porównywane pod względem standardowych błędów . Standardowy błąd to zwykle1 /n--√ razy odchylenie standardowe, gdzie n (prawdopodobnie w pobliżu 30 + 1 = 31 tutaj) to wielkość próbki. Jeśli podpis jest poprawny w nazywaniu tych słupków „błędami standardowymi”, wówczas odchylenia standardowe muszą wynosić co najmniej31--√≈ 5.5 razy większe niż wartości około 6 jak pokazano. Zbiór danych31 wartości dodatnie ze standardowym odchyleniem wynoszącym 6 × 5,5 = 33 i średnia pomiędzy 14 i 18 musiałby mieć większość wartości w pobliżu 0 i niewielka liczba dużych wartości, co wydaje się dość mało prawdopodobne. (Gdyby tak było, to i tak cała analiza oparta na statystykach Studenta t byłaby i tak nieważna). Powinniśmy stwierdzić, że liczba ta prawdopodobnie pokazuje odchylenia standardowe, a nie standardowe błędy .
Porównania średnich nie są oparte na nakładaniu się (lub jego braku) przedziałów ufności. Dwa 95% CI mogą się pokrywać, ale nadal mogą wskazywać na bardzo znaczące różnice. Powodem jest to, że błąd standardowy różnicy w ( niezależnych ) środkach jest co najmniej w przybliżeniu pierwiastkiem kwadratowym sumy kwadratów standardowych błędów średnich. Na przykład, jeśli błąd standardowy średniej14 równa się 1 i błąd standardowy średniej z 17 równa się 1 , a następnie CI pierwszej średniej (używając wielokrotności 2.04 ) będzie rozciągać się od 11,92 do 16.08 i CI drugiego będzie rozciągać się od 14,92 do 19.03 , z dużym nakładaniem się. Niemniej jednak różnica SE będzie równa12)+12)------√≈ 1,41 . Różnica średnich17 - 14 = 3 , jest większy niż 2.04 razy tę wartość: jest znacząca.
Są to porównania parami . Poszczególne wartości mogą wykazywać dużą zmienność, podczas gdy ich różnice mogą być bardzo spójne. Na przykład zestaw par takich jak( 14 , 14.01 ) , ( 15 , 15.01 ) , ( 16 , 16.01 ) , ( 17 , 17.01 ) itd. wykazuje zmienność w każdym elemencie, ale różnice są konsekwentne 0,01 . Chociaż różnica ta jest niewielka w porównaniu z którymkolwiek składnikiem, jej spójność pokazuje, że jest ona statystycznie istotna.
źródło
F(2,60)=5.64, p<.05
), sugeruje, że był to test z powtarzanymi pomiarami, a więc prawdopodobnie również testy post hoc.Częścią zamieszania tutaj jest myląca reprezentacja danych. Wydaje się, że jest to projekt powtarzanych pomiarów, ale słupki błędów są przedziałami ufności określającymi, jak dobrze oszacowano prawdziwą wartość średnią. Podstawowym celem powtarzanych pomiarów jest unikanie gromadzenia wystarczającej ilości danych, aby uzyskać oszacowanie jakości surowej wartości średniej. Dlatego słupki błędów, takie jak te przedstawione, naprawdę nie mają prawie żadnego związku z opowiadaną historią. Efektem jest wartość krytycznego zainteresowania. Aby wykresy podkreślały główny punkt historii, bardziej odpowiednie byłyby wykresy efektów i przedziały ufności.
źródło