Znaczenie standardowych błędów 2.04? Znacząco różne sposoby, kiedy przedziały ufności często się pokrywają?

10

Zdjęcie poniżej pochodzi z tego artykułu w Psychological Science . Kolega wskazał na dwie niezwykłe rzeczy:

  1. Zgodnie z podpisem paski błędów pokazują „błędy standardowe ± 2,04, przedział ufności 95%”. Widziałem tylko ± 1,96 SE używanego dla 95% CI i nie mogę znaleźć niczego na temat używania 2.04 SE do jakiegokolwiek celu. Czy 2.04 SE ma jakieś zaakceptowane znaczenie ?
  2. Tekst stwierdza, że ​​w planowanych porównaniach par stwierdzono znaczące różnice w średniej wielkości zaskakującego błędu w porównaniu z poprawnymi przewidywalnymi próbami (t (30) = 2,51, p <0,01) i błędu w porównaniu z poprawnymi nieprzewidywalnymi próbami (t (30) = 2,61, p <.01) (test Omnibus F był również istotny przy p <.05). Jednak wykres pokazuje słupki błędów dla wszystkich trzech warunków pokrywających się zasadniczo. Jeśli przedziały ± 2,04 SE nakładają się, jak wartości mogą się znacznie różnić przy p <0,05? Nakładanie jest na tyle duże, że zakładam, że przedziały ± 1,96 SE również się pokrywają.

wykres słupkowy pokazujący słupki błędów 2,04 SE

ośmiornica
źródło
1
Świetne odpowiedzi. Chciałbym podkreślić, że (jak już zauważył whuber) porównywanie 95% przedziałów ufności to nie to samo, co przeprowadzanie testów statystycznych na poziomie istotności 0,05. Istnieją oczywiście dokumenty na ten temat. Jeśli przedziały ufności są jedynymi dostępnymi statystykami, Payton i wsp. Sugerują użycie przedziałów 85% dla poziomu istotności 0,05 dla danych Gaussa. Śledzą tutaj swoją pracę .
Martin Berglund,
1
Dzięki, @Martin. Aby zamknąć pętlę: chociaż nie spojrzałem na artykuł Paytona i in. , Podstawa dla 85% jest jasna: wartość z odpowiadająca 84%, gdy jest kwadrat , równa się2); dodanie dwóch z nich daje4; jego pierwiastek kwadratowy to2), czyli w przybliżeniu wartość Z odpowiadająca przedziałowi 95%. Podejrzewam, że Payton zaokrąglił 84% do 85%. Innymi słowy, ich zalecenie (jakkolwiek zostało wyprowadzone) można wyjaśnić tą samą analizą, którą przedstawiłem.
whuber
@MartinBerglund i whuber natknąłem się na twoje odpowiedzi, zastanawiając się, czy moje niezależne obliczenie 83,4% przedziałów ufności dla przeprowadzenia testów statystycznych na poziomie 0,05 było oryginalne - oczywiście nie! Dzięki za referencje w formie papierowej, bardzo pomocne.
Tristan

Odpowiedzi:

11
  1. 2.04to mnożnik używany z rozkładem t Studenta o 31 stopniach swobody. Cytaty sugerują30 stopni swobody jest odpowiedni, w którym to przypadku prawidłowy mnożnik jest 2.0422722.04.

  2. Środki są porównywane pod względem standardowych błędów . Standardowy błąd to zwykle1/n razy odchylenie standardowe, gdzie n (prawdopodobnie w pobliżu 30+1=31tutaj) to wielkość próbki. Jeśli podpis jest poprawny w nazywaniu tych słupków „błędami standardowymi”, wówczas odchylenia standardowe muszą wynosić co najmniej315.5 razy większe niż wartości około 6jak pokazano. Zbiór danych31 wartości dodatnie ze standardowym odchyleniem wynoszącym 6×5.5=33 i średnia pomiędzy 14 i 18 musiałby mieć większość wartości w pobliżu 0i niewielka liczba dużych wartości, co wydaje się dość mało prawdopodobne. (Gdyby tak było, to i tak cała analiza oparta na statystykach Studenta t byłaby i tak nieważna). Powinniśmy stwierdzić, że liczba ta prawdopodobnie pokazuje odchylenia standardowe, a nie standardowe błędy .

  3. Porównania średnich nie są oparte na nakładaniu się (lub jego braku) przedziałów ufności. Dwa 95% CI mogą się pokrywać, ale nadal mogą wskazywać na bardzo znaczące różnice. Powodem jest to, że błąd standardowy różnicy w ( niezależnych ) środkach jest co najmniej w przybliżeniu pierwiastkiem kwadratowym sumy kwadratów standardowych błędów średnich. Na przykład, jeśli błąd standardowy średniej14 równa się 1 i błąd standardowy średniej z 17 równa się 1, a następnie CI pierwszej średniej (używając wielokrotności 2.04) będzie rozciągać się od 11,92 do 16.08 i CI drugiego będzie rozciągać się od 14,92 do 19.03, z dużym nakładaniem się. Niemniej jednak różnica SE będzie równa12)+12)1.41. Różnica średnich17-14=3), jest większy niż 2.04 razy tę wartość: jest znacząca.

  4. Są to porównania parami . Poszczególne wartości mogą wykazywać dużą zmienność, podczas gdy ich różnice mogą być bardzo spójne. Na przykład zestaw par takich jak(14,14.01), (15,15.01), (16,16.01), (17,17.01)itd. wykazuje zmienność w każdym elemencie, ale różnice są konsekwentne 0,01. Chociaż różnica ta jest niewielka w porównaniu z którymkolwiek składnikiem, jej spójność pokazuje, że jest ona statystycznie istotna.

Whuber
źródło
Wielkie dzięki. W artykule nie stwierdzono nigdzie, że testy post-hoc były parami porównań między odpowiedziami każdego uczestnika na dwa rodzaje badań, więc doszedłem do wniosku, że traktują to jako porównanie między badanymi (nawet jeśli byłoby to mniej odpowiednie i słabsze). Myślę, że musisz mieć rację, a oni wykonywali bardziej czuły (i trudniejszy do wykreślenia) test. Jeśli chodzi o punkt # 3, moją jedyną odpowiedzią jest to, że wyraźnie potrzebuję ponownie nauczyć się statystyk ...
ósmego
Podchwyciłem zdanie w twoim pytaniu: „planowane porównania parami”. Reszta cytowanych przez ciebie wyników sugeruje jednak, że nie były to porównania parami, ale bardziej prawdopodobne były wyniki obliczeń podobnych do tych z punktu 3 mojej odpowiedzi.
whuber
Miałem na myśli to, że robili testy post-hoc, porównując bezpośrednio dwa z trzech warunków, zamiast przeprowadzać test omnibus, który porównywał wszystkie 3 warunki. Przepraszam za zamieszanie. Ale teraz, kiedy na to patrzę, myślę, że i tak miałeś rację. Sposób, w jaki zgłaszają statystyki testu zbiorczego ( F(2,60)=5.64, p<.05), sugeruje, że był to test z powtarzanymi pomiarami, a więc prawdopodobnie również testy post hoc.
octern
Dziękuję za wspaniałą odpowiedź. „Powodem jest to, że błąd standardowy różnicy w (niezależnych) środkach jest co najmniej w przybliżeniu pierwiastkiem kwadratowym sumy kwadratów standardowych błędów średnich”. Szukam referencji, które to omawiają, ale nie znalazłem. Byłbym wdzięczny za pewne wskazówki w tym zakresie. Może ktoś mógłby mi pomóc?
Johannes
@Johannes Kwadrat SE jest proporcjonalny do wariancji średniej próbki. (Stała proporcjonalności zależy od definicji i może nieznacznie różnić się w zależności od wielkości próby). Niezależność oznacza, że ​​wariancja rozkładu próbkowania różnicy średnich jest sumą kwadratów SE.
whuber
3

Częścią zamieszania tutaj jest myląca reprezentacja danych. Wydaje się, że jest to projekt powtarzanych pomiarów, ale słupki błędów są przedziałami ufności określającymi, jak dobrze oszacowano prawdziwą wartość średnią. Podstawowym celem powtarzanych pomiarów jest unikanie gromadzenia wystarczającej ilości danych, aby uzyskać oszacowanie jakości surowej wartości średniej. Dlatego słupki błędów, takie jak te przedstawione, naprawdę nie mają prawie żadnego związku z opowiadaną historią. Efektem jest wartość krytycznego zainteresowania. Aby wykresy podkreślały główny punkt historii, bardziej odpowiednie byłyby wykresy efektów i przedziały ufności.

Jan
źródło
Dziękuję Ci! Próbowałem trochę wyrazić, dlaczego wykres wydaje się, że nie reprezentuje analizy.
octern