Obecnie kończę pracę i natknąłem się na to pytanie z wczoraj, które skłoniło mnie do postawienia sobie tego samego pytania. Czy lepiej jest podać mojemu wykresowi rzeczywisty błąd standardowy z danych lub ten oszacowany na podstawie mojej ANOVA?
Ponieważ pytanie z wczoraj było raczej niespecyficzne, a moje dość specyficzne, pomyślałem, że właściwe byłoby postawienie tego pytania uzupełniającego.
Szczegóły:
Przeprowadziłem eksperyment w pewnej dziedzinie psychologii poznawczej (rozumowanie warunkowe), porównując dwie grupy (instrukcje indukcyjne i dedukcyjne, tj. Manipulacja między podmiotami) z dwiema manipulacjami wewnątrz podmiotowymi (typ problemu i treść problemu, każda z dwa poziomy czynników).
Wyniki wyglądają tak (lewy panel z oszacowaniami SE z wyjścia ANOVA, prawy panel z oszacowaniami SE na podstawie danych):
Zauważ, że różne linie reprezentują dwie różne grupy (tj. Manipulację między podmiotami) i wewnątrz- manipulacje badanych są wykreślane na osi x (tj. poziomy współczynnika 2x2).
W tekście podaję odpowiednie wyniki ANOVA, a nawet planowane porównania krytycznej interakcji krzyżowej w środku. SE mają na celu dać czytelnikowi wskazówkę na temat zmienności danych. Wolę SE od standardowych odchyleń i przedziałów ufności, ponieważ wykreślanie SD nie jest powszechne i występują poważne problemy przy porównywaniu CI między badanymi i pomiędzy nimi (podobnie jak w przypadku SE, nie jest tak często fałszywe wnioskowanie znaczących różnic od nich).
Powtarzając moje pytanie: czy lepiej wykreślić SE obliczone na podstawie ANOVA, czy powinienem wykreślić SE obliczone na podstawie surowych danych?
Aktualizacja:
Myślę, że powinienem być nieco jaśniejszy w szacunkach SE. Dane wyjściowe ANOVA w SPSS dają mi estimated marginal means
odpowiednie SE i CI. To jest przedstawione na lewym wykresie. O ile rozumiem, powinny to być SD pozostałych. Ale podczas zapisywania resztek ich SD nie są w jakiś sposób bliskie oszacowanym SE. Tak więc drugorzędnym (potencjalnie specyficznym dla SPSS) pytaniem byłoby:
Co to są SE?
AKTUALIZACJA 2: W końcu udało mi się napisać funkcję R, która powinna być w stanie stworzyć wykres, ponieważ w końcu mi się podobało (zobacz moją zaakceptowaną odpowiedź) samodzielnie. Jeśli ktoś ma czas, byłbym bardzo wdzięczny, gdybyś mógł na niego spojrzeć. Oto jest.
Odpowiedzi:
W wyniku inspirujących odpowiedzi i dyskusji na moje pytanie skonstruowałem następujące wykresy, które nie opierają się na żadnych parametrach opartych na modelu, ale przedstawiają podstawowe dane.
Powody są takie, że niezależnie od tego, jaki rodzaj błędu standardu mogę wybrać, błąd standardowy jest parametrem opartym na modelu. Dlaczego więc nie przedstawić podstawowych danych i tym samym przekazać więcej informacji?
Ponadto, wybierając SE z ANOVA, pojawiają się dwa problemy dla moich konkretnych problemów.
Po pierwsze (przynajmniej dla mnie) niejasne jest, czym tak
SPSS
naprawdę są SE z ANOVA Output ( patrz także ta dyskusja w komentarzach ). Są one w jakiś sposób powiązane z MSE, ale dokładnie nie wiem.Po drugie, są one uzasadnione tylko wtedy, gdy spełnione są podstawowe założenia. Jednak, jak pokazują poniższe wykresy, założenia jednorodności wariancji są wyraźnie naruszone.
Wykresy z wykresami pudełkowymi:
Wykresy ze wszystkimi punktami danych:
Zauważ, że dwie grupy są przesunięte nieco w lewo lub w prawo: dedukcyjne w lewo, indukcyjne w prawo. Środki są nadal wykreślane na czarno, a dane lub wykresy w tle na szaro. Różnice między wykresami po lewej i po prawej stronie są takie, że środki są przemieszczane tak samo jak punkty lub wykresy pudełkowe lub jeśli są prezentowane centralnie.
Przepraszamy za nieoptymalną jakość wykresów i brakujące etykiety osi X.
Pozostaje pytanie, który z powyższych wątków wybrać teraz. Muszę o tym pomyśleć i zapytać innego autora naszego artykułu. Ale teraz wolę „przemieszczenie środków”. Nadal byłbym bardzo zainteresowany komentarzami.
Aktualizacja: Po pewnym programowaniu w końcu udało mi się napisać funkcję R, aby automatycznie utworzyć wykres podobny do punktów ze środkami przemieszczonymi. Sprawdź to (i wyślij mi komentarze) !
źródło
W tego rodzaju projektach eksperymentalnych nie znajdziesz pojedynczego rozsądnego paska błędów do celów wnioskowania. Jest to stary problem bez jasnego rozwiązania.
Wydaje się niemożliwe, aby oszacować SE, które tu masz. Istnieją dwa główne rodzaje błędów w takim projekcie, błąd pomiędzy i wewnątrz S. Zazwyczaj bardzo się od siebie różnią i nie są porównywalne. Po prostu naprawdę nie ma dobrego pojedynczego paska błędu, który reprezentowałby twoje dane.
Można argumentować, że surowe SE lub SD z danych są najważniejsze w sensie opisowym, a nie wnioskującym. Opowiadają o jakości centralnego oszacowania tendencji (SE) lub o zmienności danych (SD). Jednak nawet wtedy jest to nieco nieuczciwe, ponieważ rzecz, którą testujesz i mierzysz w obrębie S, nie jest tą surową wartością, ale raczej efektem zmiennej wewnątrz S. Dlatego zgłaszanie zmienności wartości surowych jest albo pozbawione znaczenia, albo wprowadza w błąd w odniesieniu do efektów w obrębie S.
Zazwyczaj nie popierałem żadnych słupków błędów na takich wykresach i sąsiednich wykresach efektów wskazujących na zmienność efektów. Na tym wykresie można mieć CI, które są całkowicie rozsądne. Zobacz Masson i Loftus (2003), aby zobaczyć przykłady wykresów efektów. Po prostu wyeliminuj ich ((prawie całkowicie bezużyteczne) paski błędów wokół wyświetlanych średnich wartości i po prostu użyj pasków błędu efektu.
Do twojego badania najpierw zastąpiłbym dane jako projekt 2 x 2 x 2 (2-panelowy 2x2), a następnie narysowałem bezpośrednio obok wykresu z przedziałami ufności dla ważności, wiarygodności, instrukcji i efektów interakcji. Umieść SD i SE dla grup instrukcji w tabeli lub w tekście.
(oczekiwanie na oczekiwaną odpowiedź analizy mieszanych efektów;))
AKTUALIZACJA: OK, po edycji jest jasne, że jedyną rzeczą, jakiej chcesz, jest SE, aby pokazać jakość oszacowania wartości. W takim przypadku użyj wartości swojego modelu. Obie wartości są oparte na modelu i nie ma „prawdziwej” wartości w próbie. Użyj tych z modelu, który zastosowałeś do swoich danych. ALE, upewnij się, że ostrzegasz czytelników w podpisie ryciny, że te SE nie mają żadnej wartości wnioskowania dla twoich efektów S lub interakcji.
AKTUALIZACJA 2: Patrząc wstecz na dane, które przedstawiłeś ... które wyglądają podejrzanie jak odsetki, których nie powinno się analizować za pomocą ANOVA. Niezależnie od tego, czy jest, czy nie, jest to zmienna, która ma maksimum przy 100 i ma zmniejszone wariancje w skrajnościach, więc nadal nie powinna być analizowana za pomocą ANOVA. Bardzo podobają mi się twoje działki rm.plot. Nadal kusiłbym, aby robić osobne wykresy między warunkami, pokazując surowe dane, oraz w warunkach pokazujących dane z usuniętą zmiennością S.
źródło
To wygląda na bardzo fajny eksperyment, więc gratuluję!
Zgadzam się z Johnem Christie, jest to model mieszany, ale pod warunkiem, że można go dokładnie określić w projekcie ANOVA (i jest zrównoważony), nie rozumiem, dlaczego nie można go tak sformułować. Dwa czynniki wewnątrz i 1 czynnik między podmiotami, ale czynnik między podmiotami (indukcyjny / dedukcyjny) wyraźnie oddziałuje (modyfikuje) efekty wewnątrz osobników. Zakładam, że wykreślone średnie pochodzą z modelu ANOVA (LHS), więc model został poprawnie określony. Dobra robota - to nie jest trywialne!
Niektóre punkty: 1) „Szacowany” a „rzeczywisty” „błąd” jest fałszywą dychotomią. Oba zakładają model podstawowy i na tej podstawie dokonują szacunków. Jeśli model jest rozsądny, argumentowałbym, że lepiej jest użyć szacunków opartych na modelu (opierają się one na łączeniu większych próbek). Ale, jak wspomina James, błędy różnią się w zależności od dokonanego porównania, więc nie jest możliwe proste przedstawienie.
2) Wolałbym widzieć wykresy ramkowe lub pojedyncze punkty danych (jeśli nie ma ich zbyt wiele), być może z pewnym drżeniem bocznym, więc można wyróżnić punkty o tej samej wartości.
http://en.wikipedia.org/wiki/Box_plot
3) Jeśli musisz wykreślić oszacowanie błędu średniej, nigdy nie wykreśl SD - są one szacunkiem standardowego odchylenia próby i odnoszą się do zmienności populacji, a nie statystycznego porównania średnich. Na ogół lepiej jest wykreślić 95% przedziały ufności niż SE, ale nie w tym przypadku (patrz 1 i punkt Johna)
4) Jedyny problem z tymi danymi, który mnie niepokoi, to założenie o jednolitej wariancji, które prawdopodobnie zostało naruszone, ponieważ dane „Ważne i wiarygodne” są wyraźnie ograniczone przez limit 100%, szczególnie dla osób dedukcyjnych. Przypominam sobie, jak ważna jest ta kwestia. Przejście do logitu efektów mieszanych (prawdopodobieństwo dwumianowe) jest prawdopodobnie idealnym rozwiązaniem, ale jest trudne. Najlepiej byłoby pozwolić innym odpowiedzieć.
źródło
Ostatnio korzystam z analizy efektów mieszanych, a próbując opracować towarzyszącą metodę analizy danych wizualnych, używałem ładowania początkowego ( patrz mój opis tutaj ), który zapewnia przedziały ufności, które nie są podatne na problemy wewnątrz i pomiędzy konwencjonalnych CI.
Poza tym unikałbym mapowania wielu zmiennych do tej samej estetyki wizualnej, jak to zrobiłeś na powyższym wykresie; masz 3 zmienne (MP / AC, poprawne / nieprawidłowe, wiarygodne / niewiarygodne) mapowane na oś x, co utrudnia analizowanie projektu i wzorców. Sugerowałbym zamiast tego mapowanie, powiedzmy, MP / AC na oś x, prawidłowe / nieprawidłowe na kolumny aspektów i wiarygodne / niewiarygodne na rzędy aspektów. Sprawdź ggplot2 w R, aby łatwo to osiągnąć, np .:
źródło