Jak interpretować i zgłaszać eta kwadrat / częściowy eta kwadrat w statystycznie istotnych i nieistotnych analizach?

39

Mam dane, które mają wartości eta do kwadratu i częściowe wartości eta do kwadratu obliczone jako miara wielkości efektu dla średnich różnic w grupie.

  • Jaka jest różnica między eta kwadratem a częściowym eta kwadratem? Czy można je interpretować przy użyciu tych samych wytycznych Cohena (Myślę, że 1988: 0,01 = mały, 0,06 = średni, 0,13 = duży)?

  • Czy ma również zastosowanie w raportowaniu wielkości efektu, jeśli test porównawczy (tj. Test t lub jednokierunkowa ANOVA) jest nieistotny? W mojej głowie jest to jak powiedzenie „średnia różnica nie osiągnęła istotności statystycznej, ale nadal jest szczególnie ważna, ponieważ wielkość efektu wskazana z kwadratu eta jest średnia”. A może rozmiar efektu jest wartością zastępczą dla testu istotności, a nie komplementarną?

Krótka Elizabeth
źródło
W rzeczywistości SPSS oblicza częściowy kwadrat eta dla wszystkich ANOVA. To da tę samą wartość, co eta do kwadratu w pojedynczych projektach IV Niezależnych Grup, ale inną wartość w projektach pojedynczych IV powtarzanych pomiarów. To nie powoduje końca problemów z moimi uczniami.

Odpowiedzi:

43

Wielkości efektów dla średnich różnic grupowych

  • Zasadniczo uważam, że znormalizowane różnice średnich grup (np. D Cohena) są bardziej znaczącą miarą wielkości efektu w kontekście różnic grupowych. Na miary takie jak kwadrat eta ma wpływ to, czy wielkości próbek w grupie są równe, podczas gdy d Cohena nie jest. Myślę również, że znaczenie miar opartych na literach d jest bardziej intuicyjne, gdy to, co próbujesz skwantyfikować, jest różnicą między środkami grupowymi.
  • Powyższy punkt jest szczególnie silny w przypadku, gdy masz tylko dwie grupy (np. Efekt leczenia w porównaniu z kontrolą). Jeśli masz więcej niż dwie grupy, sytuacja jest nieco bardziej skomplikowana. Widzę argument wyjaśniający wariancję w tym przypadku. Alternatywnie, Cohenaf2 jest inną opcją.
  • Trzecią opcją jest to, że w kontekście efektów eksperymentalnych, nawet jeśli istnieją więcej niż dwie grupy, pojęcie efektu najlepiej konceptualizować jako porównanie binarne (tj. Efekt jednego warunku względem drugiego). W takim przypadku możesz ponownie powrócić do miar opartych na D. Miara oparta na d nie jest miarą wielkości efektu dla współczynnika, ale raczej jednej grupy względem grupy odniesienia. Kluczem jest zdefiniowanie znaczącej grupy referencyjnej.
  • Na koniec ważne jest, aby pamiętać o szerszym celu uwzględnienia miar wielkości efektu. Ma to dać czytelnikowi poczucie wielkości efektu zainteresowania. Każda znormalizowana miara skuteczności powinna pomóc czytelnikowi w tym zadaniu. Jeśli zmienna zależna znajduje się w naturalnie znaczącej skali, nie wahaj się interpretować wielkości efektu w kategoriach tej skali. Np. Skale takie jak czas reakcji, wynagrodzenie, wzrost, waga itp. Są z natury znaczące. Jeśli okaże się, jak ja, eta do kwadratu, że jest trochę nieintuicyjny w kontekście efektów eksperymentalnych, to może wybierz inny indeks.

Eta do kwadratu vs. częściowe eta do kwadratu

  • Częściowe podniesienie do kwadratu jest domyślną miarą wielkości efektu zgłoszoną w kilku procedurach ANOVA w SPSS. Zakładam, że dlatego często otrzymuję pytania na ten temat.
  • Jeśli masz tylko jedną zmienną predykcyjną, to częściowe eta do kwadratu jest równoważne eta do kwadratu.
  • W tym artykule wyjaśniono różnicę między eta kwadratem a częściowym eta kwadratem (Levine i Hullett Eta do kwadratu, częściowy do kwadratu Eta .. ).
  • Podsumowując, jeśli masz więcej niż jeden predyktor, częściowy eta do kwadratu to wariancja wyjaśniona przez daną zmienną wariancji pozostałą po wykluczeniu wariancji wyjaśnionej przez inne predyktory.

Podstawowe zasady dla eta do kwadratu i częściowego eta do kwadratu

  • Jeśli masz tylko jeden predyktor, wówczas kwadraty eta i kwadraty częściowe eta są takie same, a zatem obowiązywałyby te same zasady.
  • Jeśli masz więcej niż jeden predyktor, to myślę, że ogólne zasady kciuka dla eta do kwadratu miałyby zastosowanie bardziej do częściowego eta do kwadratu niż do eta do kwadratu. Wynika to z tego, że częściowa eta do kwadratu w czynnikowej ANOVA prawdopodobnie bardziej zbliża się do tego, co byłaby do kwadratu eta dla czynnika, gdyby była to jednostronna ANOVA; i jest to prawdopodobnie jednokierunkowa ANOVA, która zrodziła podstawowe zasady Cohena. Zasadniczo uwzględnienie innych czynników w projekcie eksperymentalnym powinno zazwyczaj zmniejszać eta do kwadratu, ale niekoniecznie częściowe eta do kwadratu ze względu na fakt, że drugi czynnik, jeśli ma wpływ, zwiększa zmienność zmiennej zależnej.
  • Pomimo tego, co mówię o podstawowych zasadach dla kwadratu eta i kwadratu częściowego eta, powtarzam, że nie jestem fanem wariancji wyjaśniających miary wielkości efektu w kontekście interpretacji wielkości i znaczenia efektów eksperymentalnych. Podobnie, ogólne zasady są po prostu szorstkie, zależne od kontekstu i nie należy ich traktować zbyt poważnie.

Rozmiar efektu raportowania w kontekście istotnych i nieistotnych wyników

  • W pewnym sensie celem twoich badań jest oszacowanie różnych oszacowań ilościowych wpływu twoich zmiennych zainteresowania na populację.
  • Rozmiary efektów są jednym kwantyfikacją punktowego oszacowania tego efektu. Im większy jest rozmiar próby, tym bardziej ogólnie rzecz biorąc, szacunek punktu próby będzie odpowiadał rzeczywistemu efektowi populacyjnemu.
  • Mówiąc ogólnie, testowanie istotności ma na celu wykluczenie szansy jako wyjaśnienia twoich wyników. Zatem wartość p mówi o prawdopodobieństwie zaobserwowania wielkości efektu jako lub bardziej ekstremalnej, przy założeniu, że hipoteza zerowa była prawdziwa.
  • Ostatecznie chcesz wykluczyć efekt i chcesz powiedzieć coś o wielkości prawdziwego efektu populacji. Przedziały ufności i przedziały wiarygodności wokół wielkości efektu to dwa podejścia, które podchodzą do tego problemu bardziej bezpośrednio. Jednak zgłaszanie wartości p i punktowych oszacowań wielkości efektu jest dość powszechne i znacznie lepsze niż zgłaszanie samych wartości p lub tylko miar wielkości efektu.
  • Jeśli chodzi o konkretne pytanie, jeśli masz nieistotne wyniki, to Twoja decyzja, czy zgłaszasz miary wielkości efektu. Myślę, że jeśli masz tabelę z wieloma wynikami, wówczas sensowna jest kolumna wielkości efektu, która jest używana niezależnie od znaczenia. Nawet w nieistotnych kontekstach wielkości efektów z przedziałami ufności mogą być pouczające, wskazując, czy nieistotne ustalenia mogą wynikać z nieodpowiedniej wielkości próby.
Jeromy Anglim
źródło
1
Cześć Jeremy - Różnię się od ciebie, gdy mówisz: „częściowa eta podniesiona do kwadratu w czynnikowej ANOVA jest prawdopodobnie bardziej zbliżona do tego, co byłaby eta do kwadratu dla czynnika, gdyby była to jednokierunkowa ANOVA”. W rzeczywistości, eta do kwadratu, jeśli predyktor został użyty sam, może być znacznie większy niż jego częściowy eta do kwadratu w towarzystwie innych predyktorów. W tym drugim przypadku wspólna wariancja wyjaśniona w wyniku nie jest przypisywana do danego predyktora; w pierwszym przypadku nie ma „konkurencji” o wyjaśnioną wariancję, więc predyktor uzyskuje uznanie za każde nakładanie się, które pokazuje z wynikiem.
rolando2
3
@ rolando2 Być może mój punkt był dwuznaczny. Mam na myśli zaprojektowane eksperymenty. Powiedzmy, że eksperyment 1 manipuluje czynnikiem A, a eksperyment 2 A i B. Zakładając, że projekt jest zrównoważony, oba czynniki są ortogonalne. Zakładając, że oba czynniki wyjaśniają wariancję, wariancja wyjaśniona przez czynnik A w eksperymencie 2 będzie mniejsza niż w eksperymencie 1, w którym poziom czynnika B jest utrzymywany na stałym poziomie. Tak więc, porównując eksperymenty czynnikowe z eksperymentami jednoczynnikowymi, myślę, że częściowa kwadrat eta jest bardziej podobna w eksperymentach czynnikowych i jednoczynnikowych, szczególnie jeśli nie ma efektu interakcji.
Jeromy Anglim