Jakie statystyki opisowe nie są wielkościami efektów?

12

Wikipedia mówi

wielkość efektu jest miarą siły zjawiska lub oszacowaniem tej wielkości na podstawie próby. Wielkość efektu obliczona na podstawie danych jest statystyką opisową, która przekazuje szacunkową wielkość związku bez stwierdzenia, czy pozorny związek w danych odzwierciedla prawdziwy związek w populacji.

Aby to lepiej zrozumieć, zastanawiałem się, jakie statystyki opisowe nie są wielkością efektu, z wyjątkiem wykresów i wykresów.

Tim
źródło
Wykresy i wykresy mogą być naprawdę świetne do mierzenia wielkości efektu w bardziej intuicyjny sposób niż miary wielkości efektu. Jeśli faktycznie widzisz nakładanie się dwóch grup na niektóre miary (co w przybliżeniu odpowiadałoby mniejszej wartości d ), być może łatwiej jest zrozumieć, że znacząca różnica nie oznacza, że ​​wszyscy członkowie jednej grupy mają niższe wyniki niż członkowie drugiej grupy , itp.
Gala

Odpowiedzi:

18

Rozmiary efektów

  • Wspólne znormalizowane rozmiary efektów zazwyczaj określają ilościowo stopień lub stopień związku lub efektu. Najpowszechniejszymi miarami wielkości efektu są prawdopodobnie d Cohena, r Pearsona i iloraz szans (szczególnie dla predyktora binarnego).
  • Mniej powszechne miary wielkości efektu:To powiedziawszy, możesz mieć znormalizowane i niestandardowe miary wielkości efektu. Każda statystyka, która komunikuje stopień zależności i nie jest szczególnie zanieczyszczona wielkością próbki, jest prawdopodobnie miarą wielkości efektu. Tak więc współczynniki Beta, R-kwadrat, kowariancja, surowe średnie różnice między grupami itd. Uwzględniają stopień efektu. To powiedziawszy, uważam, że niektórzy badacze stosują miary wielkości efektu nieco na ślepo i zapominają, że szerszym celem jest dać czytelnikom poczucie stopnia efektu. Dlatego często nie zdają sobie sprawy, że miary takie jak średnie różnice lub współczynniki regresji surowej są w pewnym sensie miarą wielkości efektu. Kolejny przykład ślepego użycia wielkości efektu obejmuje użycie miar wielkości efektu, które nie mają intuicyjnej interpretacji, ale są zalecane w niektórych podręcznikach.

Nie wpływają rozmiary:

  • Większość statystyk testowych nie jest wielkościami efektów. Np. Test chi-kwadrat, test t, test z, test F. Zwiększają się one zarówno wraz ze wzrostem wielkości efektu populacji, jak i ze wzrostem wielkości próby. Pod wieloma względami w ostatnich latach podkreślano cały język wielkości efektów, ponieważ badacze zbytnio skupiali się na tym, jak duże były ich statystyki testowe, a nie na tym, jak duże były ich rozmiary. Jest to szczególnie ważne, gdy masz dużą próbkę, kiedy nawet małe efekty mogą być statystycznie znaczące.
  • Większość statystyk jednowymiarowych nie jest wielkościami efektów. Dla większości celów wielkość efektu dotyczy związku między co najmniej dwiema zmiennymi. Zatem średnia próbki, odchylenie standardowe, pochylenie, kurtoza, min, maks i tak dalej nie są miarami wielkości efektu.
  • Statystyki niezwiązane ze stopniem związku nie są miarami wielkości efektu. Na przykład testy normalności wielowymiarowej, wartości własne macierzy itd. Zasadniczo nie mają bezpośrednio na celu kwantyfikacji efektu w zwykłym tego słowa znaczeniu.

Szersze rozważania

  • Uwagi dotyczące skalowania: użyteczność statystyki jako miary wielkości efektu w dużej mierze wiąże się z jej zdolnością do komunikowania wielkości efektu. Czasami osiąga się to poprzez zastosowanie znanych znormalizowanych miar efektu (np. D Cohena). Innym razem staranne rozważenie skalowania zmiennych może dać jeszcze jaśniejszą interpretację wielkości efektu. Powiedzmy, że miałem badanie dotyczące programu szkoleniowego na temat poziomów dochodów. Mógłbym zgłosić, że program szkoleniowy zwiększył dochód o .2 odchylenia standardowe lub mógłbym powiedzieć, że program zwiększył dochód o 3500 USD. Oba są przydatne; oba są miarami wielkości efektu. Pierwszy jest ustandaryzowany (d Cohena), drugi jest niestandaryzowany (średnie różnice surowej grupy).
  • Precyzja w szacowaniu wielkości efektu: Często wyodrębniamy przykładowe oszacowania miar wielkości efektu (np. D Cohena, r Pearsona itp.). Ten kontekst może prowadzić do zestawienia testów istotności z miarami wielkości efektu. Niemniej jednak celem powinno być nadal precyzyjne i obiektywne oszacowanie wielkości efektu populacji. Z perspektywy częstokroć przedziały ufności wokół wielkości efektu zapewniają oszacowanie precyzji. Z perspektywy bayesowskiej istnieją różnice w gęstości efektów. W wielu przypadkach należy zachować ostrożność, aby upewnić się, że używasz obiektywnej miary wielkości efektu.
Jeromy Anglim
źródło
1
(+1) Ładna odpowiedź.
chl
Trzeci i ostatni punkt prawdopodobnie wyjaśniają, skąd pochodzi autor (autorzy) artykułu z Wikipedii. Biorąc pod uwagę nacisk na psychologię, myślę, że chodzi nie tyle o kontrast wielkości efektu z innymi statystykami opisowymi, ale raczej o statystyki testowe i wartości p (tj. Statystyki wnioskowania) i podkreślenie, że miary wielkości efektu nie mówią nic o zmienności próbkowania.
Gala
Wielkie dzięki za miłą odpowiedź. Mam jednak pytanie: czy masz na myśli przedział ufności, którego nie można użyć jako miary wielkości efektu, ponieważ jest on bezpośrednio związany z rozmiarem próbki? (przez przedział ufności mam na myśli wartość, która jest zarówno dodawana, jak i odejmowana od rozpowszechnienia, średniej itp. - a nie górnej i dolnej granicy CI).
Vic
2
@ Vic możesz mieć przedział ufności dla miary wielkości efektu, ale sam przedział ufności nie jest rozmiarem efektu.
Jeromy Anglim
Wielkie dzięki, droga Jeromy. Przez te wszystkie lata się myliłem. :)
Vic
6

Po pierwsze, rozmiary efektów można stosować zarówno inferencyjnie, jak i opisowo. r i OR są wielkościami efektów iz pewnością wszystkie są używane w statystykach wnioskowania.

Statystyki jednowymiarowe zwykle nie są wielkościami efektów, chociaż mogą być. Np. Jeśli porównujesz wiek mężczyzn i kobiet pozostających w związku małżeńskim, średni wiek mężczyzn nie jest wielkością efektu (wówczas różnica średnich byłaby wielkością efektu). Ale jeśli chcesz sprawdzić, czy średnia czegoś wynosi 0, wtedy średnia byłaby wielkością efektu.

Jeśli mierzy efekt, jest to rozmiar efektu!

Peter Flom - Przywróć Monikę
źródło
Myślę, że to prawda @Peter, ale wielkość efektu to termin, który został zdefiniowany przez Cohena: (Mean1-Mean2) / PooledSD. Brzmi to trochę tak, jakby różnica była znacząca lub tylko statystycznie istotna - użycie wspólnych słów do zdefiniowania terminu statystycznego.
doug.numbers
2
Gdzie Cohen tak to definiuje? Jeśli masz na myśli jego książkę o analizie mocy, myślę, że używa go jako rodzaju standardu do konwersji innych rozmiarów efektów. Ale każda tabela analizy mocy w tej książce (a jest jej DUŻO) używa pewnego rozmiaru efektu (i nie wszyscy tego używają)
Peter Flom - Przywróć Monikę
1
D Cohena zawsze tak rozumiałem. Podobnie jak opisano en.wikipedia.org/wiki/Effect_size . Ale masz całkowitą rację, istnieje wiele metod określanych jako wielkość efektu.
doug.numerers
4
Test t i test Z nie są wielkościami efektów. ten sam rozmiar efektu da zasadniczo różne wartości tiz dla różnych rozmiarów próbek.
Jeromy Anglim
1
@JeromyAnglim ma rację; +1. Zredagowałem swoją odpowiedź
Peter Flom - Przywróć Monikę