Co to jest wielkość efektu… i dlaczego jest nawet przydatna?

18

Mam wstępną wiedzę na temat statystyki na poziomie absolwenta (zakładam, że znam statystykę matematyczną i prawdopodobieństwo na poziomie licencjackim (np. Wackerly i in., Ross 'Prawdopodobieństwo) i mam pewną wiedzę na temat teorii miar).

Niedawno rozpocząłem pracę nad eksperymentalnym projektowaniem i raportowaniem statystycznym w statystykach dotyczących edukacji i zostałem umieszczony w projekcie, w którym zasadniczo oceniam wskaźniki odpowiedzialności dla szkół i muszę analizować dane, proponować zmiany itp. Pamiętaj, że jestem jedynym jeden w moim dziale na tle statystyki matematycznej.

Na moim stanowisku ludzie zdecydowanie sugerują użycie wielkości efektu do pomiaru skuteczności programów. Jedyny raz, kiedy słyszałem o wielkości efektu, był mój przyjaciel, który studiował psychologię. Mam wrażenie, że

Effect Size=Difference of MeansStandard Deviation.

Co jest tak przydatnego w tych danych w porównaniu z tradycyjnym testowaniem hipotez i dlaczego powinienem się tym przejmować? Dla mnie wygląda to jak statystyka testowa dla -testu dwóch prób t. Nie wydaje mi się to wcale przydatne, może poza umieszczeniem wszystkiego w tej samej skali (dlatego ktoś naprawdę „normalizuje” wszystko), ale myślałem, że statystyki testowe (czyli taki, jaki wydaje mi się rozmiar efektu) nie są modne i preferowane są wartości p .

Klarnecista
źródło
Jestem trochę zdezorientowany „tłem statystyk na poziomie absolwenta”; pierwsze dwa warunki wydają się ze sobą sprzeczne. Czy możesz wyjaśnić, co to obejmuje? Czy to coś w rodzaju początku statystyk na poziomie magisterskim czy czegoś innego?
Glen_b
2
@Glen_b Tak, zaczyna się statystyka na poziomie magisterskim. Załóżmy, że znam statystykę matematyczną i prawdopodobieństwo na poziomie licencjackim (np. Wackerly i in., Ross 'Prawdopodobieństwo) i mam pewną wiedzę na temat teorii miar.
Klarnecista
3
Mogę współczuć, OP. Wywodzące się z matematyki / statystyki, często zdumiewające było omawianie statystyk z osobami wyszkolonymi w doktoratach z socjologii lub psychologii, ponieważ mają one różne terminy na wszystko :), a czasem mają sztywne pomysły na to, jak dokładnie robić rzeczy, niezależnie od tego, czy to jest najlepsza praktyka statystyczna, np. próba przekonania upartego recenzenta / redaktora, że ​​modelowanie równań strukturalnych nie jest rozwiązaniem wszystkich problemów lub że liniowość nie zawsze jest dobrym założeniem! Jednak po kilku latach nauczyłem się dobrze łączyć z tą społecznością!
CrockGill,

Odpowiedzi:

20

To jedna miara wielkości efektu, ale istnieje wiele innych. Z pewnością nie jest to statystyka testu . Twoja miara wielkości efektu jest często nazywana d Cohena (ściśle mówiąc, jest to poprawne tylko wtedy, gdy SD jest oszacowane za pomocą MLE - tj. Bez korekcji Bessela ); bardziej ogólnie, nazywa się to „znormalizowaną średnią różnicą”. Być może to sprawi, że będzie jasne, że t d : dtretre
Oznacza to, że „/

re=x¯2)-x¯1S.ret=x¯2)-x¯1S.mit=x¯2)-x¯1S.reN.
"brakuje ze wzoru na znormalizowanej średniej różnicy. /N.

0N.pN.

gung - Przywróć Monikę
źródło
15

Oczekuję, że ktoś z doświadczeniem w bardziej odpowiednim obszarze (powiedzmy psychologii lub edukacji) wpisze lepszą odpowiedź, ale dam temu szansę.

Wielkość efektu ” jest terminem o więcej niż jednym znaczeniu - który wiele lat temu prowadził pewne pomieszane rozmowy, aż w końcu doszedłem do tego wniosku. Tutaj wyraźnie mamy do czynienia z wersją skalowaną do standardowego odchylenia („o ile standardowych odchyleń to zmieniło się?”)

Jednym z powodów patrzenia na tego rodzaju „wielkość efektu” w obszarach tematycznych, w których są one wspólne, jest to, że często mają zmienne, których poszczególne wartości nie są z natury znaczące, ale są skonstruowane tak, aby próbować zmierzyć pewne podstawowe rzeczy, które trudno jest uzyskać w.

Wyobraź sobie na przykład, że próbujesz zmierzyć satysfakcję z pracy (być może dla modelu, który wiąże ją z pewnym zbiorem zmiennych niezależnych, na przykład z uwzględnieniem pewnego traktowania zainteresowania). Nie masz sposobu, aby uzyskać bezpośredni dostęp do tego, ale możesz (na przykład) spróbować zbudować kwestionariusz, aby uzyskać dostęp do różnych jego aspektów, być może używając czegoś w rodzaju skali Likerta.

Inny badacz może mieć inne podejście do mierzenia satysfakcji z pracy, więc twoje dwa zestawy pomiarów „Satysfakcji” nie są bezpośrednio porównywalne - ale jeśli mają różne formy ważności i tak dalej, te rzeczy są sprawdzane (aby mogą mierzyć satysfakcję), wtedy można mieć nadzieję, że będą miały bardzo podobne rozmiary efektów; Przynajmniej rozmiar efektu będzie bardziej zbliżony do siebie.

Glen_b - Przywróć Monikę
źródło
3
wykonuje niezłą robotę, wprowadzając ideę „konstruktu” bez elementów technicznych. Ale w swojej pracy, klarnecisto, musisz dogłębnie zrozumieć ten pomysł. Bardzo polecam oryginalne źródło na temat „ważności konstrukcji”, artykułu Cronbacha i Meehla z 1955 r. W Biuletynie psychologicznym: psych.colorado.edu/~willcutt/pdfs/Cronbach_1955.pdf
David C. Norris,
7

Powyższy wzór przedstawia sposób obliczania wartości d Cohena dla powiązanych próbek (co jest prawdopodobnie tym, co masz?). Jeśli nie są one powiązane, możesz zamiast tego użyć wariancji zbiorczej. Istnieją różne statystyki, które powiedzą o wielkości efektu, ale d Cohena jest znormalizowaną miarą, która może różnić się od 0 do 3. Jeśli masz wiele różnych zmiennych, dobrze jest mieć znormalizowaną miarę, gdy myślisz o wszystkie razem. Z drugiej strony wiele osób woli zrozumieć wielkość efektu w kategoriach mierzonych jednostek. Po co obliczać d, skoro masz już wartości p? Oto przykład z zestawu danych, z którym obecnie pracuję. Patrzę na interwencję behawioralną przeprowadzaną w szkołach, mierzoną za pomocą zweryfikowanych kwestionariuszy psychologicznych (wytwarzających dane Likerta). Prawie wszystkie moje zmienne wykazują statystycznie znaczącą zmianę, być może nic dziwnego, ponieważ mam dużą próbkę (n = ~ 250). Jednak dla niektórych zmiennych d. Cohenajest bardzo mała, powiedzmy 0.12, co wskazuje, że chociaż na pewno nastąpiła zmiana, może nie być to klinicznie ważna zmiana, dlatego jest ważna dla dyskusji i interpretacji tego, co dzieje się w danych. Ta koncepcja jest szeroko stosowana w psychologii i naukach o zdrowiu, gdzie praktycy (lub szkoły, w twoim przypadku) muszą wziąć pod uwagę faktyczną użyteczność kliniczną leczenia (lub cokolwiek, z czym eksperymentują). D Cohena pomaga nam odpowiedzieć na pytania, czy naprawdę warto wykonać interwencję (niezależnie od wartości p). W naukach medycznych lubią też brać pod uwagę NNT i oceniać to pod kątem ciężkości danego stanu. Spójrz na ten wspaniały zasób z @krstoffr http://rpsychologist.com/d3/cohend/

jUST1N3
źródło
2

tn

p

CrockGill
źródło
2

W rzeczywistości, p-wartości są teraz również „poza modą”: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Testowanie znaczenia hipotezy zerowej (NHST) daje niewiele więcej niż opis wielkości próby. (*) Każda interwencja eksperymentalna przyniesie pewien efekt, to znaczy, że prosta hipoteza zerowa „braku efektu” jest zawsze fałszywa w ścisłym znaczeniu . Dlatego „nieistotny” test oznacza po prostu, że wielkość próbki nie była wystarczająco duża; „znaczący” test oznacza, że ​​zebrałeś wystarczającą ilość danych, aby „coś” znaleźć.

„Wielkość efektu” stanowi próbę zaradzenia temu poprzez wprowadzenie pomiaru w naturalnej skali problemu. W medycynie, gdzie leczenie zawsze przynosi pewien efekt (nawet jeśli jest to efekt placebo), wprowadzono pojęcie „klinicznie znaczącego efektu”, aby uchronić się przed 50% prawdopodobieństwem, że „leczenie” okaże się „( statystycznie) znaczący pozytywny efekt ”(choć niewielki) w arbitralnie dużym badaniu.

Jeśli rozumiem naturę twojej pracy, klarnecisto, to w końcu jej uzasadnionym celem jest informowanie o działaniach / interwencjach, które poprawiają edukację w szkołach pod twoim nadzorem. Zatem twoje ustawienie jest oparte na teorii , a metody bayesowskie są najwłaściwszym (i wyjątkowo spójnym [1] ) podejściem.

Rzeczywiście, najlepszym sposobem na zrozumienie metod częstych jest przybliżenie metod bayesowskich . Oszacowaną wielkość efektu można rozumieć jako zmierzającą do pomiaru centralności rozkładu bayesowskiego w odcinku bocznym , podczas gdy wartość p można rozumieć jako zmierzającą do zmierzenia jednego ogona tego odcinka tylnego. Tak więc razem te dwie wielkości zawierają zgrubną treść tylnej bayesowskiej, która stanowi naturalny wkład w teoretyczne spojrzenie na twój problem. (Alternatywnie częsty przedział ufności dotyczący wielkości efektu można również rozumieć jako przedział wiarygodny ).

W dziedzinie psychologii i edukacji metody bayesowskie są w rzeczywistości dość popularne. Jednym z powodów jest to, że łatwo jest instalować „konstrukcje” w modelach bayesowskich jako zmienne ukryte. Możesz zajrzeć do „książki o szczeniętach” Johna K. Kruschke , psychologa. W edukacji (gdzie uczniowie zagnieżdżają się w klasach, zagnieżdżają się w szkołach, zagnieżdżają się w dzielnicach ...) modelowanie hierarchiczne jest nieuniknione. Modele bayesowskie świetnie nadają się również do modelowania hierarchicznego. Na tym koncie możesz sprawdzić Gelman & Hill [2].

[1]: Robert, Christian P. Wybór bayesowski: od teoretycznych podstaw decyzji do implementacji obliczeniowej. 2nd ed. Teksty Springera w statystyce. New York: Springer, 2007.

[2]: Gelman, Andrew i Jennifer Hill. Analiza danych za pomocą regresji i modeli wielopoziomowych / hierarchicznych. Metody analityczne w badaniach społecznych. Cambridge; Nowy Jork: Cambridge University Press, 2007.


Więcej informacji na temat „koherencji” z perspektywy niekoniecznie bicia się w głowę z perspektywy cegły bayesowskiej można znaleźć w [3].

[3]: Robins, James i Larry Wasserman. „Uwarunkowania, prawdopodobieństwo i spójność: przegląd niektórych podstawowych koncepcji”. Journal of American Statistics Association 95, nr. 452 (1 grudnia 2000 r.): 1340–46. doi: 10.1080 / 01621459.2000.10474344.

(*) W [4] Meehl biczuje NHST o wiele bardziej elegancko, ale nie mniej szorstko, niż ja:

Ponieważ hipoteza zerowa jest prawie zawsze fałszywa, tabele podsumowujące badania w kategoriach wzorców „znaczących różnic” są niewiele więcej niż złożone, przyczynowo niemożliwe do interpretacji wyniki funkcji mocy statystycznej.

[4]: Meehl, Paul E. „Teoretyczne ryzyko i gwiazdkowe tablice: Sir Karl, Sir Ronald i powolny postęp miękkiej psychologii.” Journal of Consulting and Clinical Psychiatry 46 (1978): 806–34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf


A oto pokrewny cytat z Tukey: /stats//a/728/41404

David C. Norris
źródło
1
Każda eksperymentalna interwencja przyniesie pewien efekt” (moje podkreślenie) jest dość mocnym stwierdzeniem, podobnie jak późniejsze „zawsze”. Na niektórych kierunkach jest to prawdopodobnie doskonała zasada, ale myślę, że zbyt niebezpieczne jest niebezpieczeństwo. Chciałbym również zasugerować, że „[NHST] wytwarza trochę więcej niż opisem swojej próbki wielkości” jest dyskusyjne: wartość p wyłania się z interakcji pomiędzy obu wielkości próbki i wielkości efektu.
Silverfish,
@Silverfish, dziękuję za odpowiedź. Zapraszam do podania przykładu, w którym moja perspektywa wartości p byłaby „niebezpieczna”. (BTW, miałem umieścić niektóre kursywą, a posłużył się terminem „w ścisłym tego słowa znaczeniu” w oczekiwaniu na skargi, takie jak twoje. Twierdzę nadal stoi.) Ponadto, mimo że wartość p rzeczywiście „wyłania się z wzajemnym” z dwa inne czynniki, jeden z nich (wielkość próby) jest w dużej mierze dowolnym parametrem projektowym, wybieranym arbitralnie. Ten arbitralny wybór odzwierciedla zatem wartość p. Dwie liczby są wyraźnie potrzebne; dlaczego nie punkty końcowe przedziału ufności?
David C. Norris,
2
Jako przykład: każdy przypadek, w którym moglibyśmy zasadnie oczekiwać, że hipoteza zerowa będzie prawdziwa, lub przynajmniej w którym nie moglibyśmy wprost stwierdzić, że jesteśmy pewni, że jest ona fałszywa, nawet nie zawracając sobie głowy przeprowadzeniem eksperymentu lub spojrzeniem na dane. Nie wszystkie wartości zerowe są fałszywe: rozważ badania w parapsychologii, takie jak eksperymenty z telepatią i wstępnym rozpoznaniem, ale wiele wartości zerowych jest prawdą w dziedzinach, które możesz uznać za bardziej „naukowo uzasadnione”, takie jak genomika.
Silverfish,
5
-1, tutaj jest wiele problemów, IMO. Fakt, że 1 drobne czasopismo psychologiczne zakazało wartości p, nie oznacza, że ​​„wartości p są teraz w końcu„ niemodne ”. Zakaz ten był szeroko krytykowany (w tym uprzejme oświadczenie ASA i od tamtego czasu nie był podejmowany przez żadne inne czasopisma. Zwracam uwagę, że czasopismo nie wymaga przejścia na metody bayesowskie (które, jak uważam, jest twoją preferencją)) , ale rozważy to tylko w poszczególnych przypadkach.
Gung - Przywróć Monikę
3
Jednak w prawdziwym eksperymencie proces randomizacji jednostek przerywa endogenne ścieżki, zapewniając test bezpośredniej ścieżki przyczynowej od X do Y. Dziwne jest twierdzenie metafizyczne, że twierdzenie, że wszystkie zmienne są bezpośrednio przyczynowo połączone w obu kierunkach, ale jeśli nie utrzymujcie tego, niespójne jest twierdzenie, że „zerowa hipoteza„ braku efektu ”jest zawsze fałszywa”.
gung - Przywróć Monikę