Mam wstępną wiedzę na temat statystyki na poziomie absolwenta (zakładam, że znam statystykę matematyczną i prawdopodobieństwo na poziomie licencjackim (np. Wackerly i in., Ross 'Prawdopodobieństwo) i mam pewną wiedzę na temat teorii miar).
Niedawno rozpocząłem pracę nad eksperymentalnym projektowaniem i raportowaniem statystycznym w statystykach dotyczących edukacji i zostałem umieszczony w projekcie, w którym zasadniczo oceniam wskaźniki odpowiedzialności dla szkół i muszę analizować dane, proponować zmiany itp. Pamiętaj, że jestem jedynym jeden w moim dziale na tle statystyki matematycznej.
Na moim stanowisku ludzie zdecydowanie sugerują użycie wielkości efektu do pomiaru skuteczności programów. Jedyny raz, kiedy słyszałem o wielkości efektu, był mój przyjaciel, który studiował psychologię. Mam wrażenie, że
Co jest tak przydatnego w tych danych w porównaniu z tradycyjnym testowaniem hipotez i dlaczego powinienem się tym przejmować? Dla mnie wygląda to jak statystyka testowa dla -testu dwóch prób . Nie wydaje mi się to wcale przydatne, może poza umieszczeniem wszystkiego w tej samej skali (dlatego ktoś naprawdę „normalizuje” wszystko), ale myślałem, że statystyki testowe (czyli taki, jaki wydaje mi się rozmiar efektu) nie są modne i preferowane są wartości .
źródło
Odpowiedzi:
To jedna miara wielkości efektu, ale istnieje wiele innych. Z pewnością nie jest to statystyka testu . Twoja miara wielkości efektu jest często nazywana d Cohena (ściśle mówiąc, jest to poprawne tylko wtedy, gdy SD jest oszacowane za pomocą MLE - tj. Bez korekcji Bessela ); bardziej ogólnie, nazywa się to „znormalizowaną średnią różnicą”. Być może to sprawi, że będzie jasne, że t ≠ d : dt re t ≠ d
Oznacza to, że „/√
źródło
Oczekuję, że ktoś z doświadczeniem w bardziej odpowiednim obszarze (powiedzmy psychologii lub edukacji) wpisze lepszą odpowiedź, ale dam temu szansę.
„ Wielkość efektu ” jest terminem o więcej niż jednym znaczeniu - który wiele lat temu prowadził pewne pomieszane rozmowy, aż w końcu doszedłem do tego wniosku. Tutaj wyraźnie mamy do czynienia z wersją skalowaną do standardowego odchylenia („o ile standardowych odchyleń to zmieniło się?”)
Jednym z powodów patrzenia na tego rodzaju „wielkość efektu” w obszarach tematycznych, w których są one wspólne, jest to, że często mają zmienne, których poszczególne wartości nie są z natury znaczące, ale są skonstruowane tak, aby próbować zmierzyć pewne podstawowe rzeczy, które trudno jest uzyskać w.
Wyobraź sobie na przykład, że próbujesz zmierzyć satysfakcję z pracy (być może dla modelu, który wiąże ją z pewnym zbiorem zmiennych niezależnych, na przykład z uwzględnieniem pewnego traktowania zainteresowania). Nie masz sposobu, aby uzyskać bezpośredni dostęp do tego, ale możesz (na przykład) spróbować zbudować kwestionariusz, aby uzyskać dostęp do różnych jego aspektów, być może używając czegoś w rodzaju skali Likerta.
Inny badacz może mieć inne podejście do mierzenia satysfakcji z pracy, więc twoje dwa zestawy pomiarów „Satysfakcji” nie są bezpośrednio porównywalne - ale jeśli mają różne formy ważności i tak dalej, te rzeczy są sprawdzane (aby mogą mierzyć satysfakcję), wtedy można mieć nadzieję, że będą miały bardzo podobne rozmiary efektów; Przynajmniej rozmiar efektu będzie bardziej zbliżony do siebie.
źródło
Powyższy wzór przedstawia sposób obliczania wartości d Cohena dla powiązanych próbek (co jest prawdopodobnie tym, co masz?). Jeśli nie są one powiązane, możesz zamiast tego użyć wariancji zbiorczej. Istnieją różne statystyki, które powiedzą o wielkości efektu, ale d Cohena jest znormalizowaną miarą, która może różnić się od 0 do 3. Jeśli masz wiele różnych zmiennych, dobrze jest mieć znormalizowaną miarę, gdy myślisz o wszystkie razem. Z drugiej strony wiele osób woli zrozumieć wielkość efektu w kategoriach mierzonych jednostek. Po co obliczać d, skoro masz już wartości p? Oto przykład z zestawu danych, z którym obecnie pracuję. Patrzę na interwencję behawioralną przeprowadzaną w szkołach, mierzoną za pomocą zweryfikowanych kwestionariuszy psychologicznych (wytwarzających dane Likerta). Prawie wszystkie moje zmienne wykazują statystycznie znaczącą zmianę, być może nic dziwnego, ponieważ mam dużą próbkę (n = ~ 250). Jednak dla niektórych zmiennych d. Cohenajest bardzo mała, powiedzmy 0.12, co wskazuje, że chociaż na pewno nastąpiła zmiana, może nie być to klinicznie ważna zmiana, dlatego jest ważna dla dyskusji i interpretacji tego, co dzieje się w danych. Ta koncepcja jest szeroko stosowana w psychologii i naukach o zdrowiu, gdzie praktycy (lub szkoły, w twoim przypadku) muszą wziąć pod uwagę faktyczną użyteczność kliniczną leczenia (lub cokolwiek, z czym eksperymentują). D Cohena pomaga nam odpowiedzieć na pytania, czy naprawdę warto wykonać interwencję (niezależnie od wartości p). W naukach medycznych lubią też brać pod uwagę NNT i oceniać to pod kątem ciężkości danego stanu. Spójrz na ten wspaniały zasób z @krstoffr http://rpsychologist.com/d3/cohend/
źródło
źródło
W rzeczywistości, p-wartości są teraz również „poza modą”: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Testowanie znaczenia hipotezy zerowej (NHST) daje niewiele więcej niż opis wielkości próby. (*) Każda interwencja eksperymentalna przyniesie pewien efekt, to znaczy, że prosta hipoteza zerowa „braku efektu” jest zawsze fałszywa w ścisłym znaczeniu . Dlatego „nieistotny” test oznacza po prostu, że wielkość próbki nie była wystarczająco duża; „znaczący” test oznacza, że zebrałeś wystarczającą ilość danych, aby „coś” znaleźć.
„Wielkość efektu” stanowi próbę zaradzenia temu poprzez wprowadzenie pomiaru w naturalnej skali problemu. W medycynie, gdzie leczenie zawsze przynosi pewien efekt (nawet jeśli jest to efekt placebo), wprowadzono pojęcie „klinicznie znaczącego efektu”, aby uchronić się przed 50% prawdopodobieństwem, że „leczenie” okaże się „( statystycznie) znaczący pozytywny efekt ”(choć niewielki) w arbitralnie dużym badaniu.
Jeśli rozumiem naturę twojej pracy, klarnecisto, to w końcu jej uzasadnionym celem jest informowanie o działaniach / interwencjach, które poprawiają edukację w szkołach pod twoim nadzorem. Zatem twoje ustawienie jest oparte na teorii , a metody bayesowskie są najwłaściwszym (i wyjątkowo spójnym [1] ) podejściem.
Rzeczywiście, najlepszym sposobem na zrozumienie metod częstych jest przybliżenie metod bayesowskich . Oszacowaną wielkość efektu można rozumieć jako zmierzającą do pomiaru centralności rozkładu bayesowskiego w odcinku bocznym , podczas gdy wartość p można rozumieć jako zmierzającą do zmierzenia jednego ogona tego odcinka tylnego. Tak więc razem te dwie wielkości zawierają zgrubną treść tylnej bayesowskiej, która stanowi naturalny wkład w teoretyczne spojrzenie na twój problem. (Alternatywnie częsty przedział ufności dotyczący wielkości efektu można również rozumieć jako przedział wiarygodny ).
W dziedzinie psychologii i edukacji metody bayesowskie są w rzeczywistości dość popularne. Jednym z powodów jest to, że łatwo jest instalować „konstrukcje” w modelach bayesowskich jako zmienne ukryte. Możesz zajrzeć do „książki o szczeniętach” Johna K. Kruschke , psychologa. W edukacji (gdzie uczniowie zagnieżdżają się w klasach, zagnieżdżają się w szkołach, zagnieżdżają się w dzielnicach ...) modelowanie hierarchiczne jest nieuniknione. Modele bayesowskie świetnie nadają się również do modelowania hierarchicznego. Na tym koncie możesz sprawdzić Gelman & Hill [2].
[1]: Robert, Christian P. Wybór bayesowski: od teoretycznych podstaw decyzji do implementacji obliczeniowej. 2nd ed. Teksty Springera w statystyce. New York: Springer, 2007.
[2]: Gelman, Andrew i Jennifer Hill. Analiza danych za pomocą regresji i modeli wielopoziomowych / hierarchicznych. Metody analityczne w badaniach społecznych. Cambridge; Nowy Jork: Cambridge University Press, 2007.
Więcej informacji na temat „koherencji” z perspektywy niekoniecznie bicia się w głowę z perspektywy cegły bayesowskiej można znaleźć w [3].
[3]: Robins, James i Larry Wasserman. „Uwarunkowania, prawdopodobieństwo i spójność: przegląd niektórych podstawowych koncepcji”. Journal of American Statistics Association 95, nr. 452 (1 grudnia 2000 r.): 1340–46. doi: 10.1080 / 01621459.2000.10474344.
(*) W [4] Meehl biczuje NHST o wiele bardziej elegancko, ale nie mniej szorstko, niż ja:
[4]: Meehl, Paul E. „Teoretyczne ryzyko i gwiazdkowe tablice: Sir Karl, Sir Ronald i powolny postęp miękkiej psychologii.” Journal of Consulting and Clinical Psychiatry 46 (1978): 806–34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf
A oto pokrewny cytat z Tukey: /stats//a/728/41404
źródło