Duży nacisk kładzie się na poleganie i zgłaszanie wielkości efektów zamiast wartości p w badaniach stosowanych (np. Cytaty poniżej).
Ale czy nie jest tak, że wielkość efektu, podobnie jak wartość p, jest zmienną losową i jako taka może różnić się w zależności od próbki, gdy powtórzy się ten sam eksperyment? Innymi słowy, pytam, jakie cechy statystyczne (np. Wielkość efektu jest mniej zmienna od próbki do próbki niż wartość p) sprawiają, że rozmiary efektów są lepszymi wskaźnikami pomiaru dowodów niż wartości p?
Powinienem jednak wspomnieć o ważnym fakcie, który oddziela wartość p od wielkości efektu. Oznacza to, że wielkość efektu należy oszacować, ponieważ ma parametr populacji, ale wartość p nie jest niczym do oszacowania, ponieważ nie ma żadnego parametru populacji.
Według mnie wielkość efektu jest po prostu miarą, która w niektórych obszarach badań (np. Badania na ludziach) pomaga przekształcić wyniki badań empirycznych pochodzących z różnych narzędzi pomiarowych opracowanych przez naukowców w jedną wspólną miarę (rzetelnie mówiąc, używając tej miary badania ludzkie można lepiej dopasować klub badań kwantowych).
Może jeśli weźmiemy prostą proporcję jako wielkość efektu, następujące (w R) jest to, co pokazuje przewagę wielkości efektu nad wartościami p? (wartość p zmienia się, ale rozmiar efektu się nie zmienia)
binom.test(55, 100, .5) ## p-value = 0.3682 ## proportion of success 55%
binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%
Zauważ, że większość rozmiarów efektów jest liniowo związana ze statystyką testową. Dlatego łatwo jest wykonać testowanie hipotezy zerowej przy użyciu wielkości efektu.
Na przykład statystykę t uzyskaną z projektu sprzed post-post można łatwo przekonwertować na odpowiedni rozmiar efektu d Cohena. W związku z tym rozkład d Cohena jest po prostu wersją skalowania dla dystrybucji.
Cytaty:
Ponieważ wartości p są błędnymi wskaźnikami, teoretycznie 100 badań z różnymi wielkościami próby i 100 różnymi wielkościami efektów może mieć tę samą pojedynczą wartość p, a każde 100 badań z tą samą wielkością pojedynczego efektu może mieć 100 różnych wartości dla wartości p .
lub
Wartość p jest losową zmienną, która zmienia się w zależności od próbki. . . . W związku z tym nie jest właściwe porównywanie wartości p z dwóch różnych eksperymentów lub z testów dwóch zmiennych zmierzonych w tym samym eksperymencie i deklarowanie, że jedna jest ważniejsza od drugiej?
Cytaty:
Thompson, B. (2006). Podstawy statystyki behawioralnej: podejście oparte na wglądu. Nowy Jork, NY: Guilford Press.
Good, PI i Hardin, JW (2003). Typowe błędy w statystykach (i jak ich uniknąć). Nowy Jork: Wiley.
Odpowiedzi:
Porada, aby podać rozmiary efektów zamiast wartości P, opiera się na fałszywej dychotomii i jest głupia. Dlaczego nie zaprezentujesz obu?
Wnioski naukowe powinny opierać się na racjonalnej ocenie dostępnych dowodów i teorii. Wartości P i obserwowane wielkości efektów same lub razem nie są wystarczające.
Żaden z cytowanych fragmentów, który podajesz, nie jest pomocny. Oczywiście wartości P różnią się w zależności od eksperymentu, siła dowodów w danych zmienia się w zależności od eksperymentu. Wartość p jest po prostu liczbową ekstrakcją tego dowodu za pomocą modelu statystycznego. Biorąc pod uwagę charakter wartości P, bardzo rzadko jest istotne dla celów analitycznych porównanie jednej wartości P z inną, więc być może to właśnie autor cytatu próbuje przekazać.
Jeśli chcesz porównać wartości P, prawdopodobnie powinieneś był wykonać test istotności dla innego układu danych, aby rozsądnie odpowiedzieć na interesujące pytanie. Zobacz następujące pytania: wartości p dla wartości p? a jeśli średnia jednej grupy różni się od zera, a drugiej nie, to czy możemy dojść do wniosku, że grupy są różne?
Odpowiedź na twoje pytanie jest więc złożona. Nie uważam, że dychotomiczne odpowiedzi na dane oparte na wartościach P lub rozmiarach efektów są przydatne, więc czy rozmiary efektów są lepsze od wartości P? Tak, nie, czasem może i zależy to od twojego celu.
źródło
W kontekście badań stosowanych, rozmiary efektów są konieczne, aby czytelnicy interpretowali praktyczne znaczenie (w przeciwieństwie do istotności statystycznej) wyników. Zasadniczo wartości p są znacznie bardziej wrażliwe na wielkość próby niż rozmiary efektów. Jeśli eksperyment dokładnie mierzy wielkość efektu (tj. Jest wystarczająco bliski oszacowanemu parametrowi populacji), ale daje nieistotną wartość p, wówczas wszystkie rzeczy są równe, zwiększenie wielkości próbki spowoduje taki sam rozmiar efektu, ale niższa wartość p. Można to wykazać za pomocą analiz lub symulacji mocy.
W świetle tego możliwe jest osiągnięcie bardzo znaczących wartości p dla wielkości efektów, które nie mają praktycznego znaczenia. Natomiast projekty badawcze o niskiej mocy mogą wytwarzać nieistotne wartości p dla wielkości efektów o dużym znaczeniu praktycznym.
Trudno jest omówić pojęcia istotności statystycznej względem wielkości efektu bez konkretnej aplikacji w świecie rzeczywistym. Jako przykład rozważmy eksperyment oceniający wpływ nowej metody nauki na średnią ocen uczniów (GPA). Twierdziłbym, że wielkość efektu wynosząca 0,01 punktu oceny ma niewielkie znaczenie praktyczne (tj. 2,50 w porównaniu do 2,51). Zakładając, że próbka liczy 2000 studentów zarówno w grupie leczonej, jak i kontrolnej, oraz odchylenie standardowe populacji wynoszące 0,5 stopnia:
średnia próbki leczenia = 2,51
średnia próbki kontrolnej = 2,50
wielkość efektu = 2,51 - 2,50 = 0,01
p = 0,53
Zwiększenie liczebności próby do 20 000 studentów i utrzymanie wszystkiego innego na stałym poziomie daje znaczącą wartość p:
średnia próbki leczenia = 2,51
średnia próbki kontrolnej = 2,50
wielkość efektu = 2,51 - 2,50 = 0,01
p = 0,044
Oczywiście zwiększenie wielkości próbki o rząd wielkości nie jest trywialne! Myślę jednak, że wszyscy możemy się zgodzić, że praktyczna poprawa oferowana przez tę metodę badania jest znikoma. Gdybyśmy polegali wyłącznie na wartości p, moglibyśmy wierzyć inaczej w przypadku n = 20 000.
Osobiście opowiadam się za zgłaszaniem zarówno wartości p, jak i wielkości efektów. I dodatkowe punkty za statystyki T lub F, stopnie swobody i diagnostykę modelu!
źródło
var.equal = TRUE
dopóki twojesd
s są równe. Z tego powodu nie jestem pewien, dlaczego opublikowałeś taką odpowiedź. OP zadaje pytanie, na które przynajmniej obecnie nie ma łatwej odpowiedzi!Obecnie pracuję w dziedzinie nauki o danych, a wcześniej pracowałem nad badaniami edukacyjnymi. Podczas gdy przy każdej „karierze” współpracowałem z ludźmi, którzy nie pochodzili z formalnego zaplecza statystycznego, i gdzie nacisk statystyczny (i praktyczny) ma duże znaczenie na wartość p . Nauczyłem się uwzględniać i podkreślać rozmiary efektów w moich analizach, ponieważ istnieje różnica między istotnością statystyczną a istotnością praktyczną.
Ogólnie rzecz biorąc, ludzie, z którymi pracowałem, dbali o jedno: „czy nasz program / funkcja ma wpływ i ma wpływ, tak czy nie?”. Na takie pytanie możesz zrobić coś tak prostego jak test t i zgłosić im „tak, twój program / funkcja robi różnicę”. Ale jak duża lub mała jest ta „różnica”?
Po pierwsze, zanim zacznę zagłębiać się w ten temat, chciałbym podsumować to, o czym mówimy, mówiąc o rozmiarach efektów
To rozmiar efektu, głupku: jaki jest rozmiar efektu i dlaczego jest ważny
I aby potwierdzić komentarze @ DarrenJames dotyczące dużych rozmiarów próbek
Używanie rozmiaru efektu - lub dlaczego wartość P jest niewystarczająca
Zgłoś zarówno wartość P, jak i rozmiary efektów
Teraz, aby odpowiedzieć na pytanie, czy efekt rozmiarach przełożonego do wartości p ? Twierdziłbym, że każdy z nich służy jako element istotności w analizie statystycznej, którego nie można porównać w takich kategoriach, i powinien być zgłaszany łącznie. Wartość p jest statystyką wskazującą istotność statystyczną (różnicę od rozkładu zerowego), w której wielkość efektu określa słowa, jak duża jest różnica.
Jako przykład, powiedzmy swojego przełożonego, BOB, który nie jest bardzo przyjazny dla statystyki jest ciekaw, czy istnieje znaczący związek między wag (wagi) i mpg (mil na galon). Analizę zaczynasz od hipotez
Z danychβm p g≠ 0 . Jednak szef pyta, jak to się różni? Możesz powiedzieć Bobowi: „Cóż, wygląda na to, że istnieje ujemna liniowa zależność między mpg a wt . Można również podsumować, że dla każdej zwiększonej jednostki w wt występuje spadek 5,3445 w mpg ”
summary
wyjściowych widać, że mamy statystykę t o bardzo małej wartości p . Możemy wygodnie odrzucić hipotezę zerową i zgłosić toW ten sposób można było stwierdzić, że wyniki były istotne statystycznie, i przekazać znaczenie w praktyce.
Mam nadzieję, że było to przydatne w odpowiedzi na twoje pytanie.
źródło
var.equal = TRUE
.Użyteczność wielkości efektu w stosunku do wartości p (jak również innych wskaźników wnioskowania statystycznego) jest rutynowo dyskutowana w mojej dziedzinie - psychologii - a debata jest obecnie „gorętsza” niż normalna z powodów, które są istotne dla twojego pytania. I chociaż jestem pewien, że psychologia niekoniecznie jest najbardziej wyrafinowaną statystycznie dziedziną naukową, łatwo omawiała, badała - a czasem wykazywała - ograniczenia różnych podejść do wnioskowania statystycznego, a przynajmniej tego, w jaki sposób są one ograniczone przez ludzi. Odpowiedzi już opublikowane zawierają dobre spostrzeżenia, ale w przypadku zainteresowania bardziej obszerną listą (i referencjami) powodów za i przeciw każdej z nich, patrz poniżej.
Dlaczego wartości p są niepożądane?
Dlaczego pożądane są rozmiary efektów?
Zauważ, że interpretuję twoje pytanie jako odnoszące się konkretnie do znormalizowanych rozmiarów efektów, ponieważ, jak mówisz, pozwalają badaczom przekształcić swoje odkrycia w „WSPÓLNY wskaźnik”.
Dlaczego wartości p są pożądane?
Chociaż rzadziej są one popierane, wartości p mają wiele zalet. Niektóre są dobrze znane i od dawna, podczas gdy inne są stosunkowo nowe.
Wartości p zapewniają wygodny i znany wskaźnik siły dowodów w stosunku do hipotezy zerowej modelu statystycznego.
Prawidłowo obliczone wartości p zapewniają podejmowanie dychotomicznych decyzji (które czasem są konieczne), a wartości p pomagają utrzymać długoterminowo fałszywie dodatnie poziomy błędów na akceptowalnym poziomie (Dienes, 2008; Sakaluk, 2016) [It nie jest całkowicie słuszne stwierdzenie, że wartości P są wymagane do decyzji dychotomicznych. Są one rzeczywiście szeroko stosowane w ten sposób, ale Neyman i Pearson wykorzystali w tym celu „krytyczne regiony” w przestrzeni statystyki testów. Zobacz to pytanie i jego odpowiedzi]
Dlaczego rozmiary efektów są niepożądane (lub przereklamowane)?
Być może najbardziej anty-intuicyjna pozycja dla wielu; dlaczego zgłaszanie znormalizowanych rozmiarów efektów byłoby niepożądane, a przynajmniej przereklamowane?
streszczenie
Podobnie jak w przypadku stwierdzenia Michaela Lwa, wartości p i wielkości efektów to tylko dwa dowody statystyczne; są też inne warte rozważenia. Ale podobnie jak wartości p i wielkości efektów, inne mierniki wartości dowodowej mają wspólne i unikalne problemy. Naukowcy często źle stosują i interpretują przedziały ufności (np. Hoekstra i in., 2014; Morey i in., 2016), na przykład, a wyniki analiz bayesowskich mogą być zniekształcone przez badaczy, podobnie jak przy użyciu wartości p (np. Simonsohn , 2014).
Wszystkie metryki dowodów wygrały i wszystkie muszą mieć nagrody.
Bibliografia
Amerykańskie Stowarzyszenie Psychologiczne. (2010). Podręcznik publikacji Amerykańskiego Towarzystwa Psychologicznego (wydanie 6). Waszyngton, DC: American Psychological Association.
Baguley, T. (2009). Standardowy lub prosty rozmiar efektu: co należy zgłosić ?. British Journal of Psychology, 100 (3), 603–617.
Bakker, M., & Wicherts, JM (2011). (Błędne) raportowanie wyników statystycznych w czasopismach psychologicznych. Metody badań behawioralnych, 43 (3), 666-678.
Borenstein, M., Hedges, LV, Higgins, J., i Rothstein, HR (2009). Wprowadzenie do metaanalizy. West Sussex, Wielka Brytania: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM, i Hilgard, J. (2017, 12 sierpnia). Korekta z powodu uprzedzeń w psychologii: Porównanie metod metaanalitycznych. Źródło: osf.io/preprints/psyarxiv/9h3nu
Chan, ME i Arvey, RD (2012). Metaanaliza i rozwój wiedzy. Perspectives on Psychological Science, 7 (1), 79-92.
Cohen, J. (1992). Podkład energetyczny. Biuletyn psychologiczny, 112 (1), 155-159.
Cumming, G. (2008). Replikacje i przedziały p: wartości p przewidują przyszłość tylko niejasno, ale przedziały ufności są znacznie lepsze. Perspektywy psychologii, 3, 286–300.
Dienes, D. (2008). Zrozumienie psychologii jako nauki: wprowadzenie do wnioskowania naukowego i statystycznego. Nowy Jork, Nowy Jork: Palgrave MacMillan.
Fanelli, D. (2010). „Pozytywne” wyniki zwiększają hierarchię nauk. PloS One, 5 (4), e10068.
Gelman, A., i Stern, H. (2006). Różnica między „znaczącym” a „nieistotnym” nie jest statystycznie istotna. The American Statistician, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K., i Tendal, B. (2007). Błędy ekstrakcji danych w metaanalizach wykorzystujących znormalizowane średnie różnice. JAMA, 298 (4), 430–437.
Greenland, S., Schlesselman, JJ, i Criqui, MH (1986). Błędem stosowania znormalizowanych współczynników regresji i korelacji jako miar efektu. American Journal of Epidemiology, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN i Wagenmakers, EJ (2014). Silna błędna interpretacja przedziałów ufności. Biuletyn psychonomiczny i przegląd, 21 (5), 1157-1164.
John, LK, Loewenstein, G., i Prelec, D. (2012). Mierzenie rozpowszechnienia wątpliwych praktyk badawczych z zachętami do mówienia prawdy. PsychologicalSscience, 23 (5), 524-532.
Kirk, RE (2003). Znaczenie wielkości efektu. W SF Davis (red.), Podręcznik metod badawczych w psychologii eksperymentalnej (s. 83–105). Malden, MA: Blackwell.
Lakens, D. (2014). Wydajne wykonywanie badań o dużej mocy z analizami sekwencyjnymi. European Journal of Social Psychology, 44 (7), 701–710.
Levine, TR i Hullett, CR (2002). Eta do kwadratu, częściowe do kwadratu eta i błędne zgłaszanie wielkości efektu w badaniach komunikacji. Human Communication Research, 28 (4), 612-625.
Maxwell, SE (2004). Trwałość słabych badań w badaniach psychologicznych: przyczyny, konsekwencje i środki zaradcze. Metody psychologiczne, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD, i Wagenmakers, EJ (2016). Błąd polegający na zaufaniu do przedziałów ufności. Biuletyn i przegląd psychonomiczny, 23 (1), 103-123.
Nosek, BA, Spies, JR i Motyl, M. (2012). Utopia naukowa: II. Restrukturyzacja zachęt i praktyk w celu promowania prawdy ponad publikowalność. Perspectives on Psychological Science, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S., & Wicherts, JM (2016). Częstość występowania statystycznych błędów sprawozdawczych w psychologii (1985–2013). Metody badań behawioralnych, 48 (4), 1205-1226.
Rosenthal, R. (1979). Problem z szufladą plików i tolerancja dla pustych wyników. Biuletyn psychologiczny, 86 (3), 638-641.
Sakaluk, JK (2016). Odkrywanie drobnych, potwierdzanie dużych: Alternatywny system dla nowych statystyk służący rozwojowi skumulowanych i powtarzalnych badań psychologicznych. Journal of Experimental Social Psychology, 66, 47-54.
Schimmack, U. (2014). Kwantyfikacja rzetelności badań statystycznych: wskaźnik powtarzalności. Źródło: http://www.r-index.org
Schmidt, Floryda i Hunter, JE (1997). Osiem powszechnych, ale fałszywych zastrzeżeń do przerwania testowania istotności w analizie danych badawczych. W LL Harlow, SA Mulaik i JH Steiger (Red.), Co jeśli nie byłoby testów istotności? (str. 37–64). Mahwah, NJ: Erlbaum.
Schönbrodt, FD (2015). p-Checker: Analizator p-wartości jeden dla wszystkich. Źródło: http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD i Simonsohn, U. (2011). Fałszywie pozytywna psychologia: Nieujawniona elastyczność w gromadzeniu i analizie danych pozwala przedstawić wszystko jako tak znaczące. Nauki psychologiczne, 22 (11), 1359-1366.
Simonsohn, U. (2013). Szaleństwo napędzania replik na podstawie obserwowanego rozmiaru efektu. Źródło: http://datacolada.org/4
Simonsohn, U. (2014). Hakowanie z tyłu. Źródło: http://datacolada.org/13 .
Simonsohn, U., Nelson, LD i Simmons, JP (2014). Krzywa P: Klucz do szuflady na pliki. Journal of Experimental Psychology: General, 143 (2), 534-547.
Simonsohn, U., Nelson, LD i Simmons, JP (2014). Krzywa P i wielkość efektu: Korekta odchylenia publikacji przy użyciu tylko istotnych wyników. Perspectives on Psychological Science, 9 (6), 666-681.
Wicherts, JM, Bakker, M., i Molenaar, D. (2011). Chęć dzielenia się danymi badawczymi jest związana z siłą dowodów i jakością raportowania wyników statystycznych. PloS One, 6 (11), E26828.
źródło
Z perspektywy epidemiologa, dlaczego wolę rozmiary efektów od wartości p (chociaż, jak zauważyli niektórzy ludzie, jest to coś w rodzaju fałszywej dychotomii):
źródło