Niektórzy autorzy (np. Pallant, 2007, s. 225; patrz zdjęcie poniżej) sugerują obliczenie wielkości efektu dla testu rang podpisanego przez Wilcoxona poprzez podzielenie statystyki testu przez pierwiastek kwadratowy z liczby obserwacji:
Z
jest wyjście statystyczny badania przez SPSS (patrz zdjęcie poniżej), jak również przez wilcoxsign_test
w R. (Patrz także mój powiązane pytanie: teststatistic vs linearstatistic w wilcoxsign_test )
Inni sugerują Bravais-Pearson ( ) lub Spearman (rS) współczynniki korelacji (w zależności od typu danych).
Kiedy je obliczasz, dwa r
nie są nawet takie same. Na przykład dla moich bieżących danych:
r = 0,23 (dla )
r = 0,43 (Pearsona)
Oznaczałoby to całkiem różne rozmiary efektów.
Więc jaki jest właściwy rozmiar efektu do użycia i jak te dwie strony r
są ze sobą powiązane?
Strony 224 (dolna część) i 225 z Pallant, J. (2007). Podręcznik SPSS Survival:
źródło
n
Odpowiedzi:
Ale jest jeszcze jedna zmarszczka. Chociaż chcesz oszacować wielkość ogólnego efektu, ludzie zwykle używają podpisanego testu rang Wilcoxona z danymi, które są jedynie porządkowe. Oznacza to, że nie ufają, że dane mogą wiarygodnie wskazać wielkość zmiany w uczniu, ale tylko to, że nastąpiła zmiana. To prowadzi mnie do poprawionego odsetka omówionego powyżej.
Z drugiej strony, jeśli ufasz, że wartości są wewnętrznie znaczące (np. Użyłeś tylko podpisanego testu rangi ze względu na jego odporność na normalność i wartości odstające), możesz po prostu użyć surowej średniej lub mediany różnicy, lub znormalizowanej średniej różnicy jako miara efektu.
źródło
Nie wiedząc, jakie dane są oceniane, bardzo trudno jest tutaj udzielić dobrych rad. I naprawdę to wszystko, co możesz uzyskać. Po prostu nie ma czegoś takiego jak najlepsza miara wielkości efektu dla takich pytań ... może kiedykolwiek.
Wszystkie rozmiary efektów wymienione w pytaniu są znormalizowanymi rozmiarami efektów. Ale jest całkiem możliwe, że środki lub mediany oryginalnych miar są w porządku. Na przykład, jeśli mierzysz, jak długo trwa proces produkcyjny, różnica w czasie powinna być całkowicie rozsądnym rozmiarem efektu. Wszelkie zmiany w procesie, przyszłe pomiary, pomiary w różnych systemach i pomiary w różnych fabrykach będą odbywać się w odpowiednim czasie. Może chcesz średnią, a może medianę, a nawet tryb, ale pierwszą rzeczą, którą musisz zrobić, to spojrzeć na rzeczywistą skalę pomiaru i zobaczyć, czy wielkość efektu jest rozsądna do interpretacji i silnie związana z miarą.
Aby pomóc w przemyśleniu tego, efekty, które należy znormalizować, są mierzone bardziej pośrednio i na wiele sposobów. Na przykład skale psychologiczne mogą zmieniać się w czasie i na wiele sposobów i próbują uzyskać podstawową zmienną, która nie jest bezpośrednio oceniana. W takich przypadkach potrzebujesz standardowych rozmiarów efektów.
Przy znormalizowanych rozmiarach efektów krytycznym problemem nie jest tylko to, którego użyć, ale co one oznaczają. Jak sugerujesz w swoim pytaniu, nie wiesz również, co one oznaczają, i to jest najważniejsze. Jeśli nie wiesz, jaki jest znormalizowany efekt, nie możesz go poprawnie zgłosić, zinterpretować go poprawnie lub użyć poprawnie. Ponadto, jeśli istnieje wiele sposobów na omówienie danych, absolutnie nic nie powstrzymuje Cię przed zgłoszeniem więcej niż jednego rozmiaru efektu. Możesz omówić swoje dane w kategoriach relacji liniowej, na przykład w zależności od momentu produktu lub w relacji między szeregami ze Spearmanem
r
i różnice między nimi lub po prostu podaj wszystkie informacje w tabeli. Nie ma w tym nic złego. Ale przede wszystkim będziesz musiał zdecydować, co chcesz osiągnąć przez wyniki. To jest coś, na co nie można odpowiedzieć z podanych informacji i może wymagać znacznie więcej informacji i wiedzy specyficznej dla domeny, niż jest to uzasadnione w przypadku pytania na tego rodzaju forum.I zawsze myśl meta-analitycznie o tym, jak zgłaszasz efekty. Czy ludzie w przyszłości będą mogli wziąć wyniki, które zgłaszam, i zintegrować je z innymi? Być może istnieje w tej dziedzinie standard dla tych rzeczy. Być może wybrałeś test nieparametryczny przede wszystkim dlatego, że nie ufasz wnioskom, które inni wyciągnęli o bazowych rozkładach i chcesz być bardziej konserwatywny w swoich założeniach w dziedzinie, która przede wszystkim używa testów parametrycznych. W takim przypadku nie ma nic złego w zapewnieniu dodatkowego rozmiaru efektu zwykle stosowanego w testach parametrycznych. Te i wiele innych kwestii należy wziąć pod uwagę, zastanawiając się, jak umieścić swoje odkrycie w większej literaturze podobnych badań. Zazwyczaj dobre statystyki opisowe rozwiązują te problemy.
To jest podstawowa rada. Mam kilka dodatkowych komentarzy. Jeśli chcesz, aby rozmiar twojego efektu był ściśle powiązany z wykonanym testem,
Z
zalecenie oparte jest oczywiście najlepsze. Twój ustandaryzowany rozmiar efektu będzie oznaczał to samo co test. Ale gdy tylko tego nie zrobisz, nie ma nic złego w używaniu większości czegokolwiek innego, nawet czegoś takiego jak Cohen,d
który jest związany z testami parametrycznymi. Nie ma założenia normalności dla obliczania średnich, odchyleń standardowych lubd
wyniki. W rzeczywistości istnieją słabsze założenia niż dla zalecanego współczynnika korelacji. I zawsze zgłaszaj dobre środki opisowe. Ponownie, środki opisowe nie mają założeń, które naruszasz, ale pamiętaj o ich merytorycznym znaczeniu. Raportujesz statystyki opisowe, które mówią coś o twoich danych, co chcesz powiedzieć, a środki, a medianie mówią różne rzeczy.Jeśli chcesz omówić powtarzane pomiary w porównaniu z niezależnymi rozmiarami efektów projektowych, to naprawdę nowe pytanie.
źródło