Kontekst:
W poprzednim pytaniu @Robbie zadał w badaniu z około 600 przypadków, dlaczego testy normalności sugerują znaczną nienormalność, a wykresy sugerują rozkład normalny . Kilka osób zauważyło, że testy istotności normalności nie są zbyt przydatne. Przy małych próbkach takie testy nie mają dużej mocy do wykrycia łagodnych naruszeń normalności, a przy dużych próbkach wykrywają naruszenia normalności, które są wystarczająco małe, aby nie stanowić problemu.
Wydaje mi się, że ten problem jest podobny do debaty dotyczącej testowania istotności i wielkości efektów. Jeśli skupisz się tylko na testach istotności, gdy masz duże próbki, możesz wykryć małe efekty, które nie mają znaczenia praktycznego, a przy małych próbkach nie masz wystarczającej mocy.
W kilku przypadkach widziałem nawet podręczniki, które doradzają ludziom, że możesz mieć „zbyt dużą” próbkę, ponieważ małe efekty będą statystycznie znaczące.
W kontekście badania istotności i wielkości efektu, jedną prostą rozdzielczością jest skupienie się na oszacowaniu wielkości interesującego efektu, zamiast obsesji na punkcie binarnej reguły decyzji dotyczącej tego, czy efekt jest, czy nie. Przedziały ufności co do wielkości efektu to jedno z takich podejść lub można przyjąć jakąś formę podejścia bayesowskiego. Co więcej, różne dziedziny badawcze budują pomysły na temat tego, co dany rozmiar efektu oznacza w sensie praktycznym, na lepsze lub gorsze, stosując heurystyczne etykiety, takie jak „mały”, „średni” i „duży efekt”. Prowadzi to również do inteligentnej rekomendacji maksymalizacji wielkości próbki w celu maksymalizacji dokładności w szacowaniu danego parametru będącego przedmiotem zainteresowania.
To sprawia, że zastanawiam się, dlaczego podobne podejście oparte na przedziałach ufności wielkości efektu nie jest szerzej propagowane w odniesieniu do testowania założeń, a zwłaszcza testowania normalności.
Pytanie:
- Jaki jest najlepszy pojedynczy wskaźnik stopnia, w jakim dane naruszają normalność?
- A może po prostu lepiej mówić o wielu wskaźnikach naruszenia normalności (np. Skośność, kurtoza, występowanie wartości odstających)?
- Jak można obliczyć przedziały ufności (a może podejście bayesowskie) dla indeksu?
- Jakiego rodzaju słowne etykiety możesz przypisać punktom na tym indeksie, aby wskazać stopień naruszenia normalności (np. Łagodny, umiarkowany, silny, skrajny itp.)? Celem takich etykiet może być pomoc analitykom o mniejszym doświadczeniu w szkoleniu ich intuicji, kiedy naruszenia normalności są problematyczne.
Odpowiedzi:
A) Jaki jest najlepszy pojedynczy wskaźnik stopnia, w jakim dane naruszają normalność?
B) Czy może lepiej jest mówić o wielu wskaźnikach naruszenia normalności (np. Skośność, kurtoza, występowanie wartości odstających)?
Głosowałbym za B. Różne naruszenia mają różne konsekwencje. Na przykład, unimodalne, symetryczne rozkłady z ciężkimi ogonami sprawiają, że Twoje CI są bardzo szerokie i prawdopodobnie zmniejszają moc wykrywania jakichkolwiek efektów. Średnia jednak wciąż osiąga wartość „typową”. W przypadku bardzo wypaczonych rozkładów średnia na przykład może nie być bardzo rozsądnym wskaźnikiem „wartości typowej”.
C) W jaki sposób można obliczyć przedziały ufności (a może podejście bayesowskie) dla indeksu?
Nie znam statystyk bayesowskich, ale odnośnie klasycznego testu normalności chciałbym zacytować Erceg-Hurn i in. (2008) [2]:
D) Jakiego rodzaju słowne etykiety możesz przypisać punktom na tym indeksie, aby wskazać stopień naruszenia normalności (np. Łagodny, umiarkowany, silny, ekstremalny itp.)?
Micceri (1989) [1] przeprowadził analizę 440 dużych zestawów danych w psychologii. Ocenił symetrię i wagę ogona oraz zdefiniował kryteria i etykiety. Etykiety asymetrii wahają się od „względnie symetrycznego” do „umiarkowanego -> ekstremalnego -> wykładniczej asymetrii”. Etykiety dla zakresu masy ogona od „Jednolite -> mniej niż gaussowskie -> O Gaussowskim -> Umiarkowane -> Ekstremalne -> Podwójne wykładnicze zanieczyszczenie”. Każda klasyfikacja opiera się na wielu solidnych kryteriach.
Odkrył, że z tych 440 zestawów danych tylko 28% było względnie symetrycznych, a tylko 15% dotyczyło Gaussa w odniesieniu do masy ogona. Dlatego ładny tytuł pracy:
Napisałem
R
funkcję, która automatycznie ocenia kryteria Micceri, a także drukuje etykiety:[1] Micceri, T. (1989). Jednorożec, normalna krzywa i inne nieprawdopodobne stworzenia. Biuletyn psychologiczny, 105 , 156-166. doi: 10.1037 / 0033-2909.105.1.156
[2] Erceg-Hurn, DM i Mirosevich, VM (2008). Nowoczesne, solidne metody statystyczne: Łatwy sposób na maksymalizację dokładności i siły twoich badań. American Psychologist, 63 , 591-601.
źródło