Test t-Welch dla nierównych wariancji (znany również jako Welch-Satterthwaite lub Welch-Aspin) ogólnie ma niecałkowite stopnie swobody . Jak należy podawać te stopnie swobody przy zgłaszaniu wyników testu?
„Konwencjonalne jest zaokrąglanie w dół do najbliższej liczby całkowitej przed sprawdzeniem standardowych tabel t” według różnych źródeł * - co ma sens, ponieważ ten kierunek zaokrąglania jest konserwatywny. ** Niektóre starsze oprogramowanie statystyczne również by to zrobiło (np. Graphpad Prism przed wersją 6 ), a niektóre kalkulatory internetowe nadal tak robią. Jeśli zastosowano tę procedurę, zgłaszanie zaokrąglonych stopni swobody wydaje się właściwe. (Chociaż użycie lepszego oprogramowania może być jeszcze bardziej odpowiednie!)
Jednak zdecydowana większość współczesnych pakietów korzysta z części ułamkowej, więc w tym przypadku wydaje się, że część ułamkowa powinna być cytowana. Nie uważam za właściwe cytowanie więcej niż dwóch miejsc po przecinku, ponieważ jedna tysięczna stopnia swobody miałaby jedynie znikomy wpływ na wartość p .
Rozglądając się wokół uczonego Google'a, widzę artykuły cytujące df jako liczbę całkowitą, z jednym miejscem dziesiętnym lub z dwoma miejscami dziesiętnymi. Czy istnieją jakieś wytyczne dotyczące tego, ile dokładności użyć? Ponadto, jeśli oprogramowanie wykorzystało pełną część ułamkową, czy podane df należy zaokrąglić w dół do pożądanej liczby cyfr (np. do 1 dp lub → 7 jako liczbę całkowitą), co było właściwe z zachowawczym obliczeniem lub, co wydaje mi się bardziej rozsądne, zaokrąglone konwencjonalnie ( do najbliższego ), tak że 7,5845 ... → 7,6 do 1 dp lub → 8 do najbliższej całości?
Edycja: oprócz znajomości najbardziej teoretycznie rozsądnego sposobu zgłaszania wartości nie-całkowitych df, dobrze byłoby również wiedzieć, co ludzie robią w praktyce . Przypuszczalnie dzienniki i przewodniki po stylu mają swoje własne wymagania. Byłbym ciekawy, czego wymagają wpływowe przewodniki po stylu, takie jak APA. Z tego, co mogę rozróżnić (ich instrukcja nie jest dostępna za darmo w Internecie), APA ma ogólną preferencję, że prawie wszystko powinno się pojawiać z dokładnością do dwóch miejsc po przecinku, z wyjątkiem wartości p (które mogą wynosić dwa lub trzy dp) i wartości procentowych (w zaokrągleniu do najbliższy procent) - który obejmuje zbocza regresji, statystyki t, statystyki F , statystyki i tak dalej. Jest to dość nielogiczne, biorąc pod uwagę, że drugie miejsce po przecinku zajmuje bardzo inną znaczącą liczbę i sugeruje zupełnie inną precyzję, w 2,47 niż w 982,47, ale może tłumaczyć liczbę Welch df dwoma miejscami dziesiętnymi, które widziałem w mojej nienaukowej próbce .
np. Ruxton, GD Nierówny test t wariancji jest niewykorzystaną alternatywą dla testu t Studenta oraz testu U Manna – Whitneya , Behavioural Ecology (lipiec / sierpień 2006) 17 (4): 688-690 doi: 10.1093 / beheco / ark016
Chociaż samo przybliżenie Welcha-Satterthwaite'a może, ale nie musi, być konserwatywne, aw przypadku, gdy nie jest konserwatywne, zaokrąglanie w dół stopni swobody nie gwarantuje ogólnej kompensacji.
źródło
Odpowiedzi:
Nie studiowałem rzeczywistej praktyki, więc ta odpowiedź nie może dotyczyć tego aspektu pytania. Jako ogólną zasadę oczekiwałbym, że sposób traktowania znaczących cyfr przy zgłaszaniu stopni swobody (df) będzie oparty na osądzie związanym z istotnymi liczbami.
Zasada musi być spójna : stosować precyzję w jednej ilości, która jest odpowiednia dla precyzji stosowanej w innej, która jest z nią związana. W szczególności przy zgłaszaniu wartości i y = f ( x ), gdy x jest podawane do najbliższej wielokrotności małej wartości h (takiej jak h = 1x y=f(x) x h sześć miejsc po przecinku), względne precyzjiYjako pośredniczy funkcjaFjesth=12×10−6 y f
Przybliżenie ma zastosowanie, gdy jest ciągle różnicowalny w przedziale [ x - h , x + h ] .f [x−h,x+h]
W niniejszym zgłoszeniu jest wartością p , x oznacza stopnie swobody ν , ay p x ν
gdzie jest statystyką Welcha-Satterthwaite'a, a F ν jest CDF rozkładu t Studenta o ν stopniach swobody.t Fν t ν
Na stosunkowo wysokim df , często zmiana pierwszego miejsca po przecinku nie zmieni wartość p w ogóle (do poziomu dokładności zgłoszonych), więc zaokrągleniu do liczby całkowitej jest w porządku ( h = 1 / 2 , ale h | dν h=1/2 Jest bardzo mały). W przypadku bardzo niskich wartości df i wartości ekstremalnych statystykitwielkość pochodnej| ∂h|ddxf(x)| t może przekraczać0,01, co sugeruje w takich przypadkach, żeνnależy zgłaszać tylko z jednym miejscem dziesiętnym mniejszym niżsamop.|∂∂νFν(t)| 0.01 ν p
Przekonaj się dzięki temu oznaczonemu wykresowi konturowemu wielkości pochodnej dla najniższego (rozsądnego) df i zakresów byłoby to interesujące (ponieważ mogą prowadzić do niskich wartości p).|t|
Etykiety pokazują logarytm 10 podstawy pochodnej. Zatem w punktach od do - ( k + 1 ) na tym wykresie, zmiana raportowanego df na j- tym miejscu po przecinku prawdopodobnie zmieni raportowaną wartość p tylko na ( j + k ) th i później miejsca. Na przykład, załóżmy, że są zaokrąglenia wartość p do 10 - 6 (sześciu miejsc po przecinku). Analiza danych statystycznych ν = 2,5 i t = 8 . Znajdują się one w pobliżu - 3−k −(k+1) jth (j+k)th 10−6 ν=2.5 t=8 −3 ν 6+(−3)=3
źródło
Powodem tego była konwencja, ponieważ tabele nie mają niefunkcjonalnych plików df. Nie ma powodu, aby robić to inaczej.
Cóż, statystyka nie ma w rzeczywistości rozkładu t, ponieważ mianownik kwadratowy tak naprawdę nie ma skalowanego rozkładu chi-kwadrat. Jest to przybliżenie, które może, ale nie musi być konserwatywne w niektórych przypadkach - zaokrąglenie df w dół może nie być pewne, jeśli weźmiemy pod uwagę dokładny rozkład statystyki w konkretnym przypadku.
Wartości p z rozkładów t (zastosowanie cdf do statystyki t) można obliczyć na podstawie szeregu całkiem dokładnych przybliżeń, więc są one skutecznie obliczane, a nie interpolowane.
Zgadzam się.
Jedną z możliwości może być zbadanie, jak dokładne jest przybliżenie Welch-Satterthwaite dla wartości p w tym ogólnym regionie współczynników wariancji, i nie podawanie znacznie większej dokładności względnej niż sugerowałoby to w df (pamiętając, że df na chi-kwadrat na kwadracie mianownika podają jedynie przybliżenie czegoś, co i tak nie jest chi-kwadrat).
źródło