Liczba znaczących liczb do umieszczenia w tabeli?

13

Czy istnieje dobrze uzasadniona reguła dotycząca liczby znaczących postaci do opublikowania?

Oto kilka konkretnych przykładów / pytań:

  • Czy jest jakiś sposób na powiązanie liczby znaczących liczb ze współczynnikiem zmienności? Na przykład, jeśli szacunek wynosi 12,3, a CV wynosi 50%, czy to oznacza, że ​​informacja reprezentowana przez „.3” zbliża się do zera?

  • Jeśli przedział ufności ma zakres rzędów wielkości, czy powinny one nadal mieć tę samą liczbę cyfr znaczących, np .:

    12,3 (1,2, 123,4) vs 12 (1,2, 120)

  • Czy liczba znaczących cyfr w oszacowaniu błędu powinna być taka sama, czy mniejsza niż liczba cyfr znaczących w średniej?

David LeBauer
źródło
Jeśli możesz, nie używaj tabeli :) Grafiką jest, IMO, prawie zawsze łatwiejsza do odczytania niż tabela (oczywistym wyjątkiem jest to, że nie masz wielu liczb). Czasopisma i ich recenzenci nie zawsze się zgadzają, niestety ....
JMS
3
@JMS Dobra uwaga, ale tabele są przydatne do podsumowania szczegółowych cech jednostek statystycznych (sklasyfikowanych krzyżowo według interesującego czynnika, np. Diagnozy klinicznej lub czegoś innego), ze zmiennymi różnych typów (ciągły, nominalny i porządkowy) i innych uzyskanych wyników od modelowania statystycznego per se (matrycy dezorientacja, Coef regresji. itd.), które nie pasuje do figury (lub nie zawsze, jeśli myślisz o podejściu Gelmana dla pokazując reg. COEF. jako dotcharts). Potrzebujemy obu; pytanie brzmi, kiedy naprawdę potrzebujemy liczby zamiast tabeli, IMO.
chl
@chi Fair. Mówiłem prawie zawsze :). Rzeczy takie jak duże tablice n-way nie są w stanie (całkowicie) odtworzyć graficznie. To zależy od forum, które powiedziałbym. Oczywiście, tabele mają tę zaletę, że są kompletne, ale czy twój czytelnik rzeczywiście przyswaja wszystkie te dodatkowe informacje? Jeśli jest zbyt wiele parametrów, aby zmieścić się na wykresie, twierdzę, że tabela jest często co najmniej trudna do odczytania. Sądzę jednak, że pełne wyniki powinny być dostępne (online, dodatek itp.), Jeśli tylko dla odtwarzalności. W takim razie chciałbym też dane i kod! Wandered OT, przepraszam ..
JMS
Sądzę również, że współczynniki regresji i zamieszanie (korelacja, kowariancja, ...) są zwykle lepiej dostosowane do wyświetlania graficznego, wykresów punktowych lub podobnych w przypadku pierwszego i map termicznych lub wykresów w przypadku drugiego.
JMS
@JMS Zgadzam się z twoim punktem, ale w tym przypadku istnieje limit liczbowy, w niektórych innych przypadkach naliczane są opłaty liczbowe. Również w tym przypadku, jeśli czytelnicy spojrzą na stół i skupią się na prezentowanych liczbach, nie będą tracić czasu na próbę zrozumienia istoty ezoterycznej. Ale w pełni popieram odtwarzalność i, gdy już to robię, mógłbym (jeśli się obejrzę) dodać wizualizację tabeli do dołączonego kodu.
David LeBauer,

Odpowiedzi:

19

Wątpię, żeby istniała uniwersalna zasada, więc nie zamierzam jej nadrobić. Mogę podzielić się tymi przemyśleniami i ich przyczynami:

  • Gdy podsumowania odzwierciedlają same dane - maks., Min., Statystyki zamówień itp. - użyj tej samej liczby znaczących liczb, które posłużyły do ​​zarejestrowania danych. Zapewnia to spójną reprezentację w całym dokumencie dotyczącą dokładności danych.

  • nn3n3030<n300

    -Uwaga, że ​​CV nie zawiera użytecznych informacji w tym zakresie.

    -Niektóre szacunki można uzyskać z wielką precyzją. Nie muszą być zaokrąglane, aby dopasować coś innego. Na przykład średnia 1 000 000 liczb całkowitych może wynosić 10,977 ze standardowym błędem 0,00301. Moja decyzja o zapisaniu średniej do trzech miejsc po przecinku (i 4-5 cyfr sig) była oparta na rzędzie wielkości SE, co oznacza, że ​​ostatnia cyfra jest częściowo wiarygodna. Decyzja o zapisaniu SE do trzech cyfr sig (pięć miejsc po przecinku) jest bardziej arbitralna: działałyby dwie cyfry sig; prawdopodobnie nie; cztery figi sig również by działały i były zgodne ze średnimi figami 4-5 sig; więcej niż cztery figi byłyby przesadą. (Można oszacować błąd standardowy samej SE pod względem czwartego momentu danych i użyć go do ustalenia odpowiedniej wielkości zaokrąglenia, ale większość z nas nie ma takich problemów ...)

  • Sygnalizuj czytelnikowi, kiedy wykonujesz znaczące zaokrąglanie . Zachowaj szczególną ostrożność, gdy raport omawia sam test statystyczny . Powodem jest to, że ludzie mogą wykorzystywać twoją pracę do sprawdzania własnych obliczeń. Czasami nawet niewielka różnica może ujawnić błąd. Nie chcesz sprawiać kłopotów, ponieważ zaokrągliłeś 123 do 120, a ktoś inny, sprawdzając pracę, uzyskuje 123 i podejrzewa, że ​​jeden z was popełnił błąd.

  • Bądź konsekwentny . Możesz stracić niektórych czytelników, jeśli podasz w pewnym momencie wartość 123, a później odniesiesz ją do 120.

  • Nie bądź śmieszny . (Automatycznie podejrzewam niekompetencję, gdy napotkam raporty dające wyniki statystyczne 15 fig sig, gdy dane zawierają na przykład tylko dwie fig sig.)

Whuber
źródło
2
Moja bardzo duża +1, ponieważ to naprawdę dużo dobrych rad. W tym samym duchu lubię pokazywać uczniom, że podsumowanie danych zebranych z ankiet (lub głosów) jako% z dużą liczbą miejsc po przecinku jest bezcelowe, bez uwzględnienia wielkości próby (co wpływa na błąd standardowy).
chl
0

Sugerowałbym 12 (1.2, 123,4). Pomiń .3, ponieważ jest on prawie bez znaczenia, ale wiele osób, gdy go zobaczy (1.2, 120), uzna, że ​​ostatnie „0” na 120 jest znaczące.

AVB
źródło
Dlaczego sugerujesz pominięcie dziesiętnego dla statystyki zainteresowania, jeśli zgadzasz się na ich wyświetlanie w elementach CI (tzn. Jeśli nie ma to znaczenia dla 12, to dlaczego ma to sens dla 123.4)?
chl
@chl: nie ma to większego sensu, ale pominięcie go może wprowadzać w błąd. Jeśli wstawię 123.4, ktoś taki jak ty zobaczy dodatkowe cyfry i po prostu je zignoruje, bez szkody. Jeśli wstawię 120, wielu czytelników pomyśli, że jest to dokładność do 3 cyfr - źle.
AVB
wciąż nie jest jasne, dlaczego polecasz 123.4 zamiast 123 (dlaczego pominąć .3, ale nie .4 w przykładzie?)
David LeBauer