Przedziały ufności, gdy wielkość próbki jest bardzo duża

14

Moje pytanie można by sformułować jako „jak ocenić błąd próbkowania przy użyciu dużych zbiorów danych”, szczególnie w przypadku publikacji w czasopiśmie. Oto przykład ilustrujący wyzwanie.

Z bardzo dużego zestawu danych (> 100 000 unikalnych pacjentów i ich przepisanych leków ze 100 szpitali) chciałem oszacować odsetek pacjentów przyjmujących określony lek. Uzyskanie tej proporcji jest proste. Jego przedział ufności (np. Parametryczny lub bootstrap) jest niewiarygodnie ciasny / wąski, ponieważ n jest bardzo duży. Szczęśliwie jest mieć dużą próbkę, ale wciąż szukam sposobu oceny, prezentacji i / lub wizualizacji niektórych form prawdopodobieństwa błędu. Chociaż umieszczenie / wizualizacja przedziału ufności (np. 95% CI: .65878 - .65881) wydaje się nieprzydatne (jeśli nie wprowadzające w błąd), wydaje się również niemożliwe uniknięcie niektórych stwierdzeń dotyczących niepewności.

Proszę daj mi znać co myślisz. Byłbym wdzięczny za każdą literaturę na ten temat; sposoby uniknięcia nadmiernego zaufania do danych, nawet przy dużej wielkości próby.

so2015
źródło
7
Można uniknąć nadmiernej pewności, przypominając, że błędy niezwiązane z próbkowaniem pozostają nietknięte. Jeśli występują błędy w próbkowaniu i pomiarach, nadal istnieją. Ponadto, niezależnie od tego, czy liczysz unikalnych (wolę powiedzieć „odrębnych”) pacjentów, czy obserwacje zdefiniowane w inny sposób, istnieją (jak sądzę) struktury klastrowe łączące leki dla tego samego pacjenta i leki podawane w jakikolwiek sposób, które nie są uwzględniane w najprostszych obliczeniach przedziału ufności. Nie mam rozwiązania, które pozwoliłoby to określić ilościowo poza porównywaniem z innymi zestawami danych i dokumentowaniem tworzenia danych.
Nick Cox,

Odpowiedzi:

10

Problem ten pojawił się również w niektórych moich badaniach (jako modelarz epidemii mam luksus tworzenia własnych zestawów danych, a przy wystarczająco dużych komputerach można je zasadniczo dowolnie zmieniać. Kilka uwag:

  • Jeśli chodzi o raportowanie, myślę, że można zgłosić bardziej precyzyjne przedziały ufności, chociaż użyteczność tego jest uzasadniona, co do zasady, jest nieco wątpliwa. Ale to nie jest złe, a przy zestawach danych o tym rozmiarze nie sądzę, aby było wiele wezwań do zgłaszania zarówno przedziałów ufności popytu, jak i narzekania, że ​​naprawdę wszyscy chcielibyśmy, aby były zaokrąglone do dwóch cyfr itp.
  • Jeśli chodzi o unikanie nadmiernej pewności siebie, myślę, że kluczem jest pamiętać, że precyzja i dokładność to różne rzeczy, i aby uniknąć próby połączenia tych dwóch. Kiedy masz dużą próbkę, bardzo kuszące jest, aby wciągnąć się w to, jak bardzo precyzyjny jest szacowany efekt, i nie myśleć, że może być również błędny. Myślę, że to klucz - stronniczy zestaw danych będzie miał tendencyjność przy N = 10, 100, 1000 lub 100 000.

Głównym celem dużych zestawów danych jest dostarczenie dokładnych szacunków, więc nie sądzę, abyś musiał unikać tej precyzji. Ale musisz pamiętać, że nie możesz poprawić złych danych, po prostu gromadząc większe ilości złych danych.

Fomite
źródło
Myślę, że duża ilość złych danych jest wciąż lepsza niż niewielka ilość złych danych.
Aksakal,
@Aksakal Dlaczego? Dokładnie zła odpowiedź jest nadal zła.
Fomite,
@Fomite - tak, ale jesteś bardziej pewny, że to źle :)
Duncan
6

Ten problem pojawił się w moich rękopisach.

1. Opcje raportowania: jeśli masz tylko jeden lub kilka elementów CI do zgłoszenia, raportowanie „(np. 95% CI: .65878 - .65881)” nie jest zbyt szczegółowe i podkreśla precyzję elementu CI. Jeśli jednak masz wiele elementów CI, ogólna instrukcja może być bardziej pomocna dla czytelnika. Na przykład zwykle zgłaszam coś takiego, że „przy tej wielkości próby margines błędu 95% dla każdej proporcji był mniejszy niż +/- .010”. Zazwyczaj coś takiego zgłaszam w Metodzie, w podpisie Tabeli lub Ryciny albo w obu.

2. Unikanie „nadmiernej pewności” nawet przy dużej wielkości próby: Przy próbie 100 000 centralne twierdzenie o limicie zapewni bezpieczeństwo podczas zgłaszania CI dla proporcji. Tak więc w opisanej sytuacji powinieneś być w porządku, chyba że istnieją inne naruszenia założeń, których nie jestem świadomy (np. Naruszone iid).

Anthony
źródło
0

Nie zgłaszaj przedziałów ufności. Zamiast tego podaj dokładny rozmiar próbki i proporcje. Czytelnik będzie mógł obliczyć swoje CI w dowolny sposób.

Aksakal
źródło
4
Dlaczego to samo rozumowanie nie powinno być stosowane do wszystkich raportów danych ilościowych?
whuber
@ Whuber, dobre pytanie. Jestem zwolennikiem powtarzalnych badań, życzę wszystkim publikowania swoich zbiorów danych.
Aksakal,
6
Nie chciałem, żeby to potraktowano jako sugestię. Nawet jeśli wszyscy opublikowaliby swoje zbiory danych, uchyliliby swoje obowiązki naukowe, gdyby nie dostarczyli ich analizy - a to obejmuje analizę niepewności. Wydaje się, że zmierzasz w kierunku, który logicznie skończyłby się sugestią, że naukowcy robią tylko publikację danych, bez żadnej analizy! To kończy się oskarżeniem o zalecenie, aby nie zgłaszać instytucji kredytowych. Wskazuje wręcz przeciwnie, że w każdym przypadku należy oferować jakąś analizę statystyczną, niezależnie od wielkości próby.
whuber
0

Rozważ możliwość, że 100 różnych proporcji szpitali nie zbiegnie się do tej samej wartości średniej. Czy testowałeś wariancję między grupami? Jeśli istnieje mierzalna różnica między szpitalami, wówczas założenie, że próbki są generowane ze wspólnego rozkładu normalnego, nie jest obsługiwane i nie należy ich łączyć.

Jeśli jednak twoje dane rzeczywiście pochodzą z normalnie rozprowadzonej dużej próbki, nie znajdziesz użytecznych „stwierdzeń dotyczących niepewności” jako właściwości danych, ale po zastanowieniu się, dlaczego lub dlaczego statystyki nie powinny się generalizować - z powodu pewne nieodłączne uprzedzenia w kolekcji lub brak stacjonarności itp., na które powinieneś zwrócić uwagę.

John Mark
źródło